Board logo

标题: 过滤规则历史记录 [打印本页]

作者: elkay    时间: 2007-1-16 16:25     标题: 过滤规则历史记录

这里是历史记录,里面也有很多站点的过滤规则,我以后有空就慢慢整理出来,这个帖子先留着大家用搜索功能查找自己需要的过滤规则把

[ 本帖最后由 elkay 于 2007-7-13 14:31 编辑 ]
作者: xuyong    时间: 2007-1-16 16:37

用了楼主的正则式,新浪网首页被过滤掉一大块,都是内容连接啊!
作者: ooloo    时间: 2007-1-16 16:38

不懂,关注中
作者: elkay    时间: 2007-1-16 16:39

嗯,新浪首页的确有点问题,错版了,我再看看。呵呵

新浪最麻烦了,广告跟内容都混在一起

[ 本帖最后由 elkay 于 2007-1-16 16:40 编辑 ]
作者: daoshan    时间: 2007-1-16 16:42

www.xunlei.com
大的广告横副,及搜索结果页面左边的广告都不能过滤
作者: Godot    时间: 2007-1-16 16:44

过滤脚本链接
作者: ooloo    时间: 2007-1-16 16:48

pconline首页也被过滤了一大块!
作者: luyear    时间: 2007-1-16 16:49     标题: 整个copy过去

新浪新闻什么都没了,哈哈
作者: elkay    时间: 2007-1-16 16:53

倒~~~
太平洋正常啊,新浪首页会错版,但是新闻中心页面也正常啊
作者: luyear    时间: 2007-1-16 16:56     标题: 你的正则怎么用的

[filter]
url0=/(\.|\/|_)(ad|adimage|adimg|adgif|adgraph|adinfo|adlog|adpic|banner|gg|guanggao|mygg|newhuagg|sms|sponsor|themis|usmsweb|union)(s)?(\d)*(\.|\/|_)/
url1=/[\W_]ad(?!=&)(banner|click|flow|frame|ima?ge?|log|serv(er|e)?|stream|type|view|vert(ising|isement)?|trix|xchange|wrapper)?s?[\W\d_]/

[ 本帖最后由 luyear 于 2007-1-16 16:57 编辑 ]
作者: elkay    时间: 2007-1-16 17:10

直接在选项里面复制到黑名单里就可以了
作者: WeeVee    时间: 2007-1-16 17:43

又见新浪
作者: wangqing    时间: 2007-1-16 19:06

打开新浪主页都乱了。。。
作者: elkay    时间: 2007-1-16 19:23

新浪的问题不管我的过滤的事,同样的正则式在其他浏览器都能正常运作,只有tw有问题,估计还是程序的问题,期待进一步完善
作者: laughingman    时间: 2007-1-16 19:27

这个论坛顶部的广告如何能过滤?1.3X很容易就过滤了,2.0一直不知如何才能成功过滤
http://www.tgfcer.com/club/forum-36-1.html
作者: sztb    时间: 2007-1-16 20:15

过滤太多了                        
精简一些
作者: needed    时间: 2007-1-16 20:17

请问一下#15的朋友,如果你用TW1.×将如何过滤?
附上2.0的正则过滤

1.关闭 TW2.0
2.打开ini
3.找到 [filter]
4.添加
ex0=<div class="maintable">\s<div\sclass="center"><br><a(?:.|\n)*?</div>\s</div>   //此处 ex0 如果存在请自己递增.
re0=<!-- ad -->
作者: libra    时间: 2007-1-16 21:42

原帖由 luyear 于 2007-1-16 16:56 发表

url0=/(\.|\/|_)(ad|adimage|adimg|adgif|adgraph|adinfo|adlog|adpic|banner|gg|guanggao|mygg|newhuagg|sms|sponsor|themis|usmsweb|union)(s)?(\d)*(\.|\/|_)/
url1=/ad(?!=&)(banner|click|flow|fra ...


正则过滤不是以ex0开头吗?
作者: laughingman    时间: 2007-1-16 21:45

回needed:
只是用了这两条:
url0=http://www.g1000.net/images/*
url1=http://www.tgfcer.com/club/gzimage/*
变成这样了
作者: elkay    时间: 2007-1-16 21:56

更新了

ps:楼上的朋友把我一楼的第一条改成下面的应该能杀掉
  1. /(\.|\/|_)(ad|adimage|adimg|adgif|adgraph|adinfo|adlog|adpic|banner|cpro|gg|guanggao|gzimage|mygg|newhuagg|sms|sponsor|themis|usmsweb|xc|union)(s)?(\d)*(\.|\/|_)/
复制代码

[ 本帖最后由 elkay 于 2007-1-16 21:58 编辑 ]
作者: tabris    时间: 2007-1-16 21:59

白名单似乎不好使啊 怎么回事呢
作者: caten    时间: 2007-1-16 22:02

选项里显示的是    网站白名单  别看错了   白名单的写法看置顶贴
作者: 靖哥哥    时间: 2007-1-16 22:37

http://www.tom.com/的效果不好哦。
作者: bobsons    时间: 2007-1-16 22:40

有的该杀没杀,有的不该杀却误杀,期待完善

[ 本帖最后由 bobsons 于 2007-1-16 22:43 编辑 ]
作者: elkay    时间: 2007-1-16 22:48

tom的还好啊,剩下的只能用页面元素过滤了,这个以后再说了,呵呵。

该杀的没有杀的麻烦给出连接,我去看看啊,至于误杀的暂时用白名单吧,目前先把该杀的都搞定了再慢慢想办法完善。
作者: bobsons    时间: 2007-1-16 22:57

最好在避免误杀的基础上完善

http://www.crsky.com/default.html

http://bt2.cnxp.com/Class2.html
作者: elkay    时间: 2007-1-16 23:03

ok 霏凡软件搞定,一楼更新,呵呵

影视帝国没有广告啊,你说的是误杀?

我也想避免误杀啊,不过每个人去的网站不一样,所以很难说能避免,而且有的网站的广告过滤跟别的网站的正常内容会冲突,所以只能用其他办法解决,所以我现在先解决了广告问题,回头在针对单个网站来解决误杀的问题
作者: 靖哥哥    时间: 2007-1-16 23:26

http://www.wo31.com/index/gwesdf ... type=1&mtype=rm
底部的弄不掉哦。
作者: elkay    时间: 2007-1-16 23:36

一楼的第一条改成如下:
  1. /(\.|\/|_)(ad|adimage|adimg|adgif|adgraph|adinfo|adlog|adpic|aliunion|all4ad|allyes|banner|cpc|cpro|gg|ggao|guanggao|mygg|newhuagg|p4p|sms|sponsor|themis|usmsweb|xc|union)(s)?(\d)*(\.|\/|_)/
复制代码

作者: needed    时间: 2007-1-16 23:37

发现原来过滤有长度的..弄了条比较长的....结果保存后就不见了尾巴...

  1. /12xin|1tong|265|51yes|9kuku|a9000|ad[v]?|adbrite|adjs|ad[s\d]*?|adsence|allyes|analytics|banner|caiku|chinabbs|cnzz|cpc|cpro|cx365|cxads|daqi|fwtop|gg[ao]*|googlesyndication|heima8|hotadv|itv|joyoo|keyrun|mm09|myad|netfilm|ok8848|okeaa|p4p|popme|qihoo|spcode|taolai|textclick|textlink|tjswzx|tom110|ulinkjs|union|union|unstat|xxsina|ya-hui|yeeyoo/
复制代码

作者: 靖哥哥    时间: 2007-1-16 23:46

elkay辛苦了,名单现在修正的强多了
sina首页也正常啦
作者: xym110    时间: 2007-1-17 00:02

http://www.5ud.com/
无法清除干净
作者: elkay    时间: 2007-1-17 00:07

楼上的,那个网站不能用正则过滤,因为如果写入正则,误杀率起码99.999%

你把下面2条加入黑名单吧
  1. http://www.5ud.com/images/xbsm.gif
  2. http://www.5ud.com/images/nihao.gif
复制代码




[ 本帖最后由 elkay 于 2007-1-17 00:08 编辑 ]
作者: xym110    时间: 2007-1-17 00:11


作者: xym110    时间: 2007-1-17 00:12

使用正则会导致这个网站访问不正常..这个网站的广告又狂多..方便你分析啊
http://bt.ep8.net/
作者: xym110    时间: 2007-1-17 00:13

http://www.btpig.com/bbs/
猪猪乐园的广告也无法清除.
作者: elkay    时间: 2007-1-17 00:23

一楼更新,ep8那个干掉一些,猪猪乐园的应该没有广告啦?只有页面上方一排文字广告,那个是不能用黑名单过滤的
作者: wyg1258    时间: 2007-1-17 00:36

杀的 新浪 片甲不留  
一张图片都看不见了~~
作者: elkay    时间: 2007-1-17 00:44

不好意思,现在已经修正,呵呵
作者: needed    时间: 2007-1-17 00:46

http://www.btpig.com/bbs/
猪猪乐园 广告  HTML 过滤

ex0=\s{3}<tr>\s(?:.|\n)*?</tr>\s{10}
re0=<! -__,- !>
作者: xuyong    时间: 2007-1-17 08:29

新浪网正常了
作者: xuyong    时间: 2007-1-17 09:15

163邮箱不能登陆!
作者: xuyong    时间: 2007-1-17 15:14

霏凡软件站  http://www.crsky.com/default.html  首页不正常
作者: sixsheeps    时间: 2007-1-17 15:44

那现在总结的正则表达式是啥?
作者: mutalisker    时间: 2007-1-17 16:59

这个帖子中的正则表达式是针对img,iframe,js等标签src的过滤,和网页整体的用正则表达式过滤是两回事


另外,楼主的过滤项导致sina不能正常显示的问题已经找到并解决了,下个版本就能体现
作者: tianyu21ty    时间: 2007-1-17 17:05

支持楼主的无私奉献~~~
作者: elkay    时间: 2007-1-17 17:12

霏凡软件正常啊,已经没有广告了
作者: tudou    时间: 2007-1-17 19:51

news.163.com上的三星手机广告,news.sohu.com上两边的广告,news.qq.com上两边的广告漏网。
作者: evilcat    时间: 2007-1-17 19:55

原帖由 mutalisker 于 2007-1-17 16:59 发表
这个帖子中的正则表达式是针对img,iframe,js等标签src的过滤,和网页整体的用正则表达式过滤是两回事


另外,楼主的过滤项导致sina不能正常显示的问题已经找到并解决了,下个版本就能体现


果然是凤凰工作室的广告语:永远和用户在一起

LZ辛苦,无私的为咱们提供大家都不太明白的正则
作者: elkay    时间: 2007-1-17 20:11

163没有广告了?麻烦给个截图,或者说明一下广告的位置?我再看看,我这里是一个广告也没有了

qq已经修正,请看一楼更新

sohu的问题2边也没有广告了,但是的确有遗漏,原因是跟新浪一样,会错版,新版的tw修正后我会加入
作者: elkay    时间: 2007-1-17 20:13

原帖由 evilcat 于 2007-1-17 19:55 发表


果然是凤凰工作室的广告语:永远和用户在一起

LZ辛苦,无私的为咱们提供大家都不太明白的正则



其实我也不太明白正则,也只是稍微了解一点点,正好能派上些用场而已

作者: tudou    时间: 2007-1-17 20:18

163的这个广告好像是定时显示的,几秒钟自动消失。
作者: elkay    时间: 2007-1-17 20:23

这个应该是浮动广告吧?我从来没有看到过这个广告
有没有打开tw的浮动元素广告过滤?试试看,呵呵
作者: x-x-x    时间: 2007-1-17 20:29

新浪首页还是会错版

[ 本帖最后由 x-x-x 于 2007-1-17 20:31 编辑 ]
作者: elkay    时间: 2007-1-17 20:48

新浪的问题还是等等开发组来解决吧,呵呵,说是下一版就会解决,目前sohu也有这个问题,估计到时就能一并解决的
作者: tudou    时间: 2007-1-17 20:50

没想到KIS的反广告也支持正则表达式,我将搂猪的正则填进KIS的反广告黑名单,还真管用! TW的黑名单过滤就可以关了。
作者: elkay    时间: 2007-1-17 20:52

呵呵,正则式都是通用的,其他支持正则的浏览器也能用
作者: wangqing    时间: 2007-1-17 21:20

http://down.oyksoft.com/downinfo/146.html

过滤后看不到下载链接了
作者: elkay    时间: 2007-1-17 21:32

楼上的不是过滤的问题吧,那个网站的其他软件都可以下载的,估计是网站本身的问题
作者: wangqing    时间: 2007-1-17 22:02

原帖由 elkay 于 2007-1-17 21:32 发表
楼上的不是过滤的问题吧,那个网站的其他软件都可以下载的,估计是网站本身的问题


http://down.oyksoft.com/downinfo/145.html

随便找一个都找不到下载链接
作者: 9wis    时间: 2007-1-17 22:19

谢谢分享!
作者: 靖哥哥    时间: 2007-1-17 22:25     标题: 回复 #60 wangqing 的帖子

嗯,是被过滤掉了。
作者: elkay    时间: 2007-1-17 22:43

嗯,的确是有问题,这个应该等开发组解决了,为了测试正则,我同时在用tw和firefox,都使用同一份正则式,在firefox下这个网站是正常的,而且我看了源代码,过滤掉的那部分不匹配我的正则式啊,同样的新浪,sohu,还有网易邮箱基本上都是tw程序的问题才导致过滤出问题的,呵呵,不知道开发组有没有解决方案
作者: goodayoo    时间: 2007-1-17 22:51

你把图片全部都干掉了,好像回到了石器时代啊,速度是上去了,但有用的信息也没有了。
作者: elkay    时间: 2007-1-17 22:55

没有吧?我只是干掉广告图片啊,当然,误杀是肯定有的,呵呵,那个网站有误杀麻烦提供一下我去看看
作者: 乐天    时间: 2007-1-17 23:45

http://www.17173.com/   会出来视频。。。。。
作者: 68008605    时间: 2007-1-18 00:14

第一行和第三行有一些是重复的吧。。
作者: 100662    时间: 2007-1-18 00:23

我只知道正则很方便 就是不会用 等官方包
作者: elkay    时间: 2007-1-18 02:04

17173太变态了,广告N多啊,由于它网站上的广告路径的问题为了避免误杀就直接给出单个网站黑名单吧,呵呵,只有一条就不写正则了
  1. *.17173.com/www/if/*
复制代码

关于视频,我在17173上没有看到视频啊

[ 本帖最后由 elkay 于 2007-1-18 02:05 编辑 ]
作者: jym2005    时间: 2007-1-18 08:42

提示: 作者被禁止或删除 内容自动屏蔽
作者: zhchgao    时间: 2007-1-18 08:54

支持楼主一下!继续加油。
作者: jym2005    时间: 2007-1-18 10:55

提示: 作者被禁止或删除 内容自动屏蔽
作者: tianyu21ty    时间: 2007-1-18 11:32

http://www.djaol.com/index/htm/11655.htm 这个网站还是有广告~~~
作者: juxina    时间: 2007-1-18 11:47

谢谢LZ分享!
作者: elkay    时间: 2007-1-18 15:17

原帖由 jym2005 于 2007-1-18 08:42 发表
霏凡首页显示不是很正常,还有下载页底部有广告

http://un.265.com/index.htm?id=crsky

265上网导航 - 最多中国人使用的电脑主页


我真的看不到广告了啊,麻烦你截个图给我看看好么?

原帖由 tianyu21ty 于 2007-1-18 11:32 发表
http://www.djaol.com/index/htm/11655.htm 这个网站还是有广告~~~


把下面的复制到黑名单
  1. /\.(djaol|djff|djmtv)\.(com)(\/)(gao)(\/)/
复制代码



原帖由 jym2005 于 2007-1-18 10:55 发表
http://down.oyksoft.com/downinfo/2.html

还有此处左边列表错位

再等几天吧,看看新版的tw能不能解决,不行再说
作者: jym2005    时间: 2007-1-18 15:59

提示: 作者被禁止或删除 内容自动屏蔽
作者: jym2005    时间: 2007-1-18 16:00

提示: 作者被禁止或删除 内容自动屏蔽
作者: kof758    时间: 2007-1-18 16:14

这帖子该制定
作者: ykk    时间: 2007-1-18 17:48

刚刚试了一下,很好。谢谢!
作者: jym2005    时间: 2007-1-18 17:54

提示: 作者被禁止或删除 内容自动屏蔽
作者: ddaiqq    时间: 2007-1-18 18:05

留个贴 日后用到好查找
作者: elkay    时间: 2007-1-18 18:18

霏凡软件再次修正,请看一楼,谢谢关注
作者: jym2005    时间: 2007-1-18 18:31

提示: 作者被禁止或删除 内容自动屏蔽
作者: elkay    时间: 2007-1-18 18:54

这个....

试了一下,搜索某些关键字的确会这样,我也不知道为什么啊

把google加入白名单也没用,暂时在用google出现问题的时候关掉广告过滤吧,我再研究下。

因为我的正则都是先在firefox测试的,正常以后再拿到tw测试,然后发布,可能会出现兼容性问题,不过按理说应该不会啊 ,希望开发组也看到这个情况
作者: 靖哥哥    时间: 2007-1-18 18:58

http://cctv.sina.com.cn/news/2007-01-18/28604.html
sina视频被杀
作者: sixsheeps    时间: 2007-1-18 19:03

elkay  太可爱了!!霏凡什么广告都没有了。真是干净啊!!!!!
作者: elkay    时间: 2007-1-18 19:22

*.sina.com.cn/ad/video/MediaPlayer.js

把上面的加到白名单应该可以了吧?
作者: WeeVee    时间: 2007-1-18 19:25

用上了~~ :-)
作者: kidkidkid    时间: 2007-1-18 19:30

看了一下, 感觉还不够模版化.也许是黑名单过滤的先天缺点吧.

建议LZ多研究研究HTML内容的正则式过滤, 会有收获的:>

其实SINA的广告我都舍不得过滤的, 看上去感觉还不错.
作者: 靖哥哥    时间: 2007-1-18 19:32     标题: 回复 #87 elkay 的帖子

无效
我都不知道白名单究竟可以用不。
作者: elkay    时间: 2007-1-18 19:42

原帖由 kidkidkid 于 2007-1-18 19:30 发表
看了一下, 感觉还不够模版化.也许是黑名单过滤的先天缺点吧.

建议LZ多研究研究HTML内容的正则式过滤, 会有收获的:>

其实SINA的广告我都舍不得过滤的, 看上去感觉还不错.


黑名单过滤本来只是过滤掉一些常见的网络广告的连接,当然不能做到很完善。

我才懒得去研究页面元素过滤,如果用现在这个方式去过滤页面元素我宁可不过滤了 ,这个本来就是懒人用的东西,要懒人去做一些很枯燥的事情不太可能吧。所以我一直建议开发组使用adblock页面元素隐藏的方式 ,因为简单,不需要去研究,只要稍微你看得懂网页源码,找到你想要过滤的任意部分一个句子就能去掉,根本不需要动用正则,而且这种方式最好的优点就是一个网站匹配一个过滤规则,最大限度避免误杀,同时也能提高效率。

正因为firefox有adblock所以我的主力浏览器是FF,当然我希望tw能拥有相同的功能,或者至少能兼容adblock的过滤规则写法,这样能极大的方便用户的使用。

再说说我为什么不用maxthon,看看maxthon的过滤方式吧,有几个用户会自己编写的?一般的用户看到那些代码就头晕了,呵呵


to:靖哥哥:
我看可能是白名单不起作用的原因,1.3x时代就是用这个方法来避免sina视频被误杀的,一直有效,呵呵
作者: mutalisker    时间: 2007-1-18 19:42

原帖由 elkay 于 2007-1-18 19:22 发表
*.sina.com.cn/ad/video/MediaPlayer.js

把上面的加到白名单应该可以了吧?


白名单是网站白名单,是针对域名的,正确的做法是把这个串写成@@*.sina.com.cn/ad/video/MediaPlayer.js,然后加到过滤规则中
作者: elkay    时间: 2007-1-18 19:45

原帖由 mutalisker 于 2007-1-18 19:42 发表


白名单是网站白名单,是针对域名的,正确的做法是把这个串写成@@*.sina.com.cn/ad/video/MediaPlayer.js,然后加到过滤规则中


好像还是没用...
那我没办法了,除非不过滤/ad/
作者: 靖哥哥    时间: 2007-1-18 20:03

白名单是写成@@*.sina.com.cn/ad/video/MediaPlayer.js的
b4p3中白名单感觉很难有作用.
和讯的博客,163的邮箱等添加白名单基本都是无效的。比如163邮箱:@@*mail.163.com*
一样无法避免被过滤。
和讯的博客文章编辑页面被过滤,:http://post.blog.hexun.com/inc/adminarticleedit.aspx?blogname=jinggege1109
白名单中添加@@*admin*   也是无效的。可能是我不会写规则吧,请教下?

[ 本帖最后由 靖哥哥 于 2007-1-18 20:28 编辑 ]
作者: tianyu21ty    时间: 2007-1-19 10:25

添加以后,这个网站的网页显示不完:http://bbs.yhbest.cn/thread-242998-1-1.html
作者: tabris    时间: 2007-1-19 12:26

是的  白名单并不好使
作者: 18834251    时间: 2007-1-19 14:30

楼主好强啊!希望再次更新一些啊!
作者: 风中流云    时间: 2007-1-19 14:56

谢啦~~加入后封杀能力果然提升~~
作者: elkay    时间: 2007-1-19 15:28

原帖由 tianyu21ty 于 2007-1-19 10:25 发表
添加以后,这个网站的网页显示不完:http://bbs.yhbest.cn/thread-242998-1-1.html



我试过没有问题啊
作者: elkay    时间: 2007-1-19 15:41

少许更新




欢迎光临 世界之窗论坛 (http://bbs.theworld.cn/) Powered by Discuz! 7.2