Board logo

标题: 关于朋友们设置网页黑名单元素过滤的一些建议8月24日修正更新:) [打印本页]

作者: starsoft    时间: 2005-7-28 18:26     标题: 关于朋友们设置网页黑名单元素过滤的一些建议8月24日修正更新:)

关于朋友们设置网页黑名单元素过滤的一些建议:

1.不推荐使用有些朋友用的大列表.大列表黑名单是影响效能的.

2.应该使用少而概的黑名单,再用白名单例外.

   理由如下:我没看过TW黑名单的源代码但是无非是每个链接请求都会判断是不是黑名单里的.也就是要一一比对黑名单里的全部内容.如果黑名单一大,一个网页有100个地址,你有30条,就要比3000次.如果黑名单少,效率就高,如果一条地址命中黑名单的规则,TW相信一定会去找白名单,是不是会取消过滤.这样就只对可疑的地址作了比对.而不是在第一关就详细的比对.

    实例: 甲设置:黑名单30条  白名单:10条
            乙设置:黑名单10条  白名单:30条
            甲乙的设置都是共40条规则
            假设网页有一100个地址(URL).其中有5条广告URL.
      极坏的情况(黑白名单最后一条规则才命中):
           甲设置:比对次数是:100(注URL)*30(黑名单条数)+5(可疑的广告URL)*10(白名单规则)=3050
           乙设置:比对次数是:100*10+5*30=1150
      极好的情况(黑白名单第一条规则就命中):
            甲:100*1+5*1=105次           乙:100*1+5*1=105次
      次好情况甲(第一条规则命中黑名单,但最后一条白名单命中)
           甲:100*1+5*10=150         乙:100*1+5*30=250
      次好情况乙(最后一条规则命中黑名单,但第一条白名单就命中)
           甲:100*30+5*1=3005        乙:100*10+5*1=1005
      其他情况就不好说了

我相信这样设置效率是会提高了.甲设置太多不确定的因素,第一个规则就撞上,机率有多大?而且TW似乎不支持规则的排序,也就是不能设置各条规则的优先级.手动改INI文件也不行.上面来看只有在上面第三种情况时甲设置有少100次比对的优势,而乙却共有少3900次的优势.

推荐一个我的规则,对国内的网站效果是很好的.我对过滤的规则的限定是黑白名单加起来不超过20,现在还远没达到

黑名单:
*/*banner*   拦横幅.
*/ad*          拦大多数广告,有误拦.有以下白名单修正
*/mms/*     最有中国特色的短信广告小图片.是我最不想看的
*/sms/*      同上
*.narrowad.*   窄告
*0x*0.gif        屏蔽文件名为XX数字X数字格式命名的GIF图片


白名单: 修正以上的误拦
*/admin*    常出现的/AD开头的地址元素,多为正常内容
*/adv*       同上
*add*     同上
*show*    常出现在一些动态网页地址里,去掉打开有些用到这个词的网站会卡,或出不来.如以前有一个版本打开PCONLINE打不开,加这个进白名单解决.
*play*      考虑了新浪的视频播放和其他网站的兼容问题
*job*       如果你从不访问招聘网站不用此条,如果你要看招聘信息一定要这条.
*PIC*      加不加看你的具体情况
*files/*     同上.

可考虑加入的白名单:*.css    *.js   这可以保持网页的完整性,但是很容易出现广告没显示,但是格式还是在那空着,有些网站这个不加这两条白名单可以完美的过滤广告(不留白).比如(CHINABYTE)

我当然也只是想当然如果有什么不对的地方,欢迎指正.

[ Last edited by starsoft on 2005-8-24 at 01:22 PM ]
作者: xyahoo    时间: 2005-7-28 21:16

楼主的不错!!
作者: mutalisker    时间: 2005-7-28 21:19

同意楼上的说法,这也是TW没有提供简便的增加黑名单的方法的主要原因

另外,黑名单如果太精简就会增大误拦机会的,*/ad*这一条好像会导致sina的视频不能正常显示
作者: xyahoo    时间: 2005-7-28 21:24

新浪视频不能显示,白名单里面加
*/mediaplayer.js
作者: xwhyc    时间: 2005-7-28 22:28

Originally posted by starsoft at 2005-7-28 06:26 PM:
*/*banner*   拦横幅.

这个写成*banner*就可以了,因为每个网址都以http://开头的实际上已包含*/了,应该是这样吧。
作者: starsoft    时间: 2005-7-29 09:08

Originally posted by xyahoo at 2005-7-28 09:24 PM:
新浪视频不能显示,白名单里面加
*/mediaplayer.js



的确,有一个少而精的规则才好维护. 这行写成
*DISPLAY*可能会更通用.这和*SHOW*是一个道理
作者: phoenix    时间: 2005-8-3 11:12

这个帖子很强啊,我才看到,加精
作者: 清风拂影    时间: 2005-8-3 15:24

不错!
作者: ynkm169    时间: 2005-8-4 07:38

那我就马上试试,我可是很少用黑名单的
作者: red-M    时间: 2005-8-4 10:53

确实很好的经验!
ps:新浪视频不能显示,白名单里面加
*/mediaplayer.js   我正找呢,^_^
作者: 小絮    时间: 2005-8-7 20:44

*/sms/*这条黑名单使chinaren同学录显示不正常,很多表情都被过滤了,我在白名单中增加 */cs/sms/* 修正不知道好不好,我现在用着还可以。

这是个强贴,希望大家能多交流交流,不要让这么好的贴子沉下去!
作者: starsoft    时间: 2005-8-8 03:00

个人感觉加*alumni*可能好些.因为alumni这个单词有意义,你要上的网页的URL里如果有这个词,说明应该是有alumni这个意思的.这里遇到后,以后也许别处还会遇到,可以增加适应性.

拦截的表达式应该尽量使用大多数人会理性的想法,而不是去适应那些拍脑袋想出来的.

[ Last edited by starsoft on 2005-8-8 at 03:04 AM ]
作者: 小絮    时间: 2005-8-8 08:54

一开始我也用 *alumni* 的,可是用这个的话进入班机管理仍然会出现错误拦截,所以后来才改成 */cs/sms/*
作者: starsoft    时间: 2005-8-8 09:07

呵呵,我不是那的用户只看了表面.

不过我遇到这种情况,一般是临时关闭黑名单过滤,这样效率还好些.毕竟加了不相关的规则后,其他的浏览就效率低了.

很希望黑名单在状态栏有个开关,就像是FLASH拦截一样
作者: 伤自尊了    时间: 2005-8-8 16:44

建议高手将自己的黑名单放上来与大家研究讨论,然后得出一个最佳的过滤方案。另外,TW官方是不是也能放出最佳方案供菜鸟和懒人们使用呢?
作者: jnyy    时间: 2005-8-8 17:26

想请问楼主,下面这个怎么屏蔽掉,如果规则太猛影响太大,要能精确屏蔽就好了
作者: starsoft    时间: 2005-8-8 18:42

这个应该是和BTCHINA是一样的广告,不好屏你如果常上这个网站可以分析它的网页代码.你没有贴URL,下面是BTCHINA的广告代码的一部分.
<script src="js/WaitAd.js"></script>
<script language="javascript">
<!--
var mydt = new Date();
var hr = mydt.getSeconds();
var mr = mydt.getMilliseconds();
hr=hr%60;
if(hr>=47){
Adv("","","",'<IFRAME MARGINHEIGHT=0 MARGINWIDTH=0 FRAMEBORDER=0 WIDTH=400 HEIGHT=300 SCROLLING=NO SRC="http://iplus.allyes.com/main/adfshow?user=iplus|btchina|btchina_10008&db=iplus&border=0&local=yes"><SCR'+'IPT LANGUAGE="JavaScript1.1" SRC="http://iplus.allyes.com/main/adfshow?user=iplus|btchina|btchina_10008&db=iplus&local=yes&js=on"></SCR'+'IPT><NOSCRIPT><A HREF="http://iplus.allyes.com/main/adfclick?user=iplus|btchina|btchina_10008&db=iplus"><IMG SRC="http://iplus.allyes.com/main/adfshow?user=iplus|btchina|btchina_10008&db=iplus" WIDTH=400 HEIGHT=300 BORDER=0></a></NOSCRIPT></IFRAME>');
}
else if(hr>=50){
Adv("","","",'<IFRAME MARGINHEIGHT=0 MARGINWIDTH=0 FRAMEBORDER=0 WIDTH=500 HEIGHT=300 SCROLLING=NO SRC="http://iplus.allyes.com/main/adfshow?user=iplus|btchina|btchina_10016&db=iplus&border=0&local=yes"><SCRI'+'PT LANGUAGE="JavaScript1.1" SRC="http://iplus.allyes.com/main/adfshow?user=iplus|btchina|btchina_10016&db=iplus&local=yes&js=on"></SC'+'RIPT><NOSCRIPT><A HREF="http://iplus.allyes.com/main/adfclick?user=iplus|btchina|btchina_10016&db=iplus"><IMG SRC="http://iplus.allyes.com/main/adfshow?user=iplus|btchina|btchina_10016&db=iplus" WIDTH=500 HEIGHT=300 BORDER=0></a></NOSCRIPT></IFRAME>');
}
else if(hr>=45){
Adv("","","",'<IFRAME WIDTH=750 HEIGHT=300 MARGINWIDTH=0 MARGINHEIGHT=0 HSPACE=0 VSPACE=0 FRAMEBORDER=0 SCROLLING=no BORDERCOLOR=#000000 SRC="http://image.btchina.net/gg3.htm"></iframe>');

应该其他的网站的代码应该也是类似.于是在黑名单中加*/WaitAd.js*就可以拦截BTCHINA上类似楼上的广告.

具体的分析方法:
1.先在弹出广告上点右键看属性,看URL是多少.
2.看网页的源代码.寻找刚才看到的URLL.
3.在找到的URL的附近上下文中找到JS脚本的相关代码,然后定义规则.

[ Last edited by starsoft on 2005-8-8 at 06:46 PM ]
作者: jnyy    时间: 2005-8-8 18:55

太专业、复杂了!
这个是影视帝国的论坛网页,url是http://bbs.cnxp.com/list.asp?boardid=187,广告图片是http://image.bbs.cnxp.com/gg/dream400x300.GIF,请楼主帮忙!
再有这个网站用GoSurf没有这个现象,不知可否借鉴?
作者: starsoft    时间: 2005-8-8 19:08

我就用楼顶的设置,上你的URL点主题没有任何你图中的广告,开IE有.

这个广告只是过渡一下,我觉得也没有什么必要拦

[ Last edited by starsoft on 2005-8-8 at 07:22 PM ]
作者: jnyy    时间: 2005-8-8 19:29

谢谢楼主了,已经解决!
作者: 8008820    时间: 2005-8-14 12:10

用楼主的名单是不是要把原来默认的那些给删掉啊?
*那些就足够了么?
作者: starsoft    时间: 2005-8-14 13:28

是的。

是否足够,要视你经常上哪些网站,一般国内网站,这几条基本会够了,看你的容忍度了.
作者: cj8631    时间: 2005-8-14 13:31

很好,学习了。
好像对华军站过滤效果不好:
http://www.onlinedown.net/index.htm
作者: 小絮    时间: 2005-8-14 13:42

我觉得还可以,我喜欢有一点广告,毕竟这样可以保证网页的视觉效果,其实广告对网页也是有点缀作用的,令人讨厌的只是那些满屏幕飞的东西而已,只要能屏蔽掉那些东西就可以了。如果楼上的朋友不喜欢华军的广告,可以在黑名单中加入: */newhuagg/*  就不会再有广告骚扰人了,不过我觉得这样做后网页不好看了。
作者: starsoft    时间: 2005-8-14 13:54

对华军支持得不好是,他广告太多,我决定找更好的下载站,放弃了华军.
作者: 掸子    时间: 2005-8-14 15:01

清除了原来的,用了楼主的,感觉挺不错。
作者: ALEX    时间: 2005-8-14 15:10

不错,真精简
我觉得再加上这样两条就可以把很多FLASH广告也过滤掉了
*im*g*.swf*
*face*swf
作者: starsoft    时间: 2005-8-14 15:37

我用TW自己的不显示FLASH,要用时打开.反正就在状态条上
作者: cj8631    时间: 2005-8-14 16:54

效果很好,应该置顶
作者: 小絮    时间: 2005-8-15 11:23

呵呵,我早就说过这是个强贴,坚决不让它沉下去!
作者: lcpcn    时间: 2005-8-15 12:30

希望楼主这样的高人多发一些这样的好帖子。也希望能不断的更新这个帖子。
作者: sztb    时间: 2005-8-15 12:33

不错,不错.有道理,现在清楚了.
作者: starsoft    时间: 2005-8-15 13:23

也不是什么强人,这个规则的一些方法也是有前提的,就是TW不支持名单的优先级,但是我相信TW不久就会支持的,你可以把最有可能命中的放在前面来提高长黑名单的效率.所以到时候长的黑名单可能也会带来高效率.

我也想更新,但是一是我对广告的容忍度看来也算还是高,加上浏览已经趋向稳定,一些常上的网站已经没有使我心烦,也没想过如何优化了.

非常感谢大家的回贴,说明这个小贴也还有点价值.
作者: 小絮    时间: 2005-8-18 23:59

关于楼主给出的白名单好像有点问题,刚刚去天网的首页发现所有图片被屏蔽,查看了一下原来是被黑名单*/ad*给拦住了,但白名单中有一条 */admin 却没有作用,将其改为 */admin*,天网首页的图片显示正常,因此本人得出结论,以下两条白名单: */admin   */adv  ,是否应改为 */admin*   */adv*   ,也许是楼主的笔误没在最后添“*”,若不是笔误,请楼主说一下哪种好。谢谢。
作者: goodayoo    时间: 2005-8-19 00:27

不错,就是太精了一点,我觉得应该从这个基础上再加上一点,以确保兼容性。

希望楼主多点试验,把大多数常用的网站都试一次,找到最完美的黑、白名单。
作者: ALEX    时间: 2005-8-21 10:13

Originally posted by 三月飞絮 at 2005-8-18 11:59 PM:
关于楼主给出的白名单好像有点问题,刚刚去天网的首页发现所有图片被屏蔽,查看了一下原来是被黑名单*/ad*给拦住了,但白名单中有一条 */admin 却没有作用,将其改为 */admin*,天网首页的图片显示正常,因此本人 ...


赞同,我也是这么改的
作者: 雕刻时光    时间: 2005-8-21 13:57

确实很好啊
霏凡软件站清爽多了
http://www.crsky.com/default.html
作者: starsoft    时间: 2005-8-24 13:06

不好意思,这么久才发现,的确是笔误.


谢谢指正


这几天外去了,才看到顶楼已经修正

[ Last edited by starsoft on 2005-8-24 at 01:11 PM ]
作者: 小絮    时间: 2005-8-26 22:23

经常浏览WWW.CRSKY.COM霏凡软件的朋友建议在黑名单中加上:
*/ads*
*/in_top?.js
*/ggao*
*/good/*

[ Last edited by 三月飞絮 on 2005-10-9 at 09:07 AM ]
作者: rasis    时间: 2005-8-26 23:26

我来说两句
1,一般网站的广告基本是由gif格式和swf格式组成 gif一般都是动态广告 swf也就不用说了,所以我们可以把 网站/*.gif  网站/*.swf  作为黑名单 这种方式比较适合下载网站 误杀较低
2,要善于分析 TW用VP插件来分析 但是我们不要一味的注意gif和swf的广告 现在的广告加入了框架结构 所以框架也是我们要注意的 把框架加入黑名单也是拦截广告的一种方法
3,js 我们也不能忽视 基本可以用记事本 ctrl+f 搜索js来搜索被过滤掉的js脚本 比如新浪视频 加入白名单 */MediaPlayer.js 即可 依此类推
作者: RAY    时间: 2005-9-11 01:12

强贴啊,!
作者: wing0216    时间: 2005-10-7 21:13

干净去试试
作者: starsoft    时间: 2005-10-7 22:33

Originally posted by rasis at 2005-8-26 11:26 PM:
我来说两句
1,一般网站的广告基本是由gif格式和swf格式组成 gif一般都是动态广告 swf也就不用说了,所以我们可以把 网站/*.gif  网站/*.swf  作为黑名单 这种方式比较适合下载网站 误杀较低
2,要善于分析 T ...


很是赞成
希望版主介绍一下对框架的拦截
作者: 小絮    时间: 2005-10-9 09:26

华军软件园上的广告我用以下两条名单过滤:
黑名单: *newhuagg*      (几乎所有的广告都放在/newhuagg/目录下)
白名单: *news*              (不懂为何华军把硬件软件报道也放在newhuagg目录下)
过滤效果还不错,可是网页留下不少白框框不是很好看。讨厌广告而不在乎页面视觉效果的朋友可以试一下。
作者: mingjun520    时间: 2005-10-9 10:12     标题:


作者: 山水人天    时间: 2005-10-9 10:13

完全不用 hoho
作者: starsoft    时间: 2005-10-14 16:06

Originally posted by 三月飞絮 at 2005-10-9 09:26 AM:
华军软件园上的广告我用以下两条名单过滤:
黑名单: *newhuagg*      (几乎所有的广告都放在/newhuagg/目录下)
白名单: *news*              (不懂为何华军把硬件软件报道也放在newhuagg目录下)
过滤效 ...



现在这种网站枪文多,文章和广告也没什么区别了,放在一起也就正常了

还有,要感谢三月兄多次的对这个贴子的推广.

[ Last edited by starsoft on 2005-10-14 at 04:07 PM ]
作者: 小絮    时间: 2005-10-14 16:56

呵呵,好东西就是要让大家分享的嘛!
作者: yumingming    时间: 2005-10-14 19:09

支持
作者: luoice    时间: 2005-12-13 14:53

经典的帖子呀!!!一定要顶的
作者: 9wis    时间: 2006-4-26 23:20

我也试试看,谢谢楼主了
作者: richalon.wang    时间: 2013-2-15 23:23

好贴,以前真是不会用白名单啊!




欢迎光临 世界之窗论坛 (http://bbs.theworld.cn/) Powered by Discuz! 7.2