返回列表 发帖

关于朋友们设置网页黑名单元素过滤的一些建议8月24日修正更新:)

关于朋友们设置网页黑名单元素过滤的一些建议:

1.不推荐使用有些朋友用的大列表.大列表黑名单是影响效能的.

2.应该使用少而概的黑名单,再用白名单例外.

   理由如下:我没看过TW黑名单的源代码但是无非是每个链接请求都会判断是不是黑名单里的.也就是要一一比对黑名单里的全部内容.如果黑名单一大,一个网页有100个地址,你有30条,就要比3000次.如果黑名单少,效率就高,如果一条地址命中黑名单的规则,TW相信一定会去找白名单,是不是会取消过滤.这样就只对可疑的地址作了比对.而不是在第一关就详细的比对.

    实例: 甲设置:黑名单30条  白名单:10条
            乙设置:黑名单10条  白名单:30条
            甲乙的设置都是共40条规则
            假设网页有一100个地址(URL).其中有5条广告URL.
      极坏的情况(黑白名单最后一条规则才命中):
           甲设置:比对次数是:100(注URL)*30(黑名单条数)+5(可疑的广告URL)*10(白名单规则)=3050
           乙设置:比对次数是:100*10+5*30=1150
      极好的情况(黑白名单第一条规则就命中):
            甲:100*1+5*1=105次           乙:100*1+5*1=105次
      次好情况甲(第一条规则命中黑名单,但最后一条白名单命中)
           甲:100*1+5*10=150         乙:100*1+5*30=250
      次好情况乙(最后一条规则命中黑名单,但第一条白名单就命中)
           甲:100*30+5*1=3005        乙:100*10+5*1=1005
      其他情况就不好说了

我相信这样设置效率是会提高了.甲设置太多不确定的因素,第一个规则就撞上,机率有多大?而且TW似乎不支持规则的排序,也就是不能设置各条规则的优先级.手动改INI文件也不行.上面来看只有在上面第三种情况时甲设置有少100次比对的优势,而乙却共有少3900次的优势.

推荐一个我的规则,对国内的网站效果是很好的.我对过滤的规则的限定是黑白名单加起来不超过20,现在还远没达到

黑名单:
*/*banner*   拦横幅.
*/ad*          拦大多数广告,有误拦.有以下白名单修正
*/mms/*     最有中国特色的短信广告小图片.是我最不想看的
*/sms/*      同上
*.narrowad.*   窄告
*0x*0.gif        屏蔽文件名为XX数字X数字格式命名的GIF图片


白名单: 修正以上的误拦
*/admin*    常出现的/AD开头的地址元素,多为正常内容
*/adv*       同上
*add*     同上
*show*    常出现在一些动态网页地址里,去掉打开有些用到这个词的网站会卡,或出不来.如以前有一个版本打开PCONLINE打不开,加这个进白名单解决.
*play*      考虑了新浪的视频播放和其他网站的兼容问题
*job*       如果你从不访问招聘网站不用此条,如果你要看招聘信息一定要这条.
*PIC*      加不加看你的具体情况
*files/*     同上.

可考虑加入的白名单:*.css    *.js   这可以保持网页的完整性,但是很容易出现广告没显示,但是格式还是在那空着,有些网站这个不加这两条白名单可以完美的过滤广告(不留白).比如(CHINABYTE)

我当然也只是想当然如果有什么不对的地方,欢迎指正.

[ Last edited by starsoft on 2005-8-24 at 01:22 PM ]
WIN7.PRO.SP1+全补丁+IE9,TW最新版,一般不乱说!

楼主的不错!!

TOP

同意楼上的说法,这也是TW没有提供简便的增加黑名单的方法的主要原因

另外,黑名单如果太精简就会增大误拦机会的,*/ad*这一条好像会导致sina的视频不能正常显示
遇到崩溃假死或者感觉速度慢或者其他问题的朋友可以先试试使用TW3
TheWorld we explore the world.

TOP

新浪视频不能显示,白名单里面加
*/mediaplayer.js

TOP

Originally posted by starsoft at 2005-7-28 06:26 PM:
*/*banner*   拦横幅.

这个写成*banner*就可以了,因为每个网址都以http://开头的实际上已包含*/了,应该是这样吧。

TOP

Originally posted by xyahoo at 2005-7-28 09:24 PM:
新浪视频不能显示,白名单里面加
*/mediaplayer.js



的确,有一个少而精的规则才好维护. 这行写成
*DISPLAY*可能会更通用.这和*SHOW*是一个道理
WIN7.PRO.SP1+全补丁+IE9,TW最新版,一般不乱说!

TOP

这个帖子很强啊,我才看到,加精
weibo.com/xiezhenyu

TOP

不错!

TOP

那我就马上试试,我可是很少用黑名单的

TOP

确实很好的经验!
ps:新浪视频不能显示,白名单里面加
*/mediaplayer.js   我正找呢,^_^
TheWorld-My world,Your world,Our world.

TOP

*/sms/*这条黑名单使chinaren同学录显示不正常,很多表情都被过滤了,我在白名单中增加 */cs/sms/* 修正不知道好不好,我现在用着还可以。

这是个强贴,希望大家能多交流交流,不要让这么好的贴子沉下去!

TOP

个人感觉加*alumni*可能好些.因为alumni这个单词有意义,你要上的网页的URL里如果有这个词,说明应该是有alumni这个意思的.这里遇到后,以后也许别处还会遇到,可以增加适应性.

拦截的表达式应该尽量使用大多数人会理性的想法,而不是去适应那些拍脑袋想出来的.

[ Last edited by starsoft on 2005-8-8 at 03:04 AM ]
WIN7.PRO.SP1+全补丁+IE9,TW最新版,一般不乱说!

TOP

返回列表