Board logo

标题: 【探讨】MT的"过滤页面内容" 功能,可能对TW有所启示 [打印本页]

作者: xuyong    时间: 2007-2-2 08:44     标题: 【探讨】MT的"过滤页面内容" 功能,可能对TW有所启示

尽管不怎么喜欢用MT,不过我个人认为MT的"过滤页面内容" 功能还是比较有特色的,很适合新用户使用。
下图是我使用"过滤页面内容" 功能后的广告过滤设置的截图,排列比较有特色,不知道其广告过滤的机制是怎么样的?
MT这样做是否可以应付用户不断扩充的黑白名单,减小误拦截的可能性,进而不至于影响广告拦截的效率?

[ 本帖最后由 xuyong 于 2007-2-2 10:45 编辑 ]
作者: xuyong    时间: 2007-2-2 09:04

参照MT的做法,TW的广告过滤可以写成类似于下面的格式?
(借用了 elkay 的置顶正则式 2/1)
注:[]为标签符号,//为注释符号

  1. [common] //常规过滤,每次必须执行的过滤
  2. /(\.|\/|_|")(ads?(\d|code|gif|graph|list|log|puba|file|sence|site|show)|(ali)?union(sky|sys)?|all(4ad|yes)|bdun|banner|cc|cp(c|ro)|(guan|my|newhua)?gg(ao)?|p(4|f)p|sms|sp(onsor||code)|themis|un|usmsweb|xc)(s)?(\d)*(\.|\/|_)/
  3. /[\W_]ads?(?!=&)(banner|click|flow|frame|ima?ge?|log|serv(er|e)?|stream|type|view|vert(ising|isement)?|trix|xchange|wrapper)?s?[\W\d_]/
  4. /(\.|\/|_)(soft|hot)?ads?(s..|img|vert|rotator|view|bot|c_|client|council|gif|graph|images|info|log|pic)?(\.|\/|_)/
  5. /\.(moyu)\.(com)(\/)(\d)*(\/)/
  6. /(\/|\-|_)(\d){2,3}x(\d){2,3}.*(swf|gif|jpg)/

  7. //以下为针对网站的过滤,由标签中的关键字来决定过滤时是否执行
  8. [www.xhxsw.com] //玄幻小说网
  9. /\/article\/(indextop|pagetop|indexhead|indexbottom)(\d)?\./

  10. [www.zichen.com] //紫宸殿网络
  11. /\.(zichen)\.(com)(\/)(head1|head2|gad)(s)?(\.|\/|_)/

  12. [www.hanzify.org] //汉化新世纪
  13. /\/Images\/(a-d-s|chinabank|sms)(s)?(\.|\/|_)/

  14. [www.zol.com.cn] //中关村在线
  15. /\.(zol)\.(com)\.(cn)(\/)((\d)*|dealer)(\/)/

  16. [bt.icefish.org] //冰鱼bt
  17. /\/(inf|pub|SogouUnionAds|SogouUnionBid|wFloat)\./
  18. /\.du8\.com\/html/
  19. /\/a2d\/[^(download.gif)]/
  20. /\/(163|google|gezibottom|mootermedia|yahoo)(\d)?\.html?/

  21. [www.uushop.net] //我不知道中文网  
  22. /\/(mulu_top|mulu_bottom|pagebottom|pagecontent_bottom|pagecontent_top|pagecontentbottom)\./

  23. [www.taobao.com] //淘宝头像和签名
  24. /\.taobao\.com\/forum\/(avatars|signature)/

  25. [www.qihoo.com] //奇虎广告
  26. /\.qihoo\.com.+(&|\?)p=(\d){5,6}(&)?/

  27. [bbs.fhzw.net]
  28. ex0=<iframe.*?id="article_ad_.*?>(?:.|\n)*?<\/iframe>
  29. re0=<!--ad-->
  30. ex1=<fieldset.*?style='width:.*?>(?:.|\n)*?<\/fieldset>
  31. re1=<!--ad-->

  32. [bt.btchina.net]
  33. ex0=<TABLE.*?width="760.*?>(?:.|\n)*?<\/table>
  34. re0=<!--ad-->
  35. ex1=<TABLE.*?width="100%.*?>(?:.|\n)*?href="http://shop(?:.|\n)*?<\/table>
  36. re1=<!--ad-->

  37. [www.sina.com.cn]  //新浪网
  38. ex0=<ul.*?id="adtext.*?>(?:.|\n)*?<\/ul>
  39. re0=<!--ad-->
  40. ex1=<div.*?class="adNone.*?>(?:.|\n)*?<\/div>
  41. re1=<!--ad-->
  42. ex2=<div.*?class="box.*?>(?:.|\n)*?<\/div>
  43. re2=<!--ad-->
  44. ex3=<div.*?class="content.*?>(?:.|\n)*?<\/div>
  45. re3=<!--ad-->
  46. ex4=<div.*?class="ADtit.*?>(?:.|\n)*?<\/div>
  47. re4=<!--ad-->
  48. ex5=<td.*?width="360.*?>(?:.|\n)*?<\/td>
  49. re5=<!--ad-->
  50. ex6=<td.*?width="612.*?>
  51. re6=<td width="99%" valign="top" class="lc_blue">
复制代码

[ 本帖最后由 xuyong 于 2007-2-2 11:20 编辑 ]
作者: xuyong    时间: 2007-2-2 11:29

这个格式有点像程序语言中的
DO CASE
   CASE lExpression1
        Commands
   [CASE lExpression2
        Commands
   ...
   CASE lExpressionN
        Commands]
   [OTHERWISE
        Commands]
ENDCASE

如果广告过滤配置可以改成这个格式的话,是不是需要从TW的配置文件中独立出来?
作者: lzc123abc    时间: 2007-2-2 11:32     标题: 我也支持可以对特定网站设定过滤内容

我也支持可以对特定网站设定过滤内容
作者: mutalisker    时间: 2007-2-2 11:41

收到,了解了
作者: AY    时间: 2007-2-4 16:30

http://bbs.ioage.com/viewthread.php?tid=27173&extra=page%3D1#pid233436
作者: xuyong    时间: 2007-2-5 09:06

原帖由 AY 于 2007-2-4 16:30 发表
http://bbs.ioage.com/viewthread. ... =page%3D1#pid233436



MT的Remove It 插件?不用吧,MT2.0本身就有"过滤页面内容" 功能。
我这里是建议TW开发类似于MT"过滤页面内容" 的功能,以及支持网站过滤黑名单的配置表格式。

当然,在TW2.0这个功能开发出来之前,能有一个类似于 Remove It 的插件也还不错!
作者: AY    时间: 2007-2-5 10:16

原帖由 xuyong 于 2007-2-5 09:06 发表



MT的Remove It 插件?不用吧,MT2.0本身就有"过滤页面内容" 功能。
我这里是建议TW开发类似于MT"过滤页面内容" 的功能,以及支持网站过滤黑名单的配置表格式。

当然,在TW2.0这 ...

MT "过滤页面内容" 能過濾的是 flash, 圖像, iframe 等檔案,Remove It 插件除上述外還可以過濾 <table>, <div>, <span>, <form> 等任何頁面元素, 或文字內容。
作者: xuyong    时间: 2007-2-5 10:34

Remove It 确实厉害!不过一般用户只要求能过滤掉广告就可以了,技术方面由软件编写者自己看着办。
作者: elkay    时间: 2007-2-5 15:22

原帖由 AY 于 2007-2-5 10:16 发表

MT "过滤页面内容" 能過濾的是 flash, 圖像, iframe 等檔案,Remove It 插件除上述外還可以過濾 <table>, <div>, <span>, <form> 等任何頁面元素, 或文字內容。


tw的页面过滤直接就可以过滤页面上任何的元素或文字内容,只是没有那么方便,需要自己手工写规则
作者: king_hh    时间: 2007-2-5 17:34

主要问题是大多数的人不会去手工写规则,提供的又有限而且多少会有问题。
作者: WeeVee    时间: 2007-2-5 17:39

现在我懒得编正则(实在不方便)。。。。。等到过滤功能完善了(更方便了),我就自己编正则去了~~




欢迎光临 世界之窗论坛 (http://bbs.theworld.cn/) Powered by Discuz! 7.2