【探讨】MT的"过滤页面内容" 功能,可能对TW有所启示
尽管不怎么喜欢用MT,不过我个人认为MT的"过滤页面内容" 功能还是比较有特色的,很适合新用户使用。下图是我使用"过滤页面内容" 功能后的广告过滤设置的截图,排列比较有特色,不知道其广告过滤的机制是怎么样的?
MT这样做是否可以应付用户不断扩充的黑白名单,减小误拦截的可能性,进而不至于影响广告拦截的效率?
[[i] 本帖最后由 xuyong 于 2007-2-2 10:45 编辑 [/i]] 参照MT的做法,TW的广告过滤可以写成类似于下面的格式?
(借用了 elkay 的置顶正则式 2/1)
注:[]为标签符号,//为注释符号
[code][common] //常规过滤,每次必须执行的过滤
/(\.|\/|_|")(ads?(\d|code|gif|graph|list|log|puba|file|sence|site|show)|(ali)?union(sky|sys)?|all(4ad|yes)|bdun|banner|cc|cp(c|ro)|(guan|my|newhua)?gg(ao)?|p(4|f)p|sms|sp(onsor||code)|themis|un|usmsweb|xc)(s)?(\d)*(\.|\/|_)/
/[\W_]ads?(?!=&)(banner|click|flow|frame|ima?ge?|log|serv(er|e)?|stream|type|view|vert(ising|isement)?|trix|xchange|wrapper)?s?[\W\d_]/
/(\.|\/|_)(soft|hot)?ads?(s..|img|vert|rotator|view|bot|c_|client|council|gif|graph|images|info|log|pic)?(\.|\/|_)/
/\.(moyu)\.(com)(\/)(\d)*(\/)/
/(\/|\-|_)(\d){2,3}x(\d){2,3}.*(swf|gif|jpg)/
//以下为针对网站的过滤,由标签中的关键字来决定过滤时是否执行
[www.xhxsw.com] //玄幻小说网
/\/article\/(indextop|pagetop|indexhead|indexbottom)(\d)?\./
[www.zichen.com] //紫宸殿网络
/\.(zichen)\.(com)(\/)(head1|head2|gad)(s)?(\.|\/|_)/
[www.hanzify.org] //汉化新世纪
/\/Images\/(a-d-s|chinabank|sms)(s)?(\.|\/|_)/
[www.zol.com.cn] //中关村在线
/\.(zol)\.(com)\.(cn)(\/)((\d)*|dealer)(\/)/
[bt.icefish.org] //冰鱼bt
/\/(inf|pub|SogouUnionAds|SogouUnionBid|wFloat)\./
/\.du8\.com\/html/
/\/a2d\/[^(download.gif)]/
/\/(163|google|gezibottom|mootermedia|yahoo)(\d)?\.html?/
[www.uushop.net] //我不知道中文网
/\/(mulu_top|mulu_bottom|pagebottom|pagecontent_bottom|pagecontent_top|pagecontentbottom)\./
[www.taobao.com] //淘宝头像和签名
/\.taobao\.com\/forum\/(avatars|signature)/
[www.qihoo.com] //奇虎广告
/\.qihoo\.com.+(&|\?)p=(\d){5,6}(&)?/
[bbs.fhzw.net]
ex0=<iframe.*?id="article_ad_.*?>(?:.|\n)*?<\/iframe>
re0=<!--ad-->
ex1=<fieldset.*?style='width:.*?>(?:.|\n)*?<\/fieldset>
re1=<!--ad-->
[bt.btchina.net]
ex0=<TABLE.*?width="760.*?>(?:.|\n)*?<\/table>
re0=<!--ad-->
ex1=<TABLE.*?width="100%.*?>(?:.|\n)*?href="http://shop(?:.|\n)*?<\/table>
re1=<!--ad-->
[www.sina.com.cn] //新浪网
ex0=<ul.*?id="adtext.*?>(?:.|\n)*?<\/ul>
re0=<!--ad-->
ex1=<div.*?class="adNone.*?>(?:.|\n)*?<\/div>
re1=<!--ad-->
ex2=<div.*?class="box.*?>(?:.|\n)*?<\/div>
re2=<!--ad-->
ex3=<div.*?class="content.*?>(?:.|\n)*?<\/div>
re3=<!--ad-->
ex4=<div.*?class="ADtit.*?>(?:.|\n)*?<\/div>
re4=<!--ad-->
ex5=<td.*?width="360.*?>(?:.|\n)*?<\/td>
re5=<!--ad-->
ex6=<td.*?width="612.*?>
re6=<td width="99%" valign="top" class="lc_blue">[/code]
[[i] 本帖最后由 xuyong 于 2007-2-2 11:20 编辑 [/i]] 这个格式有点像程序语言中的
DO CASE
CASE lExpression1
Commands
[CASE lExpression2
Commands
...
CASE lExpressionN
Commands]
[OTHERWISE
Commands]
ENDCASE
如果广告过滤配置可以改成这个格式的话,是不是需要从TW的配置文件中独立出来?
我也支持可以对特定网站设定过滤内容
我也支持可以对特定网站设定过滤内容 收到,了解了:D [url=http://bbs.ioage.com/viewthread.php?tid=27173&extra=page%3D1#pid233436]http://bbs.ioage.com/viewthread.php?tid=27173&extra=page%3D1#pid233436[/url] :) [quote]原帖由 [i]AY[/i] 于 2007-2-4 16:30 发表[url=http://bbs.ioage.com/viewthread.php?tid=27173&extra=page%3D1#pid233436]http://bbs.ioage.com/viewthread. ... =page%3D1#pid233436[/url] :) [/quote]
MT的Remove It 插件?不用吧,MT2.0本身就有"过滤页面内容" 功能。
我这里是建议TW开发类似于MT"过滤页面内容" 的功能,以及支持网站过滤黑名单的配置表格式。
当然,在TW2.0这个功能开发出来之前,能有一个类似于 Remove It 的插件也还不错! [quote]原帖由 [i]xuyong[/i] 于 2007-2-5 09:06 发表
MT的Remove It 插件?不用吧,MT2.0本身就有"过滤页面内容" 功能。
我这里是建议TW开发类似于MT"过滤页面内容" 的功能,以及支持网站过滤黑名单的配置表格式。
当然,在TW2.0这 ... [/quote]
MT "过滤页面内容" 能過濾的是 flash, 圖像, iframe 等檔案,Remove It 插件除上述外還可以過濾 <table>, <div>, <span>, <form> 等任何頁面元素, 或文字內容。 Remove It 确实厉害!不过一般用户只要求能过滤掉广告就可以了,技术方面由软件编写者自己看着办。 [quote]原帖由 [i]AY[/i] 于 2007-2-5 10:16 发表
MT "过滤页面内容" 能過濾的是 flash, 圖像, iframe 等檔案,Remove It 插件除上述外還可以過濾 <table>, <div>, <span>, <form> 等任何頁面元素, 或文字內容。 [/quote]
tw的页面过滤直接就可以过滤页面上任何的元素或文字内容,只是没有那么方便,需要自己手工写规则 主要问题是大多数的人不会去手工写规则,提供的又有限而且多少会有问题。 现在我懒得编正则(实在不方便)。。。。。等到过滤功能完善了(更方便了),我就自己编正则去了~~:lol:
页:
[1]