世界之窗论坛's Archiver

xuyong 发表于 2007-2-2 08:44

【探讨】MT的"过滤页面内容" 功能,可能对TW有所启示

尽管不怎么喜欢用MT,不过我个人认为MT的"过滤页面内容" 功能还是比较有特色的,很适合新用户使用。
下图是我使用"过滤页面内容" 功能后的广告过滤设置的截图,排列比较有特色,不知道其广告过滤的机制是怎么样的?
MT这样做是否可以应付用户不断扩充的黑白名单,减小误拦截的可能性,进而不至于影响广告拦截的效率?

[[i] 本帖最后由 xuyong 于 2007-2-2 10:45 编辑 [/i]]

xuyong 发表于 2007-2-2 09:04

参照MT的做法,TW的广告过滤可以写成类似于下面的格式?
(借用了 elkay 的置顶正则式 2/1)
注:[]为标签符号,//为注释符号

[code][common] //常规过滤,每次必须执行的过滤
/(\.|\/|_|")(ads?(\d|code|gif|graph|list|log|puba|file|sence|site|show)|(ali)?union(sky|sys)?|all(4ad|yes)|bdun|banner|cc|cp(c|ro)|(guan|my|newhua)?gg(ao)?|p(4|f)p|sms|sp(onsor||code)|themis|un|usmsweb|xc)(s)?(\d)*(\.|\/|_)/
/[\W_]ads?(?!=&)(banner|click|flow|frame|ima?ge?|log|serv(er|e)?|stream|type|view|vert(ising|isement)?|trix|xchange|wrapper)?s?[\W\d_]/
/(\.|\/|_)(soft|hot)?ads?(s..|img|vert|rotator|view|bot|c_|client|council|gif|graph|images|info|log|pic)?(\.|\/|_)/
/\.(moyu)\.(com)(\/)(\d)*(\/)/
/(\/|\-|_)(\d){2,3}x(\d){2,3}.*(swf|gif|jpg)/

//以下为针对网站的过滤,由标签中的关键字来决定过滤时是否执行
[www.xhxsw.com] //玄幻小说网
/\/article\/(indextop|pagetop|indexhead|indexbottom)(\d)?\./

[www.zichen.com] //紫宸殿网络
/\.(zichen)\.(com)(\/)(head1|head2|gad)(s)?(\.|\/|_)/

[www.hanzify.org] //汉化新世纪
/\/Images\/(a-d-s|chinabank|sms)(s)?(\.|\/|_)/

[www.zol.com.cn] //中关村在线
/\.(zol)\.(com)\.(cn)(\/)((\d)*|dealer)(\/)/

[bt.icefish.org] //冰鱼bt
/\/(inf|pub|SogouUnionAds|SogouUnionBid|wFloat)\./
/\.du8\.com\/html/
/\/a2d\/[^(download.gif)]/
/\/(163|google|gezibottom|mootermedia|yahoo)(\d)?\.html?/

[www.uushop.net] //我不知道中文网  
/\/(mulu_top|mulu_bottom|pagebottom|pagecontent_bottom|pagecontent_top|pagecontentbottom)\./

[www.taobao.com] //淘宝头像和签名
/\.taobao\.com\/forum\/(avatars|signature)/

[www.qihoo.com] //奇虎广告
/\.qihoo\.com.+(&|\?)p=(\d){5,6}(&)?/

[bbs.fhzw.net]
ex0=<iframe.*?id="article_ad_.*?>(?:.|\n)*?<\/iframe>
re0=<!--ad-->
ex1=<fieldset.*?style='width:.*?>(?:.|\n)*?<\/fieldset>
re1=<!--ad-->

[bt.btchina.net]
ex0=<TABLE.*?width="760.*?>(?:.|\n)*?<\/table>
re0=<!--ad-->
ex1=<TABLE.*?width="100%.*?>(?:.|\n)*?href="http://shop(?:.|\n)*?<\/table>
re1=<!--ad-->

[www.sina.com.cn]  //新浪网
ex0=<ul.*?id="adtext.*?>(?:.|\n)*?<\/ul>
re0=<!--ad-->
ex1=<div.*?class="adNone.*?>(?:.|\n)*?<\/div>
re1=<!--ad-->
ex2=<div.*?class="box.*?>(?:.|\n)*?<\/div>
re2=<!--ad-->
ex3=<div.*?class="content.*?>(?:.|\n)*?<\/div>
re3=<!--ad-->
ex4=<div.*?class="ADtit.*?>(?:.|\n)*?<\/div>
re4=<!--ad-->
ex5=<td.*?width="360.*?>(?:.|\n)*?<\/td>
re5=<!--ad-->
ex6=<td.*?width="612.*?>
re6=<td width="99%" valign="top" class="lc_blue">[/code]

[[i] 本帖最后由 xuyong 于 2007-2-2 11:20 编辑 [/i]]

xuyong 发表于 2007-2-2 11:29

这个格式有点像程序语言中的
DO CASE
   CASE lExpression1
        Commands
   [CASE lExpression2
        Commands
   ...
   CASE lExpressionN
        Commands]
   [OTHERWISE
        Commands]
ENDCASE

如果广告过滤配置可以改成这个格式的话,是不是需要从TW的配置文件中独立出来?

lzc123abc 发表于 2007-2-2 11:32

我也支持可以对特定网站设定过滤内容

我也支持可以对特定网站设定过滤内容

mutalisker 发表于 2007-2-2 11:41

收到,了解了:D

AY 发表于 2007-2-4 16:30

[url=http://bbs.ioage.com/viewthread.php?tid=27173&extra=page%3D1#pid233436]http://bbs.ioage.com/viewthread.php?tid=27173&extra=page%3D1#pid233436[/url] :)

xuyong 发表于 2007-2-5 09:06

[quote]原帖由 [i]AY[/i] 于 2007-2-4 16:30 发表
[url=http://bbs.ioage.com/viewthread.php?tid=27173&extra=page%3D1#pid233436]http://bbs.ioage.com/viewthread. ... =page%3D1#pid233436[/url] :) [/quote]


MT的Remove It 插件?不用吧,MT2.0本身就有"过滤页面内容" 功能。
我这里是建议TW开发类似于MT"过滤页面内容" 的功能,以及支持网站过滤黑名单的配置表格式。

当然,在TW2.0这个功能开发出来之前,能有一个类似于 Remove It 的插件也还不错!

AY 发表于 2007-2-5 10:16

[quote]原帖由 [i]xuyong[/i] 于 2007-2-5 09:06 发表



MT的Remove It 插件?不用吧,MT2.0本身就有"过滤页面内容" 功能。
我这里是建议TW开发类似于MT"过滤页面内容" 的功能,以及支持网站过滤黑名单的配置表格式。

当然,在TW2.0这 ... [/quote]
MT "过滤页面内容" 能過濾的是 flash, 圖像, iframe 等檔案,Remove It 插件除上述外還可以過濾 <table>, <div>, <span>, <form> 等任何頁面元素, 或文字內容。

xuyong 发表于 2007-2-5 10:34

Remove It 确实厉害!不过一般用户只要求能过滤掉广告就可以了,技术方面由软件编写者自己看着办。

elkay 发表于 2007-2-5 15:22

[quote]原帖由 [i]AY[/i] 于 2007-2-5 10:16 发表

MT "过滤页面内容" 能過濾的是 flash, 圖像, iframe 等檔案,Remove It 插件除上述外還可以過濾 <table>, <div>, <span>, <form> 等任何頁面元素, 或文字內容。 [/quote]

tw的页面过滤直接就可以过滤页面上任何的元素或文字内容,只是没有那么方便,需要自己手工写规则

king_hh 发表于 2007-2-5 17:34

主要问题是大多数的人不会去手工写规则,提供的又有限而且多少会有问题。

WeeVee 发表于 2007-2-5 17:39

现在我懒得编正则(实在不方便)。。。。。等到过滤功能完善了(更方便了),我就自己编正则去了~~:lol:

页: [1]

Powered by Discuz! Archiver 7.2  © 2001-2009 Comsenz Inc.