TW广告过滤的问题，TW正则和一般正则都有哪些不同？(页 1) - 旧版使用交流 - 2.x版本使用交流 - 世界之窗论坛

死鱼高达 发表于 2007-6-25 05:36

TW广告过滤的问题，TW正则和一般正则都有哪些不同？

研究TW的广告过滤就是搞不定，比方说我就想过滤与 /image.pconline. 匹配的广告，请问该怎么写？
在MT下写成：
*/image.pconline.*
就可以了，非常简单

在TW下，我写成：
*/image.pconline.*
/image.pconline.
/image\.pconline\.
\w*/image\.pconline\.\w*

都不行，还有在MT下写最简单的规则：
*/ad/*
同样用各种方式写在TW下也不管用

听说TW广告过滤规则要前后都加一个 / ，我加了也不行，我研究了正则表达式规则，但TW似乎和一般的正则还不太一样，以前我记得看见过一个TW过滤规则的解说帖子现在也找不着了，知道地址的麻烦给个链接行吗，毕竟TW论坛提供的规则不见得全适用想自己学会写过滤规则

神游发表于 2007-6-25 06:51

这功能对于普通用户来说太复杂了,反正我是不会用所以黑名单没开过

希望开发组能完善这方面的功能,将这个过滤做得简约一些

duckZCX 发表于 2007-6-25 07:48

这里我可以说明2点
1，回楼上的，黑名单的改进一直没停止过，请稍安
2，回楼主

目前TW的过滤分为2种，兼容1.X的通配符方式，即ad* 和目前2.0才开始使用的页面规则方式，用法为在规则前加入#exd# 表示此规则只对其后声明的网站有效和加入#ex# 表示所有页面均起效果。

另外，如果需要使用正则表达式带代替通配符，只需要在表达式两边加入/即可。

实际上TW的页面规则恰恰是最直接了当的。原理就在于，TW匹配所在网页的HTML源码，如果匹配则过滤掉，相应的HTML源码里面的一些源码被去掉了，所以可以实现对版面的修改。
对于页面过滤板块儿的说明，会陆续进行的，这里就不进行详细叙述了，请楼主稍安。

PS:楼主在TW下写的规则都是有效的，不过需要CTRL+F5强制刷新，您可以试试

死鱼高达 发表于 2007-7-2 21:13

通配符的过滤方式肯定有问题，就比方说 [url]http://www.pconline.com.cn/[/url] 网站右边的4幅广告图片在其他如maxthon、gb等浏览器就可以用 */image.pconline.* 规则过滤掉，按版主的说法TW也可以滤掉，但实际上不能，不信的可以去试试就知道了。

再比方说 [url]http://www.skycn.com/index.html[/url] 网站，用 *.skycn.*/tuijianimg/* 规则在TW下就完全不起作用，而在mathon下就过滤的干干净净，不信的去试试就知道了。

还有如用 */pagead?.* 规则过滤google的广告也不行，不知道TW支不支持?的单字符匹配？不过就算写成 */pagead2.* 也不行，甚至写成 */pagead* 都不行。

我还遇到过其他规则不起作用的时候，比如最简单的规则 */ad/* 不起作用。

下面是我的过滤规则，是直接从mathon下拷贝的，mathon下一点问题都没有。

*.12530.*/hezuo/*
*.131377.*
*.51.*/xilu/*
*.51ads.*
*.6park.*/images/*
*.6park.*/img/*
*.7clink.*
*.7town.*
*.ad?.*
*.ads?.*
*.ads99.*
*.adver*
*.all4ad.*
*.allyes.*
*.bluehost.*
*.chinabbs.*/banner/*
*.chinabbs.*/gdpic/*
*.chinabbs.*/line/*
*.chinabbs.*/loveline/*
*.chinabbs.*/out/*
*.chinabbs.*/unionbbs/*
*.chinabbs.*/unionline/*
*.chinabbs.*/womenline/*
*.chinabyte.*.swf
*.chinanews.*/fileftp/*.gif
*.chinanews.*/fileftp/*.swf
*.chinesemedianet.*/banner/*
*.clickeye.*
*.codeproject.*/ann/*
*.crsky.*/ggao/*
*.daqi.*/gdpic/*
*.daqi.*/out/*
*.daqi.*/searchbar*
*.dealsaving.*
*.doubleclick.*
*.enet.*/banners/*
*.heima8.*
*.iask.sina.*
*.keyrun.*
*.my5757.*
*.myad.*
*.narrowad.*
*.p4p.*
*.pcpop.*/js/*
*.people.*/zixun/*
*.qihoo.*/friend/*
*.sina.*/dy/sina_net/*
*.sina.*/iframe/*/ebay*.html
*.sina.*/iframe/*/sina_*.html
*.skycn.*/tuijianimg/*
*.sohu.*/chat_online/*
*.sohu.*/cs/*
*.sohu.*/promotion/*
*.sohu.*/richang/*
*.sonicchat.*.swf
*.tom.*/yigao/*
*.union.*
*.union???.*
*.verycd.*/banner/*
*.verycd.*/customer/*
*.xilu.*/js/*
*.xilu.*/mrjx?/*
*.xilu.*/tuijian/*
*.xinhuanet.*/2006xxfb/*
*.yeeyoo.*/yypic/*
*.yesky.*.swf
*.yesky.*/show/*
*.yimg.*/a/*
*/?smsad.*
*/33.pcpop.*
*/ad-*
*/ad.*
*/ad/*
*/ad?.*
*/ad?/*
*/ad???x??.*
*/ad?_*
*/ad?click.*
*/ad?file.*
*/ad?line/*
*/ad?pic/*
*/ad?show*
*/ad?site/*
*/ad?view?.*
*/ad_*
*/ad0?.*
*/ad1?.*
*/adbrite.*
*/adbs/*
*/adclick.*
*/adclient.*
*/adcode/*
*/addir/*
*/adds/*
*/adfile/*
*/adframe.*
*/adimage.*
*/adimages/*
*/adimg.*
*/adimg/*
*/adimg?.*
*/adinfo.*
*/adinfo/*
*/adjs/*
*/adlog.*
*/adlog/*
*/admore.*
*/adpic/*
*/adpics/*
*/ads?.*
*/adsence.*
*/adserver.*
*/adserver/*
*/adshow.*
*/aduni/*
*/adunion.*
*/adunion/*
*/adunion?.*
*/adver*
*/adview.*
*/banners.chinesenewsnet.*
*/bid.zhongsou.*
*/btn.pchome.*
*/c.tom.*
*/classad/*
*/cpc.*
*/cpc/*
*/cpro.baidu.*
*/d?.sina.*
*/ebayad/*
*/eiv.baidu.*
*/flashad?.*
*/ganggao/*
*/gg.*
*/gg/*
*/ggao/*
*/ggimg/*
*/ggjs/*
*/gimg.baidu.*
*/globalad/*
*/guangao/*
*/guangg/*
*/guanggao?/*
*/guanggao200?/*
*/image.pconline.*
*/imagead/*
*/images.163.*
*/images.17173.*/if/*
*/imguv.21cn.*
*/jsad?/*
*/lbad/*
*/links.news.sohu.*
*/lmad.*
*/ltad/*
*/mad?.*
*/mms/*
*/mms?/*
*/myadfile/*
*/mygg/*
*/mysms.*
*/newhuagg/*
*/news2.163.*
*/newweb.zcom.*
*/pagead?.*
*/pfp.sina.*
*/pic.zol.com.cn*/200*
*/rm.sina.*
*/scalink.sohu.*
*/sgad/*
*/showad*
*/sms.*
*/sms/*
*/smspop.*
*/spcode.baidu.*
*/taobao.*
*/textad/*
*/topad/*
*/tp.xilu.*
*/ulinkjs.tom.*
*/un.265.*
*/unicom/*
*/union.*
*/union/*
*/union?.*
*/union??.*
*/union???.*
*/unstat.baidu.*
*/urich.uitv.*
*/userfile/*banner*
*/videoad.*
*/vivi_iask.*
*/xfrd_0?.gif
*_ad.*
*_ad/*
*_ad_*
*33av.*
*adtology2.com*
*guanggao.*
*guanggao/*
*.sandai.*
*/p4pstatic.*

elkay 发表于 2007-7-2 21:24

tw2中使用传统的通配符方式过滤需要完全按照页面源代码中的路径，这点跟tw1.x和mt有所不同

例如：
TheWorld 论坛的左上角的logo，1.x或者其他浏览器中可以写成
[code]http://bbs.ioage.com/images/default/logo.gif[/code]
2.x中必须写成跟页面源码里一样的路径才会有效，如下：
[code]images/default/logo.gif[/code]

weiguo 发表于 2007-7-2 22:20

[quote]原帖由 [i]elkay[/i] 于 2007-7-2 21:24 发表 [url=http://bbs.ioage.com/cn/redirect.php?goto=findpost&pid=339584&ptid=36954][img]http://bbs.ioage.com/cn/images/common/back.gif[/img][/url]
tw2中使用传统的通配符方式过滤需要完全按照页面源代码中的路径，这点跟tw1.x和mt有所不同

例如：
TheWorld 论坛的左上角的logo，1.x或者其他浏览器中可以写成
http://bbs.ioage.com/images/default/lo ... [/quote]

啊，我说以前隐约怎么有些用图片的属性的地址，去过滤却无效呢，原来如此

死鱼高达 发表于 2007-7-2 22:30

但那样的话通配符不就没有意义了吗，比方说我想过滤 [url]http://www.pconline.com.cn/[/url] 网站右边的4幅广告图片，用 */image.pconline.* 规则不就是全路径吗？如果不是全路径又或其他什么原因，请版主能不能写一个能过滤的例子，就类似于 */image.pconline.* 这样，把那4幅广告图片滤掉，全路径也好别的什么原因也好，全加全，版主能写个能工作的例子吗。

还有，如果必须写全路径，也就是中间不能有*号和?号是吧，那像 [url]http://www.skycn.com/index.html[/url] 网站这样的，用 *.skycn.*/tuijianimg/* 这种规则就不行是吧，那通配符岂不就是意义不大了，每个网站的广告都存在不同的目录下，如果中间不能用通配符必须写全路径，那就太难用了。

needed 发表于 2007-7-2 23:29

tw2.0支持正则匹配 html 源文件里的内容
同时兼容 tw1.×的规则
?( 代表单个任意字符)
*(代表0个或者多个任意字符)

例如.我想过滤论坛的logo ,看到地址是http://bbs.ioage.com/cn/images/default/logo.gif

按照tw1.x的规则..可以写成[code]*logo.*[/code]个人更倾向于tw2.0的基于页面的过滤方法.即 [url=http://bbs.ioage.com/cn/viewthread.php?tid=26322]http://bbs.ioage.com/cn/viewthread.php?tid=26322[/url]

#exd# 把规则限定于某一域名比tw1.x 的方法要好.

weiguo 发表于 2007-7-3 09:05

你没看懂e版的回答，
你用mt去寻找要过滤的关键词，都是直接看图片属性，然后选取
这种方法在tw2不是一定能成功的，原因就是：
是不是在源码中引用的也是这个”完整的“属性地址

楼主如果你不用#exd#的页面过滤，
那通配符* ？是有效的，

你可以看论坛左上的logo，用*logo.gif就完全可以

关于你的问题倒是让我有了一点不能确认的地方，晚上问问斑竹来求证一下把

elkay 发表于 2007-7-3 14:08

就拿pconline来说，按照页面源代码里的地址可以写成

[code]http://image.pconline.com.cn*[/code]

你试试

死鱼高达 发表于 2007-7-3 15:16

也不知道楼上的版主试了没有，给之前请先自己试试行吗，楼上 [url]http://image.pconline.com.cn[/url]* 这个规则根本不管用，我还怕自己的其他规则干扰特意把所有的都清空然后试的，我前面说的可都是试过了的，我说不行都是试过了不行，我之所以请版主给出能工作的例子，就是因为我认为版主是权威的，版主给的例子肯定没问题，然后我好照着改，所以请版主答的时候认真点行吗，试也不试想当然就写不好吧，而且楼上版主给的这条明显和我写的那个 */image.pconline.* 是一类吗。

weiguo的话我看懂了，谢谢。

TW下没有MT下viewpage侧边栏类的那种方便插件，找起广告图片等的源码很麻烦，如果全用网页源文件来找太困难了，而且源码的写法可能和真正广告的写法完全不同，比方说很多广告里都带AD关键字，但源码里可能就是一个链接不带AD，那要过滤就等于只能应用在这个特定网站，如果像MT那样可以直接过滤最终地址则可能一条AD规则就全过滤了。而且从用户使用角度也是直接看最终地址，如果用最终地址不能过滤可能会让用户感到惊讶。

再说回 [url]http://www.pconline.com.cn/[/url] 那4个广告，请给个能工作的例子行吗。

照版主的说法就是 */image.pconline.* 规则之所以不能过滤是因为这是最终地址是吧，要过滤这4个广告要写源地址，我的TW没有viewpage侧边栏类的那种插件，看源码找太麻烦了，版主们写过滤规则不会全看网页源代码吧，小网还行，大网累死，有好插件能推荐一个吗。

另外TW到底支不支持在规则中间加入通配符？像 [url]http://www.skycn.com/index.html[/url] 网站这样的，用 *.skycn.*/tuijianimg/* 规则不行，版主能给个能工作的例子吗。

希望版主给出的例子能是最简洁的匹配，好能知道什么能包在里面什么不能。

狼狼发表于 2007-7-3 15:44

楼主看看置顶嘛，这么好的正则被LZ说得一无是处，真让人心寒啊
看置顶帖跟着版主做 Lz会体会正则的强大威力

Aycox 发表于 2007-7-3 16:24

回复 #11 死鱼高达的帖子

我补充说明一下：

2.0中通配符式的传统黑名单是有效的，但必须写成匹配页面源码中的形式，即页面源码中用了带网址的全路径，那么就可以用诸如*xxx.com*/ad/*这种形式，反之则只能用如*/ad/*这种形式。

为了避免误拦，也是更有效率的制作过滤规则，推荐使用页面过滤方式，比如#exd#*xxx.com*#<规则>这种样式（相关教程起草中）

以楼主说的太平洋首页为例：

*.pconline.com.*/ivy.js
*.pconline.com.*/adpuba/*
（也可写成正则：/\.pconline\.com.*\/(?:ivy|adpuba)(?:\.|\/)/）

上面两条规则就是传统的通配符黑名单，可以过滤你说的四个广告中的一半，由于2.0是从源码阶段即开始过滤的，效率更高，但后来由一些脚本动态生成的广告，即使最终地址也符合上述名单也是不能过滤的，所以这时应该使用针对性强的页面规则。

比如这个规则配合上面两条即可把楼主所说的四个广告都过滤。
#exd#*.pconline.com*#'<DIV\sid="PC_(?:left|right)"[\s\S]*?<\/DIV>'###

上述规则只是举例说明，当然都可以写成更完善页面规则形式（由于个人因素就暂不能及时提供），我想通过这个说明楼主应该清楚了你所存疑的地方。

另外，主页插件区有Viewpage插件下载，可在线直接安装。

死鱼高达 发表于 2007-7-5 11:38

非常感谢，现在已经都明白了，我记得原来置顶帖里有份教程的，后来给删了是吧，希望新的教程能尽快完成，再次感谢

页: [1]

世界之窗论坛's Archiver

TW广告过滤的问题，TW正则和一般正则都有哪些不同？

回复 #11 死鱼高达 的帖子

回复 #11 死鱼高达的帖子