返回列表 发帖

回复 34# 的帖子

我都说了,只有根据实际情况才能真正想到解决问题的办法,通用性的考虑不可能完美的,你说的情况确实存在,但是不会影响到任何东西,因为根据不同的情况可以修改规则来达到目的,你说的mt能实现这种效果,但是他一样不能做到百分百通用,因为这些关键字必须要有实际的例子才能加上,你不可能一开始就知道那些关键字是你要过滤的,只能是看到一个加一个,这就解决问题了,看到一个就可以根据实际情况来改变规则啊,最后大家依然是在一条线上啊

TOP

原帖由 elkay 于 2008-1-15 00:35 发表 http://bbs.ioage.com/cn/images/common/back.gif
我都说了,只有根据实际情况才能真正想到解决问题的办法,通用性的考虑不可能完美的,你说的情况确实存在,但是不会影响到任何东西,因为根据不同的情况可以修改规则来达到目的,你说的mt能实现这种效果,但是他一样不能做到百分百通用,因为这些关键字必须要有实际的例子才能加上,你不可能一开始就知道那些关键字是你要过滤的,只能是看到一个加一个,这就解决问题了,看到一个就可以根据实际情况来改变规则啊,最后大家依然是在一条线上啊

你是明白 bound 的作用了,但还是不明白 bound 的重要性。有 bound 和没有 bound 是有天渊之别的,举个例:

在 mt/proxomitron,透过 bound 一条简单规则便能准确过滤任何网站上所有含 doubleclick, googlesyndication, hitbox 的 script,不用看 script 的代码,也不用对个别网站添加规则。
bound=<script.*?</script>
match=.*(doubleclick|googlesyndication|hitbox).*

在 tw 呢?在 A 站看到 doubleclick 便需要根据情况加一条规则,在 B 站看到 googlesyndication 又需要根据情况加一条规则,在 C 站看到 hitbox 又再需要根据情况加一条规则... 但在 A 站又可以有 5 条不同的 doubleclick script (像 www.nba.com),在 B 站又可以有 doubleclick,googlesyndication,hitbox 3 条情况不同的 script (像 sports.espn.go.com)...你说需要添加多少条规则了?即使你能够在日常浏览的网站都根据情况准确过滤了,但当广告商更改 script 的源码时,即使仍然是 doubleclick, googlesyndication, hitbox,情况还是改变了,你的规则可能已经失效,或者出错。你需要找出失效/出错的规则,再根据新的情况修改...你说需要花多少精神时间?

bound 是 proxomitron 根据长期用户反馈的实际需要添加的。看看透过 bound,下面的 1 条 MT2 规则可以有多强大 - 通用 (任何网站适用),准确 (保证匹配对应的 <script...</script>,不用考虑个别情况,不怕 script 代码更改),方便 (不用查看 script 源码,添加新广告商像添加黑名单般容易)...

bound=<script.*?</script>
match=.*(.doubleclick.net|.googlesyndication.com|.superstats.com|.surfaid.ihost.com|.falkag.net|.hitbox.com|.specificpop.com|.112.2o7.net|.superstats.com|.addfreestats.com|.adserver.com|.advertising.com|.advertwizard.com|.dealtime.com|.fastclick.com|.gostats.com|.nedstat.nl|.nedstatbasic.net|.questionmarket.com|.spylog.com|.valueclick.com|.sitemeter.com|.extreme-dm.com|.survey-poll.com|.thecounter.com|.teocash.com|ShowBurstAd|adrevenue|adstream|adserver|admentor).*

不断提出 TW 这个过滤上的不足,是希望开发组能够明白 bound 的作用及重要性,然后加以能改进。记得开发组当初对这种文本过滤方式不太热衷,是用户(包括我)多番要求才加入吧。但既然加入了,希望能够做到符合一贯使用文本过滤的用户的基本需要。

TOP

虽然看不懂,但希望高手们弄出个好的过滤

TOP

说了半天,最终还是回到易用性上面,你所说的只不过是相当于二次匹配而已,事实上这个bound是要牺牲一些性能的,从头说到尾只为了一点,就是易用性,我们一直承认mt的易用性比我们好,尤其是你们引以为傲的removeit,但是我个人对此持保留意见,如果一味以易用性为主,一开始就直接提供右键选择就可以了嘛,看看mt的过滤包,好好的正则被拆成一段一段,事实上这些工作都是要程序在后台完成的,实现这些效果的同时也就是把一些原本应该由人做的工作交给了程序,我只知道,程序是死的,但人是活的,一味要求一个死的程序来完成应该由人完成的工作是不现实的。

TOP

原帖由 elkay 于 2008-1-15 23:18 发表 http://bbs.ioage.com/cn/images/common/back.gif
说了半天,最终还是回到易用性上面,

一方面是添加一个简单的通用规则,一劳永逸;另一方面是不断在新遇到的网站添加针对性规则,每个规则需要考虑实际情况,并且需要因应网站变化而不断修改。bound 无疑是大大提高了易用性,但 bound 同时亦避免了在添加有效规则前没法过滤的情况,及网站改变后过滤可能失效或出错的问题,换句话说 bound 同时增加了过滤规则的可靠性。

你所说的只不过是相当于二次匹配而已,事实上这个bound是要牺牲一些性能的

1 次较复杂的 match 和 2 次较简单的 match 哪个较影响性能需要根据实际情况测试过才知道。另外不要忘记这里第 2 次 match 只在第 1 次 match 匹配到的 bound 进行,并非 match 整个源文件。
tw 规则:
  1. <script[^>]*?>[^>]*?hitbox[\s\S]*?<\/script>
复制代码
mt 规则:
  1. bound=<script.*?<script>
  2. match=.*hitbox.*
复制代码

TOP

高手过招,很好。支持!关键是对TW的发展大有裨益啊!

TOP

说实话,TW2的黑名单过滤确实没MT2文本过滤有效,就拿163广告过滤来说吧,TW2的黑名单过滤,没过多久就会失效,MT2的文本过滤就不会,这是我在双方都不升级过滤清单的情况下,对比试验

TOP

支持技术上的探讨,尽管知道原理,不了解具体细节

TOP

无论是MX的过滤机制,还是TW的过滤机制,都无外乎是正则表达式的匹配问题,不同的开发组对于具体的表现形式的理解的不同,使得相同或相似的技术在表层的表现方式千差万别。

而用户则不关心你的技术是如何实现的,他们注重的是自己能否正常工作、正常上网,是否让那些该死的广告去见上帝了。

而现在最根本的一个问题是,用户如何让该死的广告去见上帝?

TW和MX使用不同的方法达到相似的目的——让广告见上帝的目的。无论是变成天使去见上帝,还是被碎尸万段而升天。

TW需要用户在BBS中搜索相关过滤规则所在的帖子,copy相关的filter code,随后粘贴到黑名单内;
MX需要用户在资源站点中搜索相关过滤规则包,随后下载或直接安装相关过滤包。

不过不久的未来,通过插件,TW可以做到自动下载和升级Filter code。(目前不知道进展,但至少已经有了希望)

相信不久之后,就易用性方面而言,TW会有一个大的进步吧,相信将比MX更为便捷
(但有一个问题,TW的规则如何上传?MX是用户随意上传,TW可能是专人整理吧)
liuyis[AT]live.com

TOP

但提高匹配效率、准确率,无论是Filter Code的书写者,还是程序开发者,抑或者是使用者,同样都是比较关心的。

我的确要让广告去见上帝,可要是没有百分百杀死广告,或者是出现了误杀情况,那就不好玩了。
用户很郁闷,他不知道哪条规则出了问题,于是全部删除。可无奈TW的黑名单管理过滤简陋,找了半天才找到(这是易用性方面的问题,暂时不提)。
Filter Code书写者也很郁闷,自己的规则需要修订,如果时间久远而不知道哪一条出问题的话,重来是经常的。

因此,规则的准确率是非常关键的,即便让技术倒退,规则变多,也必须保证准确性,这一点毋庸置疑。

第二,是效率问题。
本帖主要是关注第一层匹配,也就是站点URL与#*website*#的匹配。虽然楼上的不少数据证明这是“瞬间”的匹配,但就易用性而言,使用域名包匹配(间LZ顶楼的两张示意图),匹配次数减少(从技术上来说这也是瞬间的),但更容易实现以后的“易用性优化”(如果按照域名进行分类管理的话,那么新的匹配方式,也就是域名包匹配将是一个更好的方式)。

现在我们说说第二层过滤,也就是#filtercode###之间的匹配问题。楼上的AY和E版等人就此话题进行了不少探讨。
我就我所使用的经验共享一下吧。
诸位可以到广告过滤专版的规则讨论子栏中寻找《有关过滤Script代码的思考》(http://bbs.ioage.com/cn/viewthread.php?tid=49024&extra=page%3D1)一文,我使用的比较具体的数据和方法说明了 “脚本代码破坏过滤法” 对于过滤特定网页的效率远远大于常规的过滤手段(匹配首尾关键字的大段过滤)。

我想说的是,目前咱们的过滤机制非常好,对于大多数网站而言。但对于一些比较特殊的网站,譬如广告特多、广告代码经常换的网站(这类网站多数是门户网站)来说,则相对而言需要稍加改进。

需要纠正AY的一句话,世界上没有一劳永逸的事情,有的只是相对较长或较短的变化周期。呵呵。

我觉得效率和准确性是至关重要的,用户看你的“技术是否高明”,是看效果,而不是实现的手段。广告是否都统统去见上帝了?效率是不是比较高?准确性如何?为了达到这些标准,即便使用相对落后的技术或比较多余的手段,用户也会觉得这款软件真不赖的想法。

上海地铁早在十多年前就发明了地铁换乘一卡通,属于全球领先或相对领先的技术,但没有推广。为何,因为接触不灵敏等易用性方面的问题而没有得到实行,直到现在的“交通一卡通”的出现。换句话说,在其他的领域,或在相同的领域,易用性是和技术性放在同等高度或几乎放在同等高度上的。
liuyis[AT]live.com

TOP

需要纠正AY的一句话,世界上没有一劳永逸的事情,有的只是相对较长或较短的变化周期。呵呵

这当然是相对而言。

但如果是单单过滤所有比如含 "hitbox" 的 script,包括 inline 或 external 的,mt2 的确可以一劳永逸,就像在黑名单加入 "hitbox" 过滤所有 "hitbox" 的档案 (但不能过滤 inline script),不会错得到那里的。但目前 tw2 就做不到,只能够在含有 "hitbox" 的网站找出 "hitbox" 源码针对性过滤。但 hitbox 只是浪费 cpu 的复杂统计,并非广告,在哪个网站出现无从得知,除非每个页面都检查一下源码。

TOP

飘过。。。。。。。。。。。。。。。

TOP

返回列表