[改进建议] 似乎过滤规则对打开网页效率影响甚大

Rank: 12

UID: 5906
帖子: 3127
精华: 0
贡献: 18
推广: 1
有效BUG: 0
来自: 上海
注册时间: 2005-12-8

2^#

发表于 2007-12-28 10:37 | 显示全部帖子

原帖由 needed 于 2007-12-28 00:19 发表 http://bbs.ioage.com/cn/images/common/back.gif
难道你用exd 写17173的规则打开163的时候会匹配么 ?
当然不会.
不过, 写的不太完善的黑名单对浏览速度的确有影响...

如何在theworld.ini配置文件内进行域名匹配？
如何在百千条（目前我还只有四百多条的样子）中搜寻相匹配域名的规则？
使用exd对17173写100条规则，然后再为cmfu写5条规则，那么TheWorld是进行105次域名匹配还是2次域名匹配？
如果将LZ的帖子看完的话，很清晰的可以看到两种方式的匹配量的不同，这是一个数量级的差距。
我不使用时间复杂度来进行解释，也不牵涉其他的机器性能进行具体的演算，因为这个工作是很复杂而难以理解的。

我们例举一个非常实际的例子。
假设17173有50条规则；163有50条规则；17K有50条规则；等等，共有20个网站，那么规则总数是50*20=1000条。
按照目前的匹配方式，我需要匹配17K网站，那么：

第一步，对1000条规则进行域名匹配，匹配1000次；
第二步，找到17K的那50条规则，进行HTML代码匹配，设HTML代码量为A，比例系数为M，则匹配量是50AM；

统计：总共的匹配次数为：1000+50AM。

如果采用我所说的索引方式的匹配方式，则：

第一步，对20个域名进行匹配，匹配次数20次；
第二步，对17K内的50条规则进行匹配，匹配次数是50AM次；

统计，总共的匹配次数为20+50AM。

很容易地，也很明显的，1000+50AM>>20+50AM，节省了匹配次数的好处是效率的提高，稳定性的提高，以及其他的好处。

如果比较一番的话，有时候你会发现MX的过滤效率比TW高，但不排除MX对用户心理的暗示（过滤了什么，右下角有提示）会导致用户“感觉上效率高”的感觉。

至于不完善的黑名单。。。一般的，我认为只有不规范的网页需要过滤，才会诞生不完善的黑名单。。。而且，一般的，写黑名单的人都非常谨慎，尽可漏杀也不误杀，宁可少杀也不滥杀，这一点E版深有体会。

liuyis[AT]live.com

Rank: 12

UID: 5906
帖子: 3127
精华: 0
贡献: 18
推广: 1
有效BUG: 0
来自: 上海
注册时间: 2005-12-8

3^#

发表于 2007-12-28 11:10 | 显示全部帖子

原帖由 needed 于 2007-12-28 10:56 发表 http://bbs.ioage.com/cn/images/common/back.gif

是的，MX只是比TW多了个用户暗示，所以“感觉上快”。

好吧，有具体的数据那就很好说话了，性能效率是其一。

其二是管理，LS说的很清楚，这是软肋，这一点以前很多帖子都反映了；
其三是稳定，其实这个说不准，变数很多，至少我感觉少匹配说不定能得到稳定的提升

这三点是顶楼帖子的核心，关于第一点数据已经证明不必多虑，非常感谢needed的数据；那么就只剩第二点和第三点了。

很高兴能够探讨这个问题。

liuyis[AT]live.com

Rank: 12

UID: 5906
帖子: 3127
精华: 0
贡献: 18
推广: 1
有效BUG: 0
来自: 上海
注册时间: 2005-12-8

4^#

发表于 2008-1-16 15:54 | 显示全部帖子

无论是MX的过滤机制，还是TW的过滤机制，都无外乎是正则表达式的匹配问题，不同的开发组对于具体的表现形式的理解的不同，使得相同或相似的技术在表层的表现方式千差万别。

而用户则不关心你的技术是如何实现的，他们注重的是自己能否正常工作、正常上网，是否让那些该死的广告去见上帝了。

而现在最根本的一个问题是，用户如何让该死的广告去见上帝？

TW和MX使用不同的方法达到相似的目的——让广告见上帝的目的。无论是变成天使去见上帝，还是被碎尸万段而升天。

TW需要用户在BBS中搜索相关过滤规则所在的帖子，copy相关的filter code，随后粘贴到黑名单内；
MX需要用户在资源站点中搜索相关过滤规则包，随后下载或直接安装相关过滤包。

不过不久的未来，通过插件，TW可以做到自动下载和升级Filter code。（目前不知道进展，但至少已经有了希望）

相信不久之后，就易用性方面而言，TW会有一个大的进步吧，相信将比MX更为便捷
（但有一个问题，TW的规则如何上传？MX是用户随意上传，TW可能是专人整理吧）

liuyis[AT]live.com

Rank: 12

UID: 5906
帖子: 3127
精华: 0
贡献: 18
推广: 1
有效BUG: 0
来自: 上海
注册时间: 2005-12-8

5^#

发表于 2008-1-16 16:15 | 显示全部帖子

但提高匹配效率、准确率，无论是Filter Code的书写者，还是程序开发者，抑或者是使用者，同样都是比较关心的。

我的确要让广告去见上帝，可要是没有百分百杀死广告，或者是出现了误杀情况，那就不好玩了。
用户很郁闷，他不知道哪条规则出了问题，于是全部删除。可无奈TW的黑名单管理过滤简陋，找了半天才找到（这是易用性方面的问题，暂时不提）。
Filter Code书写者也很郁闷，自己的规则需要修订，如果时间久远而不知道哪一条出问题的话，重来是经常的。

因此，规则的准确率是非常关键的，即便让技术倒退，规则变多，也必须保证准确性，这一点毋庸置疑。

第二，是效率问题。
本帖主要是关注第一层匹配，也就是站点URL与#*website*#的匹配。虽然楼上的不少数据证明这是“瞬间”的匹配，但就易用性而言，使用域名包匹配（间LZ顶楼的两张示意图），匹配次数减少（从技术上来说这也是瞬间的），但更容易实现以后的“易用性优化”（如果按照域名进行分类管理的话，那么新的匹配方式，也就是域名包匹配将是一个更好的方式）。

现在我们说说第二层过滤，也就是#filtercode###之间的匹配问题。楼上的AY和E版等人就此话题进行了不少探讨。
我就我所使用的经验共享一下吧。
诸位可以到广告过滤专版的规则讨论子栏中寻找《有关过滤Script代码的思考》（http://bbs.ioage.com/cn/viewthread.php?tid=49024&extra=page%3D1）一文，我使用的比较具体的数据和方法说明了　“脚本代码破坏过滤法”　对于过滤特定网页的效率远远大于常规的过滤手段（匹配首尾关键字的大段过滤）。

我想说的是，目前咱们的过滤机制非常好，对于大多数网站而言。但对于一些比较特殊的网站，譬如广告特多、广告代码经常换的网站（这类网站多数是门户网站）来说，则相对而言需要稍加改进。

需要纠正AY的一句话，世界上没有一劳永逸的事情，有的只是相对较长或较短的变化周期。呵呵。

我觉得效率和准确性是至关重要的，用户看你的“技术是否高明”，是看效果，而不是实现的手段。广告是否都统统去见上帝了？效率是不是比较高？准确性如何？为了达到这些标准，即便使用相对落后的技术或比较多余的手段，用户也会觉得这款软件真不赖的想法。

上海地铁早在十多年前就发明了地铁换乘一卡通，属于全球领先或相对领先的技术，但没有推广。为何，因为接触不灵敏等易用性方面的问题而没有得到实行，直到现在的“交通一卡通”的出现。换句话说，在其他的领域，或在相同的领域，易用性是和技术性放在同等高度或几乎放在同等高度上的。

liuyis[AT]live.com