返回列表 发帖

关于广告过滤的一点建议(不知道old否)

如果old了,不要笑话我。谢谢了

目前是有黑名单和白名单
能不能扩展一下黑名单,实现这样的过滤条件
有一个总的过滤黑名单,就像现在这样的
然后有一个对用户自设网站的黑名单过滤,当用户访问此网站才起作用
比如:
先判断总的黑名单  比如:(*/ggao*)
不满足
接下来判断是否再自设网站中(比如我们设置一个www.test01.com ,www.test02.com 这两个网站下都有自定义过滤条件)
如果不在,则不判断此网站下的过滤条件
如果在,则判断相应网站的自设过滤条件

不知道我表达清除没有
再次说明,如果old,就当我没说。

不明白,不好发言。呵呵
CPU: AMD:turion X2 RM72
MEM:2047
OS: win7+XP+LD
世界之窗从1.RC6开始就在使用,最近被说成是金山枪手,郁闷啊。我使用金山毒霸,没有卡也没有慢,我使用金山WPS免费又好用,我使用网盾既无崩溃也无卡慢,我就从自己的感受说说罢

TOP

同意,我也想过,但是想到1.*已经不可能做太大的改变了,等2的Alpha版出来再说的,楼主抢先了...

就是说,可以为某个网站设置单独的过滤条件,最好能同时决定启用此条件的时候是否加入公共过滤条件
在登陆pconline.com.cn的时候,首先判断是否有对此网站特别设置的过滤条件,如果没有,用公共过滤条件,如果有,再判断是否设置了加入公共过滤条件,如果没有,那么在此网站只使用为其单独设置的过滤条件

看起来可能项目更多了,但是只从打开的url 分析判断是否有单独的过滤条件应该和HOST里屏蔽网站一样,又不用等到域名解析获取网站内容之后分析,应该对速度影响不大,不过也只是我的猜测而已~
...
偶看着就好了

TOP

这样不错啊,节省了CPU。

TOP

这个建议十分好,可以避免一些只适用于个别网站的过滤规则在所有网站进行匹配,可以大幅减少 cpu 负荷。

类似之前讨论过的网站针对性过滤规则。

TOP

我上有些站老被拦掉。

TOP

原帖由 AY 于 2006-7-15 14:36 发表
这个建议十分好,可以避免一些只适用于个别网站的过滤规则在所有网站进行匹配,可以大幅减少 cpu 负荷。

类似之前讨论过的网站针对性过滤规则。

个人认为没必要,现在可以变通实现这个功能,而且对CPU的占用并不会高得太多:
还是楼主的例子:
总的黑名单:
  *ggao*
针对网站www.test1.com的黑名单:  
  *tguanggao1*
  *tguanggao2*
针对网站www.test2.com的黑名单:
  *ttgg1*
  *ttgg2*

可以这样设置黑名单:
*ggao*
*www.test1.com*tguanggao1*
*www.test1.com*tguanggao2*
*www.test2.com*ttgg1*
*www.test2.com*ttgg2*

TOP

加入我用三月那个来浏览 TW或者DM的论坛,那么多出来5条无效的过滤条件(这两个网站没有广告嘛,所以所有的都是无效的~)

如果按照楼主(或者我说的^_^),多出3条
1、判断是否是www.test1.com
2、判断是否是www.test2.com
3、判断是否有 *ggao*
而且,1和2 的效率应该比*ggao*这种要高很多
...
偶看着就好了

TOP

我主要是说网站针对性规则能减少 cpu 负荷。比如一条只在 *sina.com* 适用的规则 *abcxyz* (不含 *sina.com*):

在目前情况下每打开一个页面,页面连接的所有档案 (gif/css/js...) 都会匹配 *abcxyz* 一次,一般可能匹配数十至数百次。如果这个页面并非 sina.com 页面,这数十至数百次匹配便白费。

但如果能先匹配页面地址,不符合 *sina.com* 便忽略 *abcxyz* 这条规则,那么每个页面只是额外匹配一次地址 *sina.com*,但每个非 sina.com 页面便能省去数十至数百次十没必要的 *abcxyz* 匹配。

TOP

这个建议偶早说过了,只是有很多人不明白

TOP

原帖由 三月飞絮 于 2006-7-15 16:39 发表

个人认为没必要,现在可以变通实现这个功能,而且对CPU的占用并不会高得太多:
还是楼主的例子:
总的黑名单:
  *ggao*
针对网站www.test1.com的黑名单:  
  *tguanggao1*
  *tguanggao2*
...


你上xxx1.com,TW把所有规则匹配r一遍
你上xxx2.com,TW又匹配所有规则一遍

如果前一种方法的话,TW只会匹配第一条规则

TOP

问题是能否实现。如果是按照 http request 来拦截的话则未必能有效实现,因为如果需要判断每个 request 所属页面,便不能减省不必要的匹配。

TOP

返回列表