Board logo

标题: 关于广告过滤的一点建议(不知道old否) [打印本页]

作者: zzjjob    时间: 2006-7-15 12:29     标题: 关于广告过滤的一点建议(不知道old否)

如果old了,不要笑话我。谢谢了

目前是有黑名单和白名单
能不能扩展一下黑名单,实现这样的过滤条件
有一个总的过滤黑名单,就像现在这样的
然后有一个对用户自设网站的黑名单过滤,当用户访问此网站才起作用
比如:
先判断总的黑名单  比如:(*/ggao*)
不满足
接下来判断是否再自设网站中(比如我们设置一个www.test01.com ,www.test02.com 这两个网站下都有自定义过滤条件)
如果不在,则不判断此网站下的过滤条件
如果在,则判断相应网站的自设过滤条件

不知道我表达清除没有
再次说明,如果old,就当我没说。
作者: hayem    时间: 2006-7-15 12:36

不明白,不好发言。呵呵
作者: Stefanie    时间: 2006-7-15 14:19

同意,我也想过,但是想到1.*已经不可能做太大的改变了,等2的Alpha版出来再说的,楼主抢先了...

就是说,可以为某个网站设置单独的过滤条件,最好能同时决定启用此条件的时候是否加入公共过滤条件
在登陆pconline.com.cn的时候,首先判断是否有对此网站特别设置的过滤条件,如果没有,用公共过滤条件,如果有,再判断是否设置了加入公共过滤条件,如果没有,那么在此网站只使用为其单独设置的过滤条件

看起来可能项目更多了,但是只从打开的url 分析判断是否有单独的过滤条件应该和HOST里屏蔽网站一样,又不用等到域名解析获取网站内容之后分析,应该对速度影响不大,不过也只是我的猜测而已~
作者: 那巴尔    时间: 2006-7-15 14:22

这样不错啊,节省了CPU。
作者: AY    时间: 2006-7-15 14:36

这个建议十分好,可以避免一些只适用于个别网站的过滤规则在所有网站进行匹配,可以大幅减少 cpu 负荷。

类似之前讨论过的网站针对性过滤规则。
作者: lloien    时间: 2006-7-15 15:08

我上有些站老被拦掉。
作者: 三月飞絮    时间: 2006-7-15 16:39

原帖由 AY 于 2006-7-15 14:36 发表
这个建议十分好,可以避免一些只适用于个别网站的过滤规则在所有网站进行匹配,可以大幅减少 cpu 负荷。

类似之前讨论过的网站针对性过滤规则。

个人认为没必要,现在可以变通实现这个功能,而且对CPU的占用并不会高得太多:
还是楼主的例子:
总的黑名单:
  *ggao*
针对网站www.test1.com的黑名单:  
  *tguanggao1*
  *tguanggao2*
针对网站www.test2.com的黑名单:
  *ttgg1*
  *ttgg2*

可以这样设置黑名单:
*ggao*
*www.test1.com*tguanggao1*
*www.test1.com*tguanggao2*
*www.test2.com*ttgg1*
*www.test2.com*ttgg2*
作者: Stefanie    时间: 2006-7-15 16:49

加入我用三月那个来浏览 TW或者DM的论坛,那么多出来5条无效的过滤条件(这两个网站没有广告嘛,所以所有的都是无效的~)

如果按照楼主(或者我说的^_^),多出3条
1、判断是否是www.test1.com
2、判断是否是www.test2.com
3、判断是否有 *ggao*
而且,1和2 的效率应该比*ggao*这种要高很多
作者: AY    时间: 2006-7-15 18:13

我主要是说网站针对性规则能减少 cpu 负荷。比如一条只在 *sina.com* 适用的规则 *abcxyz* (不含 *sina.com*):

在目前情况下每打开一个页面,页面连接的所有档案 (gif/css/js...) 都会匹配 *abcxyz* 一次,一般可能匹配数十至数百次。如果这个页面并非 sina.com 页面,这数十至数百次匹配便白费。

但如果能先匹配页面地址,不符合 *sina.com* 便忽略 *abcxyz* 这条规则,那么每个页面只是额外匹配一次地址 *sina.com*,但每个非 sina.com 页面便能省去数十至数百次十没必要的 *abcxyz* 匹配。
作者: linser    时间: 2006-7-20 16:36

这个建议偶早说过了,只是有很多人不明白
作者: ashuai    时间: 2006-7-22 09:30

原帖由 三月飞絮 于 2006-7-15 16:39 发表

个人认为没必要,现在可以变通实现这个功能,而且对CPU的占用并不会高得太多:
还是楼主的例子:
总的黑名单:
  *ggao*
针对网站www.test1.com的黑名单:  
  *tguanggao1*
  *tguanggao2*
...


你上xxx1.com,TW把所有规则匹配r一遍
你上xxx2.com,TW又匹配所有规则一遍

如果前一种方法的话,TW只会匹配第一条规则
作者: AY    时间: 2006-7-22 15:18

问题是能否实现。如果是按照 http request 来拦截的话则未必能有效实现,因为如果需要判断每个 request 所属页面,便不能减省不必要的匹配。
作者: starsoft    时间: 2006-7-22 21:45

楼主应该是考虑的效率,不然确实有替代办法

替代办法不是很有效率,因为TW目前的过滤列表没有优先级的说法
作者: Stefanie    时间: 2006-7-22 21:56

原帖由 starsoft 于 2006-7-22 21:45 发表
楼主应该是考虑的效率,不然确实有替代办法

替代办法不是很有效率,因为TW目前的过滤列表没有优先级的说法


如果考虑加这个进去,优先级肯定是必然的,所以只是个长远的想法,看2.0能否做到,如果2.0的过滤可以更厉害那更好
作者: cntime    时间: 2006-8-3 05:31

有可行性,就是实现起来好像费时间,但是好像做什么事情都很费时间




欢迎光临 世界之窗论坛 (http://bbs.theworld.cn/) Powered by Discuz! 7.2