世界之窗论坛 - Powered by Discuz! Board

标题: 关于广告过滤的一点建议（不知道old否） [打印本页]

作者: zzjjob 时间: 2006-7-15 12:29 标题: 关于广告过滤的一点建议（不知道old否）

如果old了，不要笑话我。谢谢了

目前是有黑名单和白名单
能不能扩展一下黑名单，实现这样的过滤条件
有一个总的过滤黑名单，就像现在这样的
然后有一个对用户自设网站的黑名单过滤，当用户访问此网站才起作用
比如：
先判断总的黑名单比如：（*/ggao*）
不满足
接下来判断是否再自设网站中（比如我们设置一个www.test01.com ,www.test02.com 这两个网站下都有自定义过滤条件）
如果不在，则不判断此网站下的过滤条件
如果在，则判断相应网站的自设过滤条件

不知道我表达清除没有
再次说明，如果old，就当我没说。

作者: hayem 时间: 2006-7-15 12:36

不明白,不好发言。呵呵

作者: Stefanie 时间: 2006-7-15 14:19

同意，我也想过，但是想到1.*已经不可能做太大的改变了，等2的Alpha版出来再说的，楼主抢先了...

就是说，可以为某个网站设置单独的过滤条件，最好能同时决定启用此条件的时候是否加入公共过滤条件
在登陆pconline.com.cn的时候，首先判断是否有对此网站特别设置的过滤条件，如果没有，用公共过滤条件，如果有，再判断是否设置了加入公共过滤条件，如果没有，那么在此网站只使用为其单独设置的过滤条件

看起来可能项目更多了，但是只从打开的url 分析判断是否有单独的过滤条件应该和HOST里屏蔽网站一样，又不用等到域名解析获取网站内容之后分析，应该对速度影响不大，不过也只是我的猜测而已~

作者: 那巴尔 时间: 2006-7-15 14:22

这样不错啊，节省了CPU。

作者: AY 时间: 2006-7-15 14:36

这个建议十分好，可以避免一些只适用于个别网站的过滤规则在所有网站进行匹配，可以大幅减少 cpu 负荷。

类似之前讨论过的网站针对性过滤规则。

作者: lloien 时间: 2006-7-15 15:08

我上有些站老被拦掉。

作者: 三月飞絮 时间: 2006-7-15 16:39

原帖由 AY 于 2006-7-15 14:36 发表
这个建议十分好，可以避免一些只适用于个别网站的过滤规则在所有网站进行匹配，可以大幅减少 cpu 负荷。

类似之前讨论过的网站针对性过滤规则。

个人认为没必要，现在可以变通实现这个功能，而且对CPU的占用并不会高得太多：
还是楼主的例子：
总的黑名单：
  *ggao*
针对网站www.test1.com的黑名单：
  *tguanggao1*
  *tguanggao2*
针对网站www.test2.com的黑名单：
  *ttgg1*
  *ttgg2*

可以这样设置黑名单：
*ggao*
*www.test1.com*tguanggao1*
*www.test1.com*tguanggao2*
*www.test2.com*ttgg1*
*www.test2.com*ttgg2*

作者: Stefanie 时间: 2006-7-15 16:49

加入我用三月那个来浏览 TW或者DM的论坛，那么多出来5条无效的过滤条件（这两个网站没有广告嘛，所以所有的都是无效的~）

如果按照楼主（或者我说的^_^），多出3条
1、判断是否是www.test1.com
2、判断是否是www.test2.com
3、判断是否有 *ggao*
而且，1和2 的效率应该比*ggao*这种要高很多

作者: AY 时间: 2006-7-15 18:13

我主要是说网站针对性规则能减少 cpu 负荷。比如一条只在 *sina.com* 适用的规则 *abcxyz* (不含 *sina.com*)：

在目前情况下每打开一个页面，页面连接的所有档案 (gif/css/js...) 都会匹配 *abcxyz* 一次，一般可能匹配数十至数百次。如果这个页面并非 sina.com 页面，这数十至数百次匹配便白费。

但如果能先匹配页面地址，不符合 *sina.com* 便忽略 *abcxyz* 这条规则，那么每个页面只是额外匹配一次地址 *sina.com*，但每个非 sina.com 页面便能省去数十至数百次十没必要的 *abcxyz* 匹配。

作者: linser 时间: 2006-7-20 16:36

这个建议偶早说过了，只是有很多人不明白

作者: ashuai 时间: 2006-7-22 09:30

原帖由 三月飞絮 于 2006-7-15 16:39 发表

个人认为没必要，现在可以变通实现这个功能，而且对CPU的占用并不会高得太多：
还是楼主的例子：
总的黑名单：
  *ggao*
针对网站www.test1.com的黑名单：
  *tguanggao1*
  *tguanggao2*
...

你上xxx1.com，TW把所有规则匹配r一遍
你上xxx2.com，TW又匹配所有规则一遍

如果前一种方法的话，TW只会匹配第一条规则

作者: AY 时间: 2006-7-22 15:18

问题是能否实现。如果是按照 http request 来拦截的话则未必能有效实现，因为如果需要判断每个 request 所属页面，便不能减省不必要的匹配。

作者: starsoft 时间: 2006-7-22 21:45

楼主应该是考虑的效率,不然确实有替代办法

替代办法不是很有效率,因为TW目前的过滤列表没有优先级的说法

作者: Stefanie 时间: 2006-7-22 21:56

原帖由 starsoft 于 2006-7-22 21:45 发表
楼主应该是考虑的效率,不然确实有替代办法

替代办法不是很有效率,因为TW目前的过滤列表没有优先级的说法

如果考虑加这个进去，优先级肯定是必然的，所以只是个长远的想法，看2.0能否做到，如果2.0的过滤可以更厉害那更好

作者: cntime 时间: 2006-8-3 05:31

有可行性，就是实现起来好像费时间，但是好像做什么事情都很费时间

欢迎光临世界之窗论坛 (http://bbs.theworld.cn/)