返回列表 发帖
提示: 作者被禁止或删除 内容自动屏蔽

TOP

LZ……那个太平洋电脑网(←典型例站)的下载链接全都变成被屏蔽的广告文字了……
目前版本最新,正则也是最新的
怎么解决好?

TOP

太平洋肯定没有问题,你楼上的不是也说没问题嘛,你再查查看?

TOP

起点中文的页面中最上方的盛大的广告如何过滤?

<TABLE height=30 cellSpacing=0 cellPadding=0 width="100%" border=0>
<TBODY>
  <TR>
   <TD vAlign=bottom><iframe height=30 src="http://sndasdopassport.sdo.com/sdodownload/passport/SNDAHomepage/SNDANewsBar.aspx" scrolling="no" frameborder="0" width="100%"></iframe></TD>
  </TR>
</TBODY>
</TABLE>
混神日志(韩磊BLOG)
http://www.hanlei.cn

TOP

黑名单中加入*/SNDANewsBar.*(或者正则式/\/SNDANewsBar\./),但是即使过滤了还会留下一个空白,只能用页面过滤,不过为了避免跟其他网站发生冲突就不推荐用页面过滤了,好在这个空白高度只有30,不是很明显

TOP

不行啊,只要在黑名单里面加正则表达式,遇到有广告的网站后TheWorld的CPU使用率马上就冲到100了。
TheWorld 2.0 新春版。
我的过滤规则为:
  1. /.+?\.(koowo|265|cnxad)\.com/
  2. /.*?advertisement\//
  3. /(\.|\/|_|")(ads?(\d|code|gif|graph|list|log|puba|file|sence|site|show)?|(ali)?union(sky|sys)?|all(4ad|yes)|bdun|banner|cp(c|ro)|(guan|my|newhua)?gg(ao)?|keyrun|p(4|f)p|sms|sp(onsor|code)|themis|ulink(js|dir)|un|usmsweb|xc)(s)?(\d)*(\.|\/|_)/
  4. /[\W_]ads?(?!=&)(banner|click|flow|frame|ima?ge?|log|serv(er|e)?|stream|type|view|vert(ising|ise?ment)?|trix|xchange|wrapper)?s?[\W\d_]/
  5. /(\.|\/|_)(soft|hot)?ads?(s..|img|vert|rotator|view|bot|c_|client|council|gif|graph|images|info|log|pic)?(\.|\/|_)/
复制代码

[ 本帖最后由 kenping 于 2007-2-15 00:37 编辑 ]
附件: 您需要登录才可以下载或查看附件。没有帐号?加入 我们

TOP

没有遇到过这样的情况,你一条一条排除法试试看?

TOP

用的是正则表达式,替换页面中的代码。

TOP

原帖由 elkay 于 2007-2-15 01:43 发表
没有遇到过这样的情况,你一条一条排除法试试看?


谢谢elkay,我发现了一个问题:
只要正则表达式是以
  1. .*
复制代码
  1. .+
复制代码
  1. .*?
复制代码
  1. .+?
复制代码
之类的开头的话,TheWord的CPU使用率就会冲得很高。

TOP

那是因为匹配的东西比较多吧~
混神日志(韩磊BLOG)
http://www.hanlei.cn

TOP

原帖由 elkay 于 2007-2-14 23:46 发表
黑名单中加入*/SNDANewsBar.*(或者正则式/\/SNDANewsBar\./),但是即使过滤了还会留下一个空白,只能用页面过滤,不过为了避免跟其他网站发生冲突就不推荐用页面过滤了,好在这个空白高度只有30,不是很明显



我常上的网站不多,不过起点中文倒是其中一个,所以用页面过滤应该比较适合我。

不过我还不太会写这个页面过滤,还是请你给帮帮忙咯~
混神日志(韩磊BLOG)
http://www.hanlei.cn

TOP

原帖由 kenping 于 2007-2-15 10:37 发表


谢谢elkay,我发现了一个问题:
只要正则表达式是以.*.+.*?.+?之类的开头的话,TheWord的CPU使用率就会冲得很高。


其实没必要以这些字符开头,反正你都全字符匹配了直接以"."开都就可以了,比如你的这个
"/.+?\.(koowo|265|cnxad)\.com/"写成"/\.(koowo|265|cnxad)\.com/"这样是一样的效果
你试试看

原帖由 混神 于 2007-2-15 11:19 发表



我常上的网站不多,不过起点中文倒是其中一个,所以用页面过滤应该比较适合我。

不过我还不太会写这个页面过滤,还是请你给帮帮忙咯~


ok,呵呵 ,遇到别的网站有问题的就只能去掉了


  1. ex0=<TABLE height=30 cellSpacing=0 cellPadding=0 width="100%" border=0>(?:.|\n)*?<\/table>
  2. re0=<!--ad-->
复制代码

TOP

返回列表