Board logo

标题: 2008年7月25日新整理出来的广告过滤资料 [打印本页]

作者: 小絮    时间: 2008-7-25 16:07     标题: 2008年7月25日新整理出来的广告过滤资料

本帖最后由 小絮 于 2009-3-7 12:59 编辑

  1. 【特征字】 cpc
  2. http://count.hotadv.com/code/cpc/9167.aspx      (热点网络广告)
  3. http://partner.search.sohu.com/cpc/partner.php?pid=exia&type=26  (sohu竞价服务)
  4. http://partner.p4p.tom.com/cpc/league.php?pid=rainsun88&method=text&style=1  (TOM易告广告)
  5. 【特征字】 p4p
  6. http://partner.p4p.tom.com/cpc/league.php?pid=rainsun88&method=text&style=1  (TOM易告广告)
  7. <script type="text/javascript" src="http://cm.p4p.cn.yahoo.com/inf.js"></script> (yahoo广告)
  8. 【特征字】 union
  9. http://union.narrowad.com/proxy/nad.jsp?wid=4632&cid=9398  (窄告网广告)
  10. http://file.56.com/data/union/250x150.js   (乐邮广告)
  11. http://union.jx2.kingsoft.com/union/jx2/style_348.html?   (金山广告一)
  12. http://union.jx2.kingsoft.com/union/download/index_jx2.html?     (金山广告二)
  13. http://telecom.download.union.kingsoft.com/union/union/db05is.31.12678.exe (金山毒霸广告)
  14. http://template.union.163.com/search/tpl2.jsp?       (网易搜索)
  15. http://partner.p4p.tom.com/cpc/league.php?pid=rainsun88&method=text&style=1  (TOM易告广告)
  16. http://union.eqifa.com/js/tpgg/20041223103510.js    (亿起发商务平台)
  17. http://www.joyoo.cn/union/click.php?uid=401&num=cq105&md=2&sw=300&sh=300   (聚友广告联盟)
  18. http://union.114.com.cn/price/showprice?unionid=Tinpot……    (114广告)
  19. http://pcode.qihoo.com/forum/sunion/qihoo.html?……(奇琥站内搜索)
  20. http://www.123hoo.com/span/Union??.htm   ??为数字  (网摘中国联盟)
  21. http://adunion.pconline.com.cn
  22. "http://.*?\.adsunion\.com/"
  23. http://union.3721.com/
  24. http://union.5q.com/
  25. http://union.qyule.com/
  26. http://union.yahoo.com.cn/
  27. http://play.unionsky.cn/
  28. http://union.mop.com
  29. linkunion.com
  30. 77union.com
  31. http://union.51ditu.com/
  32. http://union.the999.com/
  33. http://aliunion.cn.yahoo.com/
  34. http://union.lele.com/
  35. http://union.yesky.com
  36. http://union.16tb.com
  37. 9union.net
  38. http://union.zhongsou.com/
  39. adunionz.com
  40. 【特征字】pfp 新浪竞价排名(代码未确定)
  41. 【特征字】pagead
  42. http://pagead2.googlesyndication.com/pagead/show_ads.js (含ads特征符)
  43. 【特征字】unstat,cpro,spcode,eiv,
  44. http://unstat.baidu.com/bdun.bsc?tn=pgety&cv=1&cid=136657&csid=1&rkcs=0 (百度搜索联盟)
  45. http://cpro.baidu.com/cpro/ui/cp.js (百度主题推广)
  46. "http://spcode.baidu.com/spcode/spstyle/style[0-9]{0,20}\.jsp"
  47. "http://eiv.baidu.com/(other|maimg)/.*?\.(jpg|gif|swf|js)"
  48. 【国外广告商】
  49. adsmart.net
  50. unicast.com
  51. valueclick.com
  52. doubleclick.com(doubleclick.net)
  53. imrworldwide.com
  54. breakthru.com
  55. 【广告商】
  56. alimama 阿里妈妈广告
  57. allyes.cn
  58. heima8.com〖http://dh.heima8.com/redir.php?id=100000&mid=105973〗
  59. keyrun.com〖http://b.keyrun.com/code.php?username=365bt&repl=1&isopen=yes&openid=1&adsuser=ulink〗
  60. clickeye.cn
  61. yigao.com 〖<script language="javascript" src="http://monitor.yigao.com/info.js"></script>〗
  62. myad.com 〖http://new.myad.cn/code/barnners.asp?typeid=15&userid=6101  (脉动广告联盟)〗
  63. un.so.gougou.com
  64. un.265.com/index.htm?id=crsky
  65. 7click.com 〖<IFRAME src="http://w1.7clink.com/code/1_0.asp?u=aimvnet&……></IFRAME>〗
  66. vodone.cn 〖<script src="http://busjs.vodone.cn/bus/ownerjs/advjs_36/36261/36261_40536_p7_.js">〗
  67. vogate.com
  68. 【未确定广告代码的广告商】
  69. lianmeng.com
  70. t2click.com
  71. ifocus.cn
  72. iplus.com.cn
  73. 9v.cn
  74. ete.cn
  75. icpun.com
  76. chanet.com.cn
  77. adwww.cn
  78. doubleadv.com
  79. u1th.com
  80. 8le8le.com
  81. textclick.com  太极链
  82. 【交友聊天】
  83. .9see.com
  84. loveliao.net(loveliao.com)
  85. zhenai.com
  86. 77aa.com
  87. iliao.cc
  88. 7liao.net
  89. 7town.com 铃声下载
  90. zhangxiu.com 彩秀
  91. chinesefriendfinders.com
复制代码
将各个特征符合在一起

  1. /(?:banner|cpc|p4p|union|unstat|cpro|spcode|eiv)/
复制代码
将各个广告联盟合在一起(由于很多广告联盟的代码都含有union特征字,为了节省资源广告代码未确定的暂不加入以免重复过滤)

  1. /(?:alimama|heima8|yigao|clickeye|allyes|myad|keyrun|un\.(?:so|265)|7click|vodone|vogate|chinesefriendfinder|icast)/
复制代码
o(∩_∩)o ^_^ o(∩_∩)o ^_^ o(∩_∩)o ^_^   我是可爱的分割线 ^_^ o(∩_∩)o ^_^ o(∩_∩)o ^_^ o(∩_∩)o

与ad相关的规则:
  1. */ad-*
  2. */ad_*
  3. */ad/*
  4. */ad.*
  5. */ad1*
  6. */ads-*
  7. */ads_*
  8. */ads/*
  9. */ads.*
  10. */ads9*
  11. */adv-*
  12. */adv_*
  13. */adv/*
  14. */adv.*
  15. */adv9*
  16. *.ad-*
  17. *.ad_*
  18. *.ad/*
  19. *.ad.*
  20. *.ad1*
  21. *.ads-*
  22. *.ads_*
  23. *.ads/*
  24. *.ads.*
  25. *.ads1*
  26. *.adv-*
  27. *.adv_*
  28. *.adv/*
  29. *.adv.*
  30. *.adv1*
  31. *_ad-*
  32. *_ad_*
  33. *_ad/*
  34. *_ad.*
  35. *_ad1*
  36. *_ads-*
  37. *_ads_*
  38. *_ads.*
  39. *_ads/*
  40. *_ads1*
  41. *_adv-*
  42. *_adv_*
  43. *_adv.*
  44. *_adv/*
  45. *_adv1*
  46. *"ad"*
  47. *"ads"*
  48. *"adv"*
复制代码
总结规律合并为:
  1. /[\W\d_]ad(?:s|v)?[\W\d_]/
复制代码
由于网页中很多div、span、li等html标记中都带“ad”或“ads”、“adv”之类的特征字当作是广告的标识,所以可以利用这个特性将其过滤,但是类似div这样的标记会出现嵌套,一旦过滤不当将会影响网页的结构,因此做了点特殊处理:遇到嵌套就放弃过滤以保证视觉效果,于是规则可写成:
  1. #ex#<(div|span|li|script|iframe)[^>]*?[\W\d_]ad(?:s|v)?[\W\d_]((?!<\1)[\s\S])*?</\1>###
复制代码
还有一些与ad有关的双单词特征字
  1. adclient
  2. adsclient
  3. adcode
  4. adscode
  5. adview
  6. adsview
  7. adfile
  8. adsfile
  9. adimg
  10. adsimg
  11. adsence
  12. adshow
  13. adserv
  14. adserver
复制代码
合并后:
  1. /(?:ad(?:s)?(?:client|code|view|file|img)|ad(?:sence|show|serv(?:er)?))/
复制代码
o(∩_∩)o ^_^ o(∩_∩)o ^_^ o(∩_∩)o ^_^   我是可爱的分割线   ^_^ o(∩_∩)o ^_^ o(∩_∩)o ^_^ o(∩_∩)o

综上所述,可以得出3条通用基础规则:分别针对广告商、一般特征字和特殊“ad”特征字
  1. /(?:alimama|heima8|yigao|clickeye|allyes|myad|keyrun|un\.(?:so|265)|7click|vodone|vogate|chinesefriendfinder|icast)/
  2. /(?:ad(?:s)?(?:client|code|view|file|img)|ad(?:sence|show|serv(?:er)?)|banner|cpc|p4p|union|unstat|cpro|spcode|eiv)/
  3. #ex#<(div|span|li|script|iframe)[^>]*?[\W\d_]ad(?:s|v)?[\W\d_]((?!<\1)[\s\S])*?</\1>###
复制代码
这3条通用规则应该能过滤绝大部分的广告。由于杀伤力强,误杀在所难免,兼容性还在测试中,以后会继续完善。
作者: yjwgi    时间: 2008-7-25 16:15

顶三月的好东西
作者: 正义的大脚    时间: 2008-7-25 16:36     标题: sina那个

pfp.sina.com.cn/union
作者: 小絮    时间: 2008-7-25 22:41

原帖由 正义的大脚 于 2008-7-25 16:36 发表 http://bbs.ioage.com/cn/images/common/back.gif
pfp.sina.com.cn/union

呵呵,正好被union命中,看来可以不用将pfp加入过滤规则了。
作者: 八阵图    时间: 2008-7-25 22:56

提示: 作者被禁止或删除 内容自动屏蔽
作者: red-M    时间: 2008-7-25 22:58

顶一下三三
作者: hhpp    时间: 2008-7-25 23:09

只用前面两条,应该不会有什么误杀的吧。呵呵。
我用前两条试试。
作者: mulao    时间: 2008-7-25 23:24

好贴,这个需要很多时间来分析广告代码,辛苦了
作者: kesien    时间: 2008-7-26 11:19

楼主的规则误杀绿色下载站中间那一排正常图片
http://www.greendown.cn/default.html
作者: jym2005    时间: 2008-7-26 11:26

提示: 作者被禁止或删除 内容自动屏蔽
作者: 小絮    时间: 2008-7-26 12:41

原帖由 kesien 于 2008-7-26 11:19 发表 http://bbs.ioage.com/cn/images/common/back.gif
楼主的规则误杀绿色下载站中间那一排正常图片
http://www.greendown.cn/default.html


这一排图片应该不是我这三条规则拦截的,请问您是否将这三条规则跟置顶的e版那份基础规则一起用?看情况这个误杀的情况像是被e版基础规则里面的这条规则误杀:
/[^0-9]+(?:\d){2,3}[x_](?:\d){2,3}[^0-9]+(?:swf|gif|jpg|js)/
作者: 小絮    时间: 2008-7-26 12:47

原帖由 jym2005 于 2008-7-26 11:26 发表 http://bbs.ioage.com/cn/images/common/back.gif
我倒不介意当广告处理的。。
和e版的基本规则比是杀伤力更强还是减少无过滤为主?
简单说就是用哪条好


我这三条规则只是个简单的教程而已,为了说明如何根据广告的资料编写规则,从而让大家对e版的那份基础规则不再望而生畏。
所以要说效果的话,当然是e版那份全面些啦。
作者: jym2005    时间: 2008-7-26 15:09

提示: 作者被禁止或删除 内容自动屏蔽
作者: kesien    时间: 2008-7-26 15:19

原帖由 小絮 于 2008-7-26 12:41 发表 http://bbs.ioage.com/cn/images/common/back.gif


这一排图片应该不是我这三条规则拦截的,请问您是否将这三条规则跟置顶的e版那份基础规则一起用?看情况这个误杀的情况像是被e版基础规则里面的这条规则误杀:
/[^0-9]+(?:\d){2,3}[x_](?:\d){2,3}[^0-9]+(?:sw ...

我是用的E版的规则,我是把你这三条规则直接加进去的。只用我以前的的规则不会误杀,加了你那三条规则进去就误杀了。
作者: 30992319    时间: 2008-8-30 14:18

顶起,收藏!
感谢LZ哈!
作者: Orz    时间: 2008-9-2 14:43

好用好用,
杀伤力还不错,
而且没有杀出空白而影响页面美观,
顶高手


[ 本帖最后由 Orz 于 2008-9-2 18:05 编辑 ]
作者: 菩提心    时间: 2008-9-2 22:03

  1. /(?:alimama|ggao|heima8|yigao|clickeye|allyes|myad|keyrun|un\.(?:so|265)|7click|vodone|vogate|chinesefriendfinder|icast)/
  2. /(?:ad(?:s)?(?:client|code|view|file|img)|ad(?:sence|show|serv(?:er)?)|banner|cpc|p4p|union|unstat|cpro|spcode|eiv)/
  3. #ex#<(img|div|span|li|script|iframe)[^>]*?[\W\d_]ad(?:s|v)?[\W\d_]((?!<\1)[\s\S])*?###
复制代码
加入一个ggao把绿色下载站的广告都过滤了,但被过滤的横幅广告出现空白,也不美观,希望修改一下,谢谢!
作者: 小絮    时间: 2008-9-6 09:26

加入“ggao”后还会将crsky的下载地址过滤掉,所以我没有将其加入。
作者: sicifus    时间: 2008-9-6 09:44

  1. #ex#<(img|div|span|li|script|iframe)[^>]*?[\W\d_]ad(?:s|v)?[\W\d_]((?!<\1)[\s\S])*?</\1>###
复制代码


LZ你好,上面的这条代码会误杀tom.com新闻里的正文,譬如http://post.news.tom.com/CA000AF2628.html?source=HP_TOPIC
能否优化一下?谢谢!
作者: 小絮    时间: 2008-9-6 10:02

遇到这种误杀情况,只能将误杀的网站加入白名单,或是降低规则的杀伤范围:
  1. #ex#<(div|span|li|iframe)[^>]*?[\W\d_]ad(?:s|v)?[\W\d_]((?!<\1)[\s\S])*?</\1>###
复制代码
将“script” 这项去掉即可。
ps:img这项没必要再留着了,不起作用的。
作者: dircd    时间: 2008-9-21 09:42

谢谢楼主,支持tw。
作者: Orz    时间: 2008-11-7 17:23

今天发现一个问题,
貌似把支付宝的"请输入支付宝账户支付密码"屏蔽了

[ 本帖最后由 Orz 于 2008-11-7 17:29 编辑 ]
作者: 小絮    时间: 2008-11-7 20:46

原帖由 Orz 于 2008-11-7 17:23 发表 http://bbs.ioage.com/cn/images/common/back.gif
今天发现一个问题,
貌似把支付宝的"请输入支付宝账户支付密码"屏蔽了

我一直用着支付宝,没见什么问题啊。你可以试一下将支付宝的地址添加到网站白名单中。
作者: 他和她    时间: 2008-12-17 23:55


作者: ycxuscau    时间: 2008-12-20 09:15

厉害,果然高人,有无学习技巧,共享下,谢
作者: hgldg    时间: 2009-1-21 17:01

谢谢小絮!!!非常棒的规则!!!




欢迎光临 世界之窗论坛 (http://bbs.theworld.cn/) Powered by Discuz! 7.2