返回列表 发帖

2008年7月25日新整理出来的广告过滤资料

本帖最后由 小絮 于 2009-3-7 12:59 编辑

  1. 【特征字】 cpc
  2. http://count.hotadv.com/code/cpc/9167.aspx      (热点网络广告)
  3. http://partner.search.sohu.com/cpc/partner.php?pid=exia&type=26  (sohu竞价服务)
  4. http://partner.p4p.tom.com/cpc/league.php?pid=rainsun88&method=text&style=1  (TOM易告广告)
  5. 【特征字】 p4p
  6. http://partner.p4p.tom.com/cpc/league.php?pid=rainsun88&method=text&style=1  (TOM易告广告)
  7. <script type="text/javascript" src="http://cm.p4p.cn.yahoo.com/inf.js"></script> (yahoo广告)
  8. 【特征字】 union
  9. http://union.narrowad.com/proxy/nad.jsp?wid=4632&cid=9398  (窄告网广告)
  10. http://file.56.com/data/union/250x150.js   (乐邮广告)
  11. http://union.jx2.kingsoft.com/union/jx2/style_348.html?   (金山广告一)
  12. http://union.jx2.kingsoft.com/union/download/index_jx2.html?     (金山广告二)
  13. http://telecom.download.union.kingsoft.com/union/union/db05is.31.12678.exe (金山毒霸广告)
  14. http://template.union.163.com/search/tpl2.jsp?       (网易搜索)
  15. http://partner.p4p.tom.com/cpc/league.php?pid=rainsun88&method=text&style=1  (TOM易告广告)
  16. http://union.eqifa.com/js/tpgg/20041223103510.js    (亿起发商务平台)
  17. http://www.joyoo.cn/union/click.php?uid=401&num=cq105&md=2&sw=300&sh=300   (聚友广告联盟)
  18. http://union.114.com.cn/price/showprice?unionid=Tinpot……    (114广告)
  19. http://pcode.qihoo.com/forum/sunion/qihoo.html?……(奇琥站内搜索)
  20. http://www.123hoo.com/span/Union??.htm   ??为数字  (网摘中国联盟)
  21. http://adunion.pconline.com.cn
  22. "http://.*?\.adsunion\.com/"
  23. http://union.3721.com/
  24. http://union.5q.com/
  25. http://union.qyule.com/
  26. http://union.yahoo.com.cn/
  27. http://play.unionsky.cn/
  28. http://union.mop.com
  29. linkunion.com
  30. 77union.com
  31. http://union.51ditu.com/
  32. http://union.the999.com/
  33. http://aliunion.cn.yahoo.com/
  34. http://union.lele.com/
  35. http://union.yesky.com
  36. http://union.16tb.com
  37. 9union.net
  38. http://union.zhongsou.com/
  39. adunionz.com
  40. 【特征字】pfp 新浪竞价排名(代码未确定)
  41. 【特征字】pagead
  42. http://pagead2.googlesyndication.com/pagead/show_ads.js (含ads特征符)
  43. 【特征字】unstat,cpro,spcode,eiv,
  44. http://unstat.baidu.com/bdun.bsc?tn=pgety&cv=1&cid=136657&csid=1&rkcs=0 (百度搜索联盟)
  45. http://cpro.baidu.com/cpro/ui/cp.js (百度主题推广)
  46. "http://spcode.baidu.com/spcode/spstyle/style[0-9]{0,20}\.jsp"
  47. "http://eiv.baidu.com/(other|maimg)/.*?\.(jpg|gif|swf|js)"
  48. 【国外广告商】
  49. adsmart.net
  50. unicast.com
  51. valueclick.com
  52. doubleclick.com(doubleclick.net)
  53. imrworldwide.com
  54. breakthru.com
  55. 【广告商】
  56. alimama 阿里妈妈广告
  57. allyes.cn
  58. heima8.com〖http://dh.heima8.com/redir.php?id=100000&mid=105973〗
  59. keyrun.com〖http://b.keyrun.com/code.php?username=365bt&repl=1&isopen=yes&openid=1&adsuser=ulink〗
  60. clickeye.cn
  61. yigao.com 〖<script language="javascript" src="http://monitor.yigao.com/info.js"></script>〗
  62. myad.com 〖http://new.myad.cn/code/barnners.asp?typeid=15&userid=6101  (脉动广告联盟)〗
  63. un.so.gougou.com
  64. un.265.com/index.htm?id=crsky
  65. 7click.com 〖<IFRAME src="http://w1.7clink.com/code/1_0.asp?u=aimvnet&……></IFRAME>〗
  66. vodone.cn 〖<script src="http://busjs.vodone.cn/bus/ownerjs/advjs_36/36261/36261_40536_p7_.js">〗
  67. vogate.com
  68. 【未确定广告代码的广告商】
  69. lianmeng.com
  70. t2click.com
  71. ifocus.cn
  72. iplus.com.cn
  73. 9v.cn
  74. ete.cn
  75. icpun.com
  76. chanet.com.cn
  77. adwww.cn
  78. doubleadv.com
  79. u1th.com
  80. 8le8le.com
  81. textclick.com  太极链
  82. 【交友聊天】
  83. .9see.com
  84. loveliao.net(loveliao.com)
  85. zhenai.com
  86. 77aa.com
  87. iliao.cc
  88. 7liao.net
  89. 7town.com 铃声下载
  90. zhangxiu.com 彩秀
  91. chinesefriendfinders.com
复制代码
将各个特征符合在一起

  1. /(?:banner|cpc|p4p|union|unstat|cpro|spcode|eiv)/
复制代码
将各个广告联盟合在一起(由于很多广告联盟的代码都含有union特征字,为了节省资源广告代码未确定的暂不加入以免重复过滤)

  1. /(?:alimama|heima8|yigao|clickeye|allyes|myad|keyrun|un\.(?:so|265)|7click|vodone|vogate|chinesefriendfinder|icast)/
复制代码
o(∩_∩)o ^_^ o(∩_∩)o ^_^ o(∩_∩)o ^_^   我是可爱的分割线 ^_^ o(∩_∩)o ^_^ o(∩_∩)o ^_^ o(∩_∩)o

与ad相关的规则:
  1. */ad-*
  2. */ad_*
  3. */ad/*
  4. */ad.*
  5. */ad1*
  6. */ads-*
  7. */ads_*
  8. */ads/*
  9. */ads.*
  10. */ads9*
  11. */adv-*
  12. */adv_*
  13. */adv/*
  14. */adv.*
  15. */adv9*
  16. *.ad-*
  17. *.ad_*
  18. *.ad/*
  19. *.ad.*
  20. *.ad1*
  21. *.ads-*
  22. *.ads_*
  23. *.ads/*
  24. *.ads.*
  25. *.ads1*
  26. *.adv-*
  27. *.adv_*
  28. *.adv/*
  29. *.adv.*
  30. *.adv1*
  31. *_ad-*
  32. *_ad_*
  33. *_ad/*
  34. *_ad.*
  35. *_ad1*
  36. *_ads-*
  37. *_ads_*
  38. *_ads.*
  39. *_ads/*
  40. *_ads1*
  41. *_adv-*
  42. *_adv_*
  43. *_adv.*
  44. *_adv/*
  45. *_adv1*
  46. *"ad"*
  47. *"ads"*
  48. *"adv"*
复制代码
总结规律合并为:
  1. /[\W\d_]ad(?:s|v)?[\W\d_]/
复制代码
由于网页中很多div、span、li等html标记中都带“ad”或“ads”、“adv”之类的特征字当作是广告的标识,所以可以利用这个特性将其过滤,但是类似div这样的标记会出现嵌套,一旦过滤不当将会影响网页的结构,因此做了点特殊处理:遇到嵌套就放弃过滤以保证视觉效果,于是规则可写成:
  1. #ex#<(div|span|li|script|iframe)[^>]*?[\W\d_]ad(?:s|v)?[\W\d_]((?!<\1)[\s\S])*?</\1>###
复制代码
还有一些与ad有关的双单词特征字
  1. adclient
  2. adsclient
  3. adcode
  4. adscode
  5. adview
  6. adsview
  7. adfile
  8. adsfile
  9. adimg
  10. adsimg
  11. adsence
  12. adshow
  13. adserv
  14. adserver
复制代码
合并后:
  1. /(?:ad(?:s)?(?:client|code|view|file|img)|ad(?:sence|show|serv(?:er)?))/
复制代码
o(∩_∩)o ^_^ o(∩_∩)o ^_^ o(∩_∩)o ^_^   我是可爱的分割线   ^_^ o(∩_∩)o ^_^ o(∩_∩)o ^_^ o(∩_∩)o

综上所述,可以得出3条通用基础规则:分别针对广告商、一般特征字和特殊“ad”特征字
  1. /(?:alimama|heima8|yigao|clickeye|allyes|myad|keyrun|un\.(?:so|265)|7click|vodone|vogate|chinesefriendfinder|icast)/
  2. /(?:ad(?:s)?(?:client|code|view|file|img)|ad(?:sence|show|serv(?:er)?)|banner|cpc|p4p|union|unstat|cpro|spcode|eiv)/
  3. #ex#<(div|span|li|script|iframe)[^>]*?[\W\d_]ad(?:s|v)?[\W\d_]((?!<\1)[\s\S])*?</\1>###
复制代码
这3条通用规则应该能过滤绝大部分的广告。由于杀伤力强,误杀在所难免,兼容性还在测试中,以后会继续完善。

谢谢小絮!!!非常棒的规则!!!

TOP

厉害,果然高人,有无学习技巧,共享下,谢

TOP

TOP

原帖由 Orz 于 2008-11-7 17:23 发表 http://bbs.ioage.com/cn/images/common/back.gif
今天发现一个问题,
貌似把支付宝的"请输入支付宝账户支付密码"屏蔽了

我一直用着支付宝,没见什么问题啊。你可以试一下将支付宝的地址添加到网站白名单中。

TOP

今天发现一个问题,
貌似把支付宝的"请输入支付宝账户支付密码"屏蔽了

[ 本帖最后由 Orz 于 2008-11-7 17:29 编辑 ]

TOP

谢谢楼主,支持tw。

TOP

遇到这种误杀情况,只能将误杀的网站加入白名单,或是降低规则的杀伤范围:
  1. #ex#<(div|span|li|iframe)[^>]*?[\W\d_]ad(?:s|v)?[\W\d_]((?!<\1)[\s\S])*?</\1>###
复制代码
将“script” 这项去掉即可。
ps:img这项没必要再留着了,不起作用的。

TOP

  1. #ex#<(img|div|span|li|script|iframe)[^>]*?[\W\d_]ad(?:s|v)?[\W\d_]((?!<\1)[\s\S])*?</\1>###
复制代码


LZ你好,上面的这条代码会误杀tom.com新闻里的正文,譬如http://post.news.tom.com/CA000AF2628.html?source=HP_TOPIC
能否优化一下?谢谢!

TOP

加入“ggao”后还会将crsky的下载地址过滤掉,所以我没有将其加入。

TOP

  1. /(?:alimama|ggao|heima8|yigao|clickeye|allyes|myad|keyrun|un\.(?:so|265)|7click|vodone|vogate|chinesefriendfinder|icast)/
  2. /(?:ad(?:s)?(?:client|code|view|file|img)|ad(?:sence|show|serv(?:er)?)|banner|cpc|p4p|union|unstat|cpro|spcode|eiv)/
  3. #ex#<(img|div|span|li|script|iframe)[^>]*?[\W\d_]ad(?:s|v)?[\W\d_]((?!<\1)[\s\S])*?###
复制代码
加入一个ggao把绿色下载站的广告都过滤了,但被过滤的横幅广告出现空白,也不美观,希望修改一下,谢谢!

TOP

好用好用,
杀伤力还不错,
而且没有杀出空白而影响页面美观,
顶高手


[ 本帖最后由 Orz 于 2008-9-2 18:05 编辑 ]

TOP

返回列表