返回列表 发帖

2008年7月25日新整理出来的广告过滤资料

本帖最后由 小絮 于 2009-3-7 12:59 编辑

  1. 【特征字】 cpc
  2. http://count.hotadv.com/code/cpc/9167.aspx      (热点网络广告)
  3. http://partner.search.sohu.com/cpc/partner.php?pid=exia&type=26  (sohu竞价服务)
  4. http://partner.p4p.tom.com/cpc/league.php?pid=rainsun88&method=text&style=1  (TOM易告广告)
  5. 【特征字】 p4p
  6. http://partner.p4p.tom.com/cpc/league.php?pid=rainsun88&method=text&style=1  (TOM易告广告)
  7. <script type="text/javascript" src="http://cm.p4p.cn.yahoo.com/inf.js"></script> (yahoo广告)
  8. 【特征字】 union
  9. http://union.narrowad.com/proxy/nad.jsp?wid=4632&cid=9398  (窄告网广告)
  10. http://file.56.com/data/union/250x150.js   (乐邮广告)
  11. http://union.jx2.kingsoft.com/union/jx2/style_348.html?   (金山广告一)
  12. http://union.jx2.kingsoft.com/union/download/index_jx2.html?     (金山广告二)
  13. http://telecom.download.union.kingsoft.com/union/union/db05is.31.12678.exe (金山毒霸广告)
  14. http://template.union.163.com/search/tpl2.jsp?       (网易搜索)
  15. http://partner.p4p.tom.com/cpc/league.php?pid=rainsun88&method=text&style=1  (TOM易告广告)
  16. http://union.eqifa.com/js/tpgg/20041223103510.js    (亿起发商务平台)
  17. http://www.joyoo.cn/union/click.php?uid=401&num=cq105&md=2&sw=300&sh=300   (聚友广告联盟)
  18. http://union.114.com.cn/price/showprice?unionid=Tinpot……    (114广告)
  19. http://pcode.qihoo.com/forum/sunion/qihoo.html?……(奇琥站内搜索)
  20. http://www.123hoo.com/span/Union??.htm   ??为数字  (网摘中国联盟)
  21. http://adunion.pconline.com.cn
  22. "http://.*?\.adsunion\.com/"
  23. http://union.3721.com/
  24. http://union.5q.com/
  25. http://union.qyule.com/
  26. http://union.yahoo.com.cn/
  27. http://play.unionsky.cn/
  28. http://union.mop.com
  29. linkunion.com
  30. 77union.com
  31. http://union.51ditu.com/
  32. http://union.the999.com/
  33. http://aliunion.cn.yahoo.com/
  34. http://union.lele.com/
  35. http://union.yesky.com
  36. http://union.16tb.com
  37. 9union.net
  38. http://union.zhongsou.com/
  39. adunionz.com
  40. 【特征字】pfp 新浪竞价排名(代码未确定)
  41. 【特征字】pagead
  42. http://pagead2.googlesyndication.com/pagead/show_ads.js (含ads特征符)
  43. 【特征字】unstat,cpro,spcode,eiv,
  44. http://unstat.baidu.com/bdun.bsc?tn=pgety&cv=1&cid=136657&csid=1&rkcs=0 (百度搜索联盟)
  45. http://cpro.baidu.com/cpro/ui/cp.js (百度主题推广)
  46. "http://spcode.baidu.com/spcode/spstyle/style[0-9]{0,20}\.jsp"
  47. "http://eiv.baidu.com/(other|maimg)/.*?\.(jpg|gif|swf|js)"
  48. 【国外广告商】
  49. adsmart.net
  50. unicast.com
  51. valueclick.com
  52. doubleclick.com(doubleclick.net)
  53. imrworldwide.com
  54. breakthru.com
  55. 【广告商】
  56. alimama 阿里妈妈广告
  57. allyes.cn
  58. heima8.com〖http://dh.heima8.com/redir.php?id=100000&mid=105973〗
  59. keyrun.com〖http://b.keyrun.com/code.php?username=365bt&repl=1&isopen=yes&openid=1&adsuser=ulink〗
  60. clickeye.cn
  61. yigao.com 〖<script language="javascript" src="http://monitor.yigao.com/info.js"></script>〗
  62. myad.com 〖http://new.myad.cn/code/barnners.asp?typeid=15&userid=6101  (脉动广告联盟)〗
  63. un.so.gougou.com
  64. un.265.com/index.htm?id=crsky
  65. 7click.com 〖<IFRAME src="http://w1.7clink.com/code/1_0.asp?u=aimvnet&……></IFRAME>〗
  66. vodone.cn 〖<script src="http://busjs.vodone.cn/bus/ownerjs/advjs_36/36261/36261_40536_p7_.js">〗
  67. vogate.com
  68. 【未确定广告代码的广告商】
  69. lianmeng.com
  70. t2click.com
  71. ifocus.cn
  72. iplus.com.cn
  73. 9v.cn
  74. ete.cn
  75. icpun.com
  76. chanet.com.cn
  77. adwww.cn
  78. doubleadv.com
  79. u1th.com
  80. 8le8le.com
  81. textclick.com  太极链
  82. 【交友聊天】
  83. .9see.com
  84. loveliao.net(loveliao.com)
  85. zhenai.com
  86. 77aa.com
  87. iliao.cc
  88. 7liao.net
  89. 7town.com 铃声下载
  90. zhangxiu.com 彩秀
  91. chinesefriendfinders.com
复制代码
将各个特征符合在一起

  1. /(?:banner|cpc|p4p|union|unstat|cpro|spcode|eiv)/
复制代码
将各个广告联盟合在一起(由于很多广告联盟的代码都含有union特征字,为了节省资源广告代码未确定的暂不加入以免重复过滤)

  1. /(?:alimama|heima8|yigao|clickeye|allyes|myad|keyrun|un\.(?:so|265)|7click|vodone|vogate|chinesefriendfinder|icast)/
复制代码
o(∩_∩)o ^_^ o(∩_∩)o ^_^ o(∩_∩)o ^_^   我是可爱的分割线 ^_^ o(∩_∩)o ^_^ o(∩_∩)o ^_^ o(∩_∩)o

与ad相关的规则:
  1. */ad-*
  2. */ad_*
  3. */ad/*
  4. */ad.*
  5. */ad1*
  6. */ads-*
  7. */ads_*
  8. */ads/*
  9. */ads.*
  10. */ads9*
  11. */adv-*
  12. */adv_*
  13. */adv/*
  14. */adv.*
  15. */adv9*
  16. *.ad-*
  17. *.ad_*
  18. *.ad/*
  19. *.ad.*
  20. *.ad1*
  21. *.ads-*
  22. *.ads_*
  23. *.ads/*
  24. *.ads.*
  25. *.ads1*
  26. *.adv-*
  27. *.adv_*
  28. *.adv/*
  29. *.adv.*
  30. *.adv1*
  31. *_ad-*
  32. *_ad_*
  33. *_ad/*
  34. *_ad.*
  35. *_ad1*
  36. *_ads-*
  37. *_ads_*
  38. *_ads.*
  39. *_ads/*
  40. *_ads1*
  41. *_adv-*
  42. *_adv_*
  43. *_adv.*
  44. *_adv/*
  45. *_adv1*
  46. *"ad"*
  47. *"ads"*
  48. *"adv"*
复制代码
总结规律合并为:
  1. /[\W\d_]ad(?:s|v)?[\W\d_]/
复制代码
由于网页中很多div、span、li等html标记中都带“ad”或“ads”、“adv”之类的特征字当作是广告的标识,所以可以利用这个特性将其过滤,但是类似div这样的标记会出现嵌套,一旦过滤不当将会影响网页的结构,因此做了点特殊处理:遇到嵌套就放弃过滤以保证视觉效果,于是规则可写成:
  1. #ex#<(div|span|li|script|iframe)[^>]*?[\W\d_]ad(?:s|v)?[\W\d_]((?!<\1)[\s\S])*?</\1>###
复制代码
还有一些与ad有关的双单词特征字
  1. adclient
  2. adsclient
  3. adcode
  4. adscode
  5. adview
  6. adsview
  7. adfile
  8. adsfile
  9. adimg
  10. adsimg
  11. adsence
  12. adshow
  13. adserv
  14. adserver
复制代码
合并后:
  1. /(?:ad(?:s)?(?:client|code|view|file|img)|ad(?:sence|show|serv(?:er)?))/
复制代码
o(∩_∩)o ^_^ o(∩_∩)o ^_^ o(∩_∩)o ^_^   我是可爱的分割线   ^_^ o(∩_∩)o ^_^ o(∩_∩)o ^_^ o(∩_∩)o

综上所述,可以得出3条通用基础规则:分别针对广告商、一般特征字和特殊“ad”特征字
  1. /(?:alimama|heima8|yigao|clickeye|allyes|myad|keyrun|un\.(?:so|265)|7click|vodone|vogate|chinesefriendfinder|icast)/
  2. /(?:ad(?:s)?(?:client|code|view|file|img)|ad(?:sence|show|serv(?:er)?)|banner|cpc|p4p|union|unstat|cpro|spcode|eiv)/
  3. #ex#<(div|span|li|script|iframe)[^>]*?[\W\d_]ad(?:s|v)?[\W\d_]((?!<\1)[\s\S])*?</\1>###
复制代码
这3条通用规则应该能过滤绝大部分的广告。由于杀伤力强,误杀在所难免,兼容性还在测试中,以后会继续完善。

顶三月的好东西

TOP

sina那个

pfp.sina.com.cn/union

TOP

原帖由 正义的大脚 于 2008-7-25 16:36 发表 http://bbs.ioage.com/cn/images/common/back.gif
pfp.sina.com.cn/union

呵呵,正好被union命中,看来可以不用将pfp加入过滤规则了。

TOP

提示: 作者被禁止或删除 内容自动屏蔽
这蜘蛛网不错吧?-(借用某人的名词)
帅呆了-(借用另一位名人的话)
(不瞒大家,第二位是我,第一位是谁呢?)

TOP

顶一下三三
TheWorld-My world,Your world,Our world.

TOP

只用前面两条,应该不会有什么误杀的吧。呵呵。
我用前两条试试。
要致富,
装宽带。

TOP

好贴,这个需要很多时间来分析广告代码,辛苦了

TOP

楼主的规则误杀绿色下载站中间那一排正常图片
http://www.greendown.cn/default.html

TOP

提示: 作者被禁止或删除 内容自动屏蔽
http://valid.canardpc.com/cache/banner/2854499.png
新浪/腾讯/饭否@小蛐蛐   twitter @jiayiming
如有过滤规则需要更新,请尽量原帖反馈提醒。

TOP

原帖由 kesien 于 2008-7-26 11:19 发表 http://bbs.ioage.com/cn/images/common/back.gif
楼主的规则误杀绿色下载站中间那一排正常图片
http://www.greendown.cn/default.html


这一排图片应该不是我这三条规则拦截的,请问您是否将这三条规则跟置顶的e版那份基础规则一起用?看情况这个误杀的情况像是被e版基础规则里面的这条规则误杀:
/[^0-9]+(?:\d){2,3}[x_](?:\d){2,3}[^0-9]+(?:swf|gif|jpg|js)/

TOP

原帖由 jym2005 于 2008-7-26 11:26 发表 http://bbs.ioage.com/cn/images/common/back.gif
我倒不介意当广告处理的。。
和e版的基本规则比是杀伤力更强还是减少无过滤为主?
简单说就是用哪条好


我这三条规则只是个简单的教程而已,为了说明如何根据广告的资料编写规则,从而让大家对e版的那份基础规则不再望而生畏。
所以要说效果的话,当然是e版那份全面些啦。

TOP

返回列表