Board logo

标题: [TheWorld 3] 有人进来教一下怎么屏蔽TABLE吗? [打印本页]

作者: zoemike    时间: 2010-3-30 20:04     标题: 有人进来教一下怎么屏蔽TABLE吗?

比如屏蔽
<table border="0"><tr height="250">
<td width="300">
<fieldset style='width:255;height:255;border:1px dashed #a6ccf9'>&nbsp;</fieldset>
</td>
<td width="300">
<fieldset style='width:255;height:255;border:1px dashed #a6ccf9'>&nbsp;</fieldset>
</td>
</tr>
</table>
这段,要怎么写?
作者: jym2005    时间: 2010-3-30 20:37

提示: 作者被禁止或删除 内容自动屏蔽
作者: zoemike    时间: 2010-3-30 22:36

谢谢啊,不过那个网页好像还有其他地方有border="0 这样导致把其他的也屏蔽了。
作者: zoemike    时间: 2010-3-30 22:47

2# jym2005

http://paoshu8.com/Html/Book/7/7731/2423574.shtm
比如这个网址,下面是我写的代码
  1. <rule>
  2. <name>泡书8</name>
  3. <domains>
  4. <domain>
  5. <include>
  6. <![CDATA[*paoshu8.com*]]>
  7. </include>
  8. </domain>
  9. </domains>
  10. <pattern type="1">
  11. <targets>
  12. <param>
  13. <![CDATA[script]]>
  14. </param>
  15. </targets>
  16. <pattern type="3">
  17. <targets>
  18. <param>
  19. <![CDATA[http]]>
  20. </param>
  21. <replace>
  22. <![CDATA[ ]]>
  23. </replace>
  24. </targets>
  25. </pattern>
  26. </pattern>
  27. </rule>
复制代码
然后去掉一些广告之后,变成了 未命名.jpg
如果加上你帮我写的TABLE代码的话,就会变成 未命名3.jpg
上面的内容也不见了。。
知道怎么回事么?



图片附件: 未命名.jpg (2010-3-30 22:47, 24.6 KB) / 下载次数 2085
http://bbs.theworld.cn/attachment.php?aid=92788&k=dd69a7591d1468d44d3bb99ce990c6c3&t=1732598129&sid=Ws0cWh



图片附件: 未命名3.jpg (2010-3-30 22:47, 13.31 KB) / 下载次数 2045
http://bbs.theworld.cn/attachment.php?aid=92789&k=77e4c99321e97a8b0ac915a7141aa8ac&t=1732598129&sid=Ws0cWh


作者: zoemike    时间: 2010-3-30 23:07

本帖最后由 zoemike 于 2010-3-30 23:15 编辑

行了。。。自己研究搞定了。。
不过还是谢谢二楼的启示
  1. <rule>
  2. <name>泡书8</name>
  3. <domains>
  4. <domain>
  5. <include>
  6. <![CDATA[*paoshu8.com*]]>
  7. </include>
  8. </domain>
  9. </domains>
  10. <pattern type="1">
  11. <targets>
  12. <param>
  13. <![CDATA[script]]>
  14. </param>
  15. <paramex>
  16. <![CDATA[http]]>
  17. </paramex>
  18. <replace>
  19. <![CDATA[ ]]>
  20. </replace>
  21. </targets>
  22. </pattern>
  23. <pattern type="1">
  24. <targets>
  25. <param>
  26. <![CDATA[iframe]]>
  27. </param>
  28. <paramex>
  29. <![CDATA[baidu]]>
  30. </paramex>
  31. <replace>
  32. <![CDATA[ ]]>
  33. </replace>
  34. </targets>
  35. </pattern>
  36. <pattern type="1">
  37. <targets>
  38. <param>
  39. <![CDATA[table]]>
  40. </param>
  41. <paramex>
  42. <![CDATA[border="0" height="90"]]>
  43. </paramex>
  44. <replace>
  45. <![CDATA[ ]]>
  46. </replace>
  47. </targets>
  48. </pattern>
  49. <pattern type="1">
  50. <targets>
  51. <param>
  52. <![CDATA[tr]]>
  53. </param>
  54. <paramex>
  55. <![CDATA[height="250"]]>
  56. </paramex>
  57. <replace>
  58. <![CDATA[ ]]>
  59. </replace>
  60. </targets>
  61. </pattern>
  62. </rule>
复制代码


作者: 小絮    时间: 2010-3-31 00:23

单纯从这个页面来说,先过滤属性为“border="0"”的table,再过滤属性为“google”或(属性为“http”)的script,就可以得到很好的过滤效果。代码如下:
  1. <rule>
  2.   <name>demo</name>
  3.   <domains>
  4.     <domain>
  5.       <include>
  6.         <![CDATA[*paoshu8.com*]]>
  7.       </include>
  8.     </domain>
  9.   </domains>
  10.   <pattern type="1">
  11.     <targets>
  12.       <enable><![CDATA[1]]></enable>
  13.       <param>
  14.         <![CDATA[table]]>
  15.       </param>
  16.       <paramex>
  17.         <![CDATA[border="0"]]>
  18.       </paramex>
  19.       <replace>
  20.         <![CDATA[<!--  blocked by 33  -->]]>
  21.       </replace>
  22.     </targets>
  23.   </pattern>
  24.   <pattern type="1">
  25.     <targets>
  26.       <enable><![CDATA[1]]></enable>
  27.       <param>
  28.         <![CDATA[SCRIPT]]>
  29.       </param>
  30.       <paramex>
  31.         <![CDATA[google]]>
  32.       </paramex>
  33.       <replace>
  34.         <![CDATA[<!--  blocked by 33  -->]]>
  35.       </replace>
  36.     </targets>
  37.   </pattern>
  38. </rule>
复制代码

作者: 小絮    时间: 2010-3-31 00:35

其实这个页面的广告主要由三类脚本产生,1、google广告,特征词为“google”或“_ads”;2、百度广告脚本,特征词为“baidu”或“crop”;3、本站广告脚本,特征词为“gg”。其中百度和本站的广告脚本包含在table框里面,所以将整个table过滤掉后就不需要再查找这两个脚本了。

楼主的所用规则的含义是:从“<script”开始到“</script>”结束,只要中间含有“http”字符串的一律过滤掉。杀伤范围太大了,而且效率也不是很高。
paramex是后来加上的参数,含义是:在指定元素属性中查找特征词。
若楼主将你过滤script元素的规则改成使用paramex辅助,则是仅仅在<script .......>中查找“http”,在该页面中就不会产生误过滤了。
作者: zoemike    时间: 2010-3-31 19:16

7# 小絮
谢谢你耐心的教导。我不是很明白<enable><![CDATA[1]]></enable>
这个的作用,是不是就是你后面提到的仅仅在<script>中查到http字符串?
因为我是临时看那个广告过滤教程做的,很多地方都不懂,希望能得到解答。
另外我想问一下,在哪里可以看到比较完整的人性化的教程?(那个TW3的教程后面的TYPE真的看不懂什么意思)
作者: jym2005    时间: 2010-3-31 19:47

提示: 作者被禁止或删除 内容自动屏蔽
作者: 小絮    时间: 2010-4-1 12:54

http://bbs.ioage.com/cn/thread-122642-1-1.html
这是e版写的教程,比较详细。如果您有兴趣研究广告过滤,可以加入这个过滤讨论QQ群:2518335




欢迎光临 世界之窗论坛 (http://bbs.theworld.cn/) Powered by Discuz! 7.2