- UID
- 5053
- 帖子
- 6105
- 精华
- 13
- 贡献
- 33
- 推广
- 0
- 有效BUG
- 0
- 注册时间
- 2005-11-24
|
匹配一段源码,就像选中一段文字,有三个要素:开头、特征、结尾。
要让程序根据代码,自动决定何处开头何处结尾以及自动判断特征,然后生成有实际意义的规则,恐怕难以实现这样的AI。
比如楼主所示
#exd#*ioage.com*#<tbody>[\s\S]*?联盟论坛(?:[\s\S]*?<\/tbody>){2}###<!--Ad blocked by TheWorld2-->
人工完全不干预的话,程序如何确定开头就一定是<tbody>?特征怎么就一定是联盟论坛?而不是其它HTML标记和字词。这还未涉及误过滤因素,若考虑这就更难办了。
当然程序不是完全不能实现类似AI,但我相信现阶段要代替人工顶多也只能是部分,因为源码是人脑写的。
既然要人工干预人工来确定开头、特征和结尾,那即使有这样的生成工具,它实际上并未起到任何作用,当然它可以提供个模板比如#exd#*X.com*#<X[\s\S]*?XXX[\s\S]*?X>#,呵呵
确定广告特征,非人力不可为,对于过滤来说,首先得找到广告到底来源于源码何处,其次才是写规则。因此真正紧要的,是如何为人编写规则提供便捷的途径,而这方面正是现在2.0说欠缺的。 |
|