返回列表 发帖

正则表达式怎么写?

我经常网上看小说 常去的小说站广告的源代码如下:
<script language='JavaScript' type='text/javascript' src='http://cpro.baidu.com/cpro/ui/cp.js'></script>

有多个类似的,不同的只是src=""里面的js路径而已,
本人对正则表达式不熟,请大家帮忙写个通用的可过滤这种类型的正则表达式,
谢谢!

可以用
万分感谢!

TOP

本帖最后由 okseek 于 2009-3-21 17:28 编辑

有的还是不行啊
我黑名单中是这样设置的:
#exd#*.changjiangzhongwen.*#<script[^>]+?src=[\s\S]+?baidu[^<]+<\/script>###过滤的百度广告
#exd#*.changjiangzhongwen.*#<script[^>]+?src=[\s\S]+?googlesyndication[^<]+<\/script>###过滤的google广告
#exd#*.changjiangzhongwen.*#<script[^>]+?src=[\s\S]+?alimama[^<]+<\/script>###过滤的alimama广告
#exd#*.changjiangzhongwen.*#<script[^>]+?src=[\s\S]+?gonggao[^<]+<\/script>###过滤的长江中文广告
#exd#*.changjiangzhongwen.*#<script[^>]+?src=[\s\S]+?ads[^<]+<\/script>###过滤的长江中文广告
#exd#*.changjiangzhongwen.*#<a[^>]*?ads[^>]*?>[\s\S]*?<\/a>###<!--Ad blocked by TheWorld2-->
#exd#*.changjiangzhongwen.*#<a[^>]*?gonggao[^>]*?>[\s\S]*?<\/a>###<!--Ad blocked by TheWorld2-->

小说站首页:http://www.changjiangzhongwen.com/
可以正常过滤了
但具体看某篇小说的章节时,如http://www.changjiangzhongwen.com/xiaoshuo/7/7712/2122078.html
就没作用了
章节中源代码应该是类似<script type="text/javascript" src="/ads/top.js"></script>
<script type="text/javascript" src="/ads/zhangjie/2.js"></script>
<script type="text/javascript" src="http://www.changjiangzhongwen.com/gonggao.js"></script>这样的多个
我用ads gonggao等怎么过滤不掉呢?
请再帮帮忙吧,我对正则表达式很菜

我知道在过滤列表中直接写http://www.changjiangzhongwen.com/gonggao.js就可以过滤掉这个js文件,但这样就要具体写上每个广告的js,我就想用正则写个通用的

TOP

谢谢!真的很感激!
因为我平常上网主要就只看看小说,而且几乎就是去长江中文这一家,其他的都没怎么去,所以不用基础黑名单,我就想有个针对长江中文的过滤就好了,省点资源。
而且 广告有时也是一种信息,因此如果有浏览其他网站时我觉得广告还是可以接受的,说不定哪天就从中有啥意外发现呢。
只是一些个人观点不同,呵呵,谢谢needed啦!

TOP

返回列表