Board logo

标题: 好像PREVIEW4的正则过滤有问题!!! [打印本页]

作者: mnxinu    时间: 2007-2-4 23:28     标题: 好像PREVIEW4的正则过滤有问题!!!

测试网站:http://club1.ccmove.com/nclub/boarddisplay-1189-1.html

网站有个广告:http://www.papav.com/cooperate/frame_Nx1?n=8&width=70&height=55

这个广告的左侧但是网站的LOGO,与广告是在一个<TR>里的。

在过滤中加入: /(www)\.(papav)\.(com)\/(cooperate)\/(frame_Nx)*/

会将临近的<TD>(即LOGO所在的TD)也给过滤掉了,结果就是网站的布局失真了!

大家可以测试一下,是不是有这样的问题!!
作者: mnxinu    时间: 2007-2-4 23:34

是我的写法有问题么,还是确实存在问题?????



作者: elkay    时间: 2007-2-4 23:49

黑名单过滤不会匹配网页结构,而是匹配关键词,在同一个表格中关键词不同的不会被过滤

还有,你的写法有也有问题,在正则式中"*"不是跟通配符一样的含义,这里它表示匹配它前面的子表达式任意次数,显然跟你要达到的目的不一样

最后类似这种单个网站目录的直接用通配符就可以,不一定要用正则,直接过滤掉http://www.papav.com/cooperate/*

或者你干脆过滤掉/cooperate/
*/cooperate/*或者/\/cooperate/
也可以直接添加到置顶规则的第一条,随便加到那里就好了,只要用"|"跟其他关键词分割开就好
作者: mnxinu    时间: 2007-2-5 00:02     标题: 回复 #3 elkay 的帖子

一样的啊,原来PREVIEW3就是这么写的,好用的,但到4就不好用了!

而且用http://www.papav.com/cooperate/*和/\/cooperate/frame等都是同样的效果!!

我已经在这里试过无数次了!

我承认正则式我不太会写,但重要的问题不在这里!!!

希望您也测试一下!!!!然后再帮我看看问题的所在!!!!
作者: elkay    时间: 2007-2-5 00:16

那你改成下面的试试看
/www\.papav\.com\/cooperate\/frame_Nx.*/
作者: mnxinu    时间: 2007-2-5 00:26     标题: 回复 #5 elkay 的帖子

这个早就用过了,我不知道版主是否测试了,不好用了,同样会过滤掉其左侧的与LOGO有关的<TD>,导致网页失真!

其实版主还没明白,不是我语法上的问题,而是过滤时出了问题!我现在还在测试!应该说已经确认这个问题了!!

[ 本帖最后由 mnxinu 于 2007-2-5 00:27 编辑 ]
作者: mnxinu    时间: 2007-2-5 00:30

不知版主是否亲自测试了CCMOVE网站的情况,不要从上下文或字面中寻找答案
作者: elkay    时间: 2007-2-5 00:37

我当然是试过才跟你说的啊,我这里完全没有问题啊

你截个图来看看呢


我先上个我的截图吧,你看看是不是这样的?

[ 本帖最后由 elkay 于 2007-2-5 00:44 编辑 ]
作者: mnxinu    时间: 2007-2-5 00:50     标题: 回版主

看一下,对比如图!
作者: mnxinu    时间: 2007-2-5 00:51

版主看到了么?
我在想是不是我们的版本不同?我用PREVIEW3时好用的,今天才下的4,我觉得4有这样的问题!3时没有这样的问题!
作者: elkay    时间: 2007-2-5 00:56

特地注册了一个帐号截了个回复主题的图,你试试清空所有的规则,只留下一条试试看
作者: mnxinu    时间: 2007-2-5 01:10

也试过了,同样!

另外,版主是否设置过滤后的替换文字?怎么没看到替换后的文字呢?是不是那片空白还没出来了,有时候需要点时间才能出来的!因为是外部链接过来的!!
作者: mnxinu    时间: 2007-2-5 01:10

版主把你的版本给我发一个吧!我估计我们的版本不同!!
作者: elkay    时间: 2007-2-5 01:15

我的替换文字就是空白啊。

你试试把现在的ini文件改名,重建一个不要用任何其他过滤规则,只是加上过滤这个地方的那一条

版本都是一样的,不会有区别的
作者: mnxinu    时间: 2007-2-5 01:18

版主啊,我就是新产生的ini文件,原来的ini文件升级后不能用了!!!

要不算了吧,以后再说吧,在这个问题上浪费的时间太多了!

我现在只能“要么就不过滤,要么都过滤掉!!”
作者: mnxinu    时间: 2007-2-5 01:19

:sad: :sad: :sad: :sad: :sad: :sad: :sad: :sad: :sad:
作者: elkay    时间: 2007-2-5 01:23

呵呵,我看可能是跟你的系统有关了,升级后原来的ini一直可以用的啊
作者: mnxinu    时间: 2007-2-5 01:27

是不是IE7的问题,我一直用IE7
作者: mnxinu    时间: 2007-2-5 01:38

用ex0=这种方法应该如何写?
我试了下面的写法,不过滤:
ex0=<frame.*?src="25%.*?>(?:.|\n)*?http://www.papav.com/cooperate/frame_Nx(?:.|\n)*?<\/frame>

:)
作者: mnxinu    时间: 2007-2-5 01:39

关于“空格”“?”“:”这几个东东,在正则表达式中应该如何写?
作者: mnxinu    时间: 2007-2-5 01:40

为什么添加的ex0=这样的过滤,在修改TW的过滤后,会被删除???
作者: TiGer-X    时间: 2007-2-5 08:42

置顶贴的过滤规则已经有这黑名单过滤的了。
  1. TiGer-x朋友提供的过滤规则
  2. /(\.|\/|_|")(51yes|7town|adpolestar|adjs|co(ope|rpo)rate|ggg|hserver|(g|ma)img|is686|keyrun|stats?|ukaka|zframe|zview)(\.|\/)/
  3. /(\/|\-|_)(\d){2,3}x(\d){2,3}[^0-9]+(asp|html?|js\w?)/
  4. /(online(\d)|(\w){1,4})\.(265|ete).+(_\d+|show)(.php)/
  5. /(dds|biz(\d))\.(sandai|sogua).+(gif|htm|jpg)/
  6. /\.(ku6|mumayi).+(\d{2,}|head\d?)\.htm/
复制代码

这里第一条中的 co(ope|rpo)rate 即可匹配 cooperate 和 corporate。

这就是过滤后的网页效果:
作者: Amelia    时间: 2007-2-5 10:50

原帖由 mnxinu 于 2/5/2007 01:39 发表
关于“空格”“?”“:”这几个东东,在正则表达式中应该如何写?

英文的" "、"?"、":"么?应该分别写成" "、"\?"、":"
作者: mnxinu    时间: 2007-2-6 14:03

多谢上两楼朋友的回复!不过我的问题依旧,还没找到原因!

[ 本帖最后由 mnxinu 于 2007-2-6 14:06 编辑 ]




欢迎光临 世界之窗论坛 (http://bbs.theworld.cn/) Powered by Discuz! 7.2