返回列表 发帖
1. TW 正则的 . 不能匹配 \n 吗?
否则每次都要用 [.\n] 实在不方便. 反正 HTML 中 \n 没什么实际意义.       //by mutalisker 这个。。。。还是标准的东西不改为妙,不希望用户用之前先要读一个很长的readme才行

2. 是否 replace 中也是使用 $1-$10 引用 ()                                         //by mutalisker 现在就是支持的

3. ex 的最大上限是多少?                                                                   //by mutalisker,1024,不够用以后再改

4. \d \w \W \s 等这些都支持吗?                                                         //by mutalisker,试一下就知道了,都支持的

5. 如你的 ex0=<table.*?width="25%.*?>(?:.|\n)*?http://ma.baidu.com/ma/rcv/click.php(?:.|\n)*?<\/table>                                //by mutalisker,我写这个完全就是个说明性质的例子,只要大家明白意思就好了。不过如果有修改建议不妨提出来让我学习一下
如果一个页面中 有 <table width="25%">......<table width="25%">.....</table>.....</table> 这样的代码, 如何做到不会匹配成:
<table width="25%">......<table width="25%">.....</table>
需要严格保证匹配的 TAG 的完整.

6. 这些 ex 都是对所有网站生效的吗? match_url 是个很必要的.                 //by mutalisker,以后会改进

7. 普通过滤与 HTML 过滤优先级如何? HTML 过滤优先级又如何?               //by mutalisker,目前普通过滤其实就是TW程序根据用户输入的通配符的黑白名单来自动生成了一个正则表达式。优先级方面,是先执行普通的,再执行ex的

smilefly 回复: 因为做了不少马桶的过滤, 对这些有些了解. 马桶中有个 Bound 参数, 可以用 $TAG(XXX) 保证匹配最内层的 <XXX.*?</XXX> 及 <XXX.*?>. 如果没有这样的限制, 过滤Table, Div什么的有时真的很容易出现误过滤. 我最希望 $TAG 再细分, 例如 $TAG1(XXX) 匹配有关闭标记的XXX元素, $TAG2(XXX)匹配无关闭标记的. 如对<div id="ad"><div></div></div>, 可以使用 $TAG1(XXX) 来匹配整个id="ad" 的 DIv 层.

//by mutalisker:,对这个$TAG1(XXX)没搞明白,这个东西用正则来写就好了,何必还需要自己另加一套规则呢?

TOP

不懂,等懂的做出来用~

TOP

确实很难,俺也不懂~
混神日志(韩磊BLOG)
http://www.hanlei.cn

TOP

原帖由 Amelia 于 2007-1-11 19:20 发表
Firefox的AdBlock用前后加/的方式区分正则表达式,Maxthon2则是有个单独选项。
TheWorld现在黑名单还不支持正则表达式,而“HTML过滤”这种方式书写规则太麻烦,也缺乏通用性——Firefox(AdBlock)和Maxthon2 ...



还是兄弟语文好,说出了我想说的,呵呵

TOP

原帖由 Amelia 于 2007-1-11 19:20 发表
Firefox的AdBlock用前后加/的方式区分正则表达式,Maxthon2则是有个单独选项。
TheWorld现在黑名单还不支持正则表达式,而“HTML过滤”这种方式书写规则太麻烦,也缺乏通用性——Firefox(AdBlock)和Maxthon2 ...


是啊,有些习惯既然大家都接受了,借鉴一下也挺好的啊。
当然HTML过滤作为一种补充也是不错的,至少这种方式过滤网页内容看来也是挺强大的。

TOP

Firefox的AdBlock用前后加/的方式区分正则表达式,Maxthon2则是有个单独选项。
TheWorld现在黑名单还不支持正则表达式,而“HTML过滤”这种方式书写规则太麻烦,也缺乏通用性——Firefox(AdBlock)和Maxthon2的正则表达式过滤规则可以通用,TheWorld就要全部推倒重来。

TOP

在设置的编辑控件中好像不能区分正则是不是?

TOP

顺带一句,
BETA4第一版,里面的*.ad.*会将proadist之类的字符串过滤掉。

TOP

疑问很大,如果要象adblock那样基于正则屏蔽链接该如何写呢?

url0这样的方式是否只支持*?通配符而不支持正则。
ex0这样的是否只是针对Html内容?如果要过滤符合某规则链接的所有类型对象例如图片、iframe、swf,岂不是要写很长?

TOP

url0=*ad*
会把一些论坛的sad.gif屏蔽掉哦

TOP

最好能提供可视化的编辑界面,虽然该ini文件并不复杂

//by mutalisker
将来会有的

TOP

我也不懂,不懂就耐心的学吧!
网页因有TW更精彩!

TOP

返回列表