- UID
- 5442
- 帖子
- 2
- 精华
- 0
- 贡献
- 0
- 推广
- 0
- 有效BUG
- 0
- 注册时间
- 2005-12-1
|
1. TW 正则的 . 不能匹配 \n 吗?
否则每次都要用 [.\n] 实在不方便. 反正 HTML 中 \n 没什么实际意义. //by mutalisker 这个。。。。还是标准的东西不改为妙,不希望用户用之前先要读一个很长的readme才行
2. 是否 replace 中也是使用 $1-$10 引用 () //by mutalisker 现在就是支持的
3. ex 的最大上限是多少? //by mutalisker,1024,不够用以后再改
4. \d \w \W \s 等这些都支持吗? //by mutalisker,试一下就知道了,都支持的
5. 如你的 ex0=<table.*?width="25%.*?>(?:.|\n)*?http://ma.baidu.com/ma/rcv/click.php(?:.|\n)*?<\/table> //by mutalisker,我写这个完全就是个说明性质的例子,只要大家明白意思就好了。不过如果有修改建议不妨提出来让我学习一下
如果一个页面中 有 <table width="25%">......<table width="25%">.....</table>.....</table> 这样的代码, 如何做到不会匹配成:
<table width="25%">......<table width="25%">.....</table>
需要严格保证匹配的 TAG 的完整.
6. 这些 ex 都是对所有网站生效的吗? match_url 是个很必要的. //by mutalisker,以后会改进
7. 普通过滤与 HTML 过滤优先级如何? HTML 过滤优先级又如何? //by mutalisker,目前普通过滤其实就是TW程序根据用户输入的通配符的黑白名单来自动生成了一个正则表达式。优先级方面,是先执行普通的,再执行ex的
smilefly 回复: 因为做了不少马桶的过滤, 对这些有些了解. 马桶中有个 Bound 参数, 可以用 $TAG(XXX) 保证匹配最内层的 <XXX.*?</XXX> 及 <XXX.*?>. 如果没有这样的限制, 过滤Table, Div什么的有时真的很容易出现误过滤. 我最希望 $TAG 再细分, 例如 $TAG1(XXX) 匹配有关闭标记的XXX元素, $TAG2(XXX)匹配无关闭标记的. 如对<div id="ad"><div></div></div>, 可以使用 $TAG1(XXX) 来匹配整个id="ad" 的 DIv 层.
//by mutalisker:,对这个$TAG1(XXX)没搞明白,这个东西用正则来写就好了,何必还需要自己另加一套规则呢?
|
|