返回列表 发帖

回复 22# 的帖子

To elkay

请问 24 楼说的规则在 TW2 怎样用正则过滤?这些规则在 MT2/proxomitron 都可以轻易实现的。

用正则表达式能匹配所有 classid 为 d27cdb6e-ae6d-11cf-96b8-444553540000,cfcdaa03-8be4-11cf-b84b-0020afbbccfa,6bf52a52-394a-11d3-b153-00c04f79faa6,22d6f312-b0f6-11d0-94ab-0080c74c7e95,02bf25d5-8c17-4b23-bc80-d3488abddc6b 以外的 <object...</object> 么?作用是禁止 activex object 但豁免 flash/wmp/qt/rp 等。

这个规则是禁止网页使用 flash/wmp/qt/rp 等以外的 <object>,可以去除一些 IE only 的广告及增加安全性。

另外我早前在http://bbs.ioage.com/cn/viewthread.php?tid=40659&extra=&page=2 39 楼说的过滤如何实现?作用是删除所有统计 script,包括 external 及 inline 的。

这个规则是禁止网页上统计用的 js,减小 cpu 占用及加强私隐。

[ 本帖最后由 AY 于 2008-1-2 17:06 编辑 ]

TOP

回复 25# 的帖子

正则表达式中
(?!pattern)和^
可以匹配除特定字符之外的字符

至于你说的统计,我实在看不出有什么难度?
只要有统计链接,这跟普通黑名单没有任何区别

TOP

原帖由 elkay 于 2008-1-2 17:28 发表 http://bbs.ioage.com/cn/images/common/back.gif
正则表达式中
(?!pattern)和^
可以匹配除特定字符之外的字符

能提供完整规则么?

至于你说的统计,我实在看不出有什么难度?
只要有统计链接,这跟普通黑名单没有任何区别

问题是要删除 inline 的统计 script。

TOP

回复 27# 的帖子

随手找了个有flash的页面,按你的说法写了个例子
匹配除d27cdb6e-ae6d-11cf-96b8-444553540000之外的object
  1. <object[^>]*?clsid:(?!d27cdb6e-ae6d-11cf-96b8-444553540000)[\s\S]*?<\/object>
复制代码
至于统计,你给个实际页面,然后要告诉我要实现什么效果

TOP

原帖由 elkay 于 2008-1-2 18:09 发表 http://bbs.ioage.com/cn/images/common/back.gif
至于统计,你给个实际页面,然后要告诉我要实 ...


再多举个例子说清楚一点。
我在任何网站都会过滤统计用的 js,因为这些 js 浪费 cpu,而且往往还要下载图档,影响页面加载时间。

在 proxomitron 我是用下面的过滤规则:
bound=$NEST(<script,</script>)     bound 确保只会匹配对应的 <script 及</script>
match=*(hitbox.com|qksrv.net|112.2o7.net|superstats.com|falkag.net|google-analytics.com|cyber-traffic.net|estat.com|surfaid.ihost.com|nedstat.nl|nedstatbasic.net|questionmarket.com|spylog.com|thecounter.com|survey-poll.comsageanalyst.net|hotlog.ru|addfreestats.com|bizrate.com|count-down.tv|counter.yadro.ru|extreme-dm.com|top.list.ru|count.e-city.tv|sageanalyst.net)*

在 maxthon 2.0 我可以用下面的过滤规则:
bound=<script.*?</script>     bound 确保只会匹配对应的 <script 及</script>
match=.*(hitbox.com|qksrv.net|112.2o7.net|superstats.com|falkag.net|google-analytics.com|cyber-traffic.net|estat.com|surfaid.ihost.com|nedstat.nl|nedstatbasic.net|questionmarket.com|spylog.com|thecounter.com|survey-poll.comsageanalyst.net|hotlog.ru|addfreestats.com|bizrate.com|count-down.tv|counter.yadro.ru|extreme-dm.com|top.list.ru|count.e-city.tv|sageanalyst.net).*

在 TW 要怎样写才能过滤这些统计 JS (需要包括 inline JS,即是 <script>...</script>,比如像 http://sports.espn.go.com/nba/index 的 hitbox 统计) 而不会出现我在 20楼 及 24楼 提出的错误及失效问题? 我十分肯定没有 bound 的话是不可能做得到的。


http://bbs.ioage.com/cn/viewthre ... p;extra=&page=2 39 楼

TOP

回复 29# 的帖子

我的意思是你给个实际页面,我不知道你要过滤的跟我认为的是不是一个东西

是不是类似这种?
<script src="http://www.google-analytics.com/urchin.js" type="text/javascript"></script>

是的话就简单了
  1. <script[^<]*?google-analytics[\s\S]*?<\/script>
复制代码
其他的统计链接只需要维护google-analytics这部分的关键字就可以了

TOP

原帖由 285900537 于 2007-12-28 10:37 发表 http://bbs.ioage.com/cn/images/common/back.gif



如何在theworld.ini配置文件内进行域名匹配?
如何在百千条(目前我还只有四百多条的样子)中搜寻相匹配域名的规则?
使用exd对17173写100条规则,然后再为cmfu写5条规则,那么TheWorld是进行105次域名匹配还 ...


以前用数据库foxpro的时候,如果记录少的话,我喜欢用loca,比seek 少不了多少时间,差那几毫秒,但不用建索引呀。
方便很多。当然记录数一多,这样就不行了。

看看现在的规则有多少条记录?不过就一两千条吧,而且都是简单的记录。以现在的电脑速度,根本可以无视,可以认为是0秒时间内完成的,难道你非常计较那几百毫秒时间吗?

所以,在这个速度的争论上,是没必要的。功夫花在其它地方更好。

TOP

原帖由 elkay 于 2008-1-2 18:24 发表 http://bbs.ioage.com/cn/images/common/back.gif
我的意思是你给个实际页面,我不知道你要过滤的跟我认为的是不是一个东西

是不是类似这种?
  1. <script src="http://www.google-analytics.com/urchin.js" type="text/javascript"></script>
复制代码
是的话就简单了

不是 external script,是 inline script,并且需要所有网站通用的:
在 TW 要怎样写才能过滤这些统计 JS (需要包括 inline JS,即是 <script>...</script>,比如像 http://sports.espn.go.com/nba/index 的 hitbox 统计)

[ 本帖最后由 AY 于 2008-1-2 19:03 编辑 ]

TOP

回复 32# 的帖子

就如你给的网站,要所有网站通用写成通用规则就可以
  1. <script[^>]*?>[^>]*?hitbox[\s\S]*?<\/script>
复制代码
我就不明白,这些原本正则表达式都可以做到的,mt干嘛非要自己搞一套东西出来

TOP

原帖由 elkay 于 2008-1-2 19:10 发表 http://bbs.ioage.com/cn/images/common/back.gif
就如你给的网站,要所有网站通用写成通用规则就可以
  1. <script[^>]*?>[^>]*?hitbox[\s\S]*?<\/script>
复制代码

如果在 "hitbox" 之前有 ">",比如 "if(x>y)",你的规则就没有效了。我说的是能够通用的规则,并非针对个别网站的个别脚本的规则。

我就不明白,这些原本正则表达式都可以做到的,mt干嘛非要自己搞一套东西出来

你的规则必须要靠类似 "[^>]*?" 这样的 expression 来确保不会错误匹配红色的 tag <script>...</script><script>...hitbox...</script>,但这样做必须要知道 script 里面的代码,只能针对已知的 script,不能通用。

希望开发组会明白。

TOP

这么高深啊 还是用就是了 问题留给你们解决了

TOP

唉 楼主说了些现在就使用的方法 本来这个exd规则就是先域名 后内容的
只是 正则 实在不能要求它能十分快
另IE的渲染 也没有FF快  特别是出现特殊代码时IE假死 崩溃的几率比FF高很多了
最快的还是Opera(连接能力比IE和FF强不少 针对内容简单的网页速度会十分快)

TOP

返回列表