返回列表 发帖

[已记录]MT2.0B3中值得借鉴的功能:"过滤页面内容"

最近下了个MT2.0B3版,用了2天,功能上没有什么特色,资源占用比TW2.0高多了。不过瑕不掩瑜,其"过滤页面内容"的功能非常有创意,可以所见既得的方式加黑名单,很好用,不需要有专业的网页知识,希望开发组借用过来。

[ 本帖最后由 caten 于 2007-1-24 14:45 编辑 ]
附件: 您需要登录才可以下载或查看附件。没有帐号?加入 我们

我所谓的“没特色”是指在MT2.0上有的功能在TW2.0上都可以实现(限定于我用的着的功能)!
“自定义功能”TW2.0以后肯定会加入,且这个功能不属于常用功能,用户只是在刚开始的时候根据个人喜好设置一下,以后就基本上不会再改动了。倒是"过滤页面内容"是个常用的功能,网络上广告这么多,没有也不可能有比较齐全的黑名单,通过这个可视化的操作可以自己解决写问题!

TOP

原帖由 caten 于 2007-1-24 12:15 发表
这个过滤内容如果加太多   会影响打开页面的速度   这也是迟迟没加这个功能的原因

可以把黑名单分为通用性的过滤规则和根据具体网站的过滤规则,用户通过"过滤页面内容" 功能加入的放在对应的网站下面。这样就等同于缩小了黑名单长度,应该不会对网站打开速度有很大影响。

TOP

原帖由 caten 于 2007-1-24 12:46 发表
你打开页面的时候   浏览器同样要去一条条试  看是否匹配

照我上面的办法,虽然也是一条一条去匹配,但是匹配范围被大大缩小了。
先匹配通用性规则,比如正则式,然后匹配对应网站的黑名单。一般通用规则屏蔽掉一部分广告后,对应网站的黑名单不会太多,你认为呢?

TOP

一个表单可能不够吧,为了提高执行效率可能需要采用数据库技术。如果按照表单上的黑名单依次匹配,如果能用的正好排在最后,那不是需要很长时间?过滤算法中应该优化成不必每条都去匹配,可以按照内建的规则进行转跳,缩小搜索的范围。

TOP

比如过滤表单为以下格式:

[common]
这里放通用的过滤和正则式

[sina]
这里放新浪网的正则式或黑名单。由用户自定义或"过滤页面内容"功能自动加入。

[yahoo]
这里放雅虎网的正则式或黑名单。由用户自定义或"过滤页面内容"功能自动加入。

。。。。

[]里面为对应标签的关键字

执行步骤如下:
1、TW先匹配[common]标签里的内容,
2、然后根据当前网站的关键字匹配对应标签里的规则。
3、退出过滤规则,过滤结束!
这样是不是匹配时间可以大大缩短

[ 本帖最后由 xuyong 于 2007-1-24 13:58 编辑 ]

TOP

回复 #15 caten 的帖子

正则我看不懂,不过看了置顶帖的正则好像也分通用和特定网站的过滤,不知道软件的执行机制是什么,好像是逐条解释的,否则也不会要用户尽量少加特定网站的过滤正则了。再次正则和黑名单应该可以同时存在的,如果不用标签之类的东西给它分类,系统肯定要逐条解释,过滤规则越长网页打开的速度也就越慢!我的方法也是一种优化方案吧!这样加入“过滤页面内容”的功能就不会对系统有很大影响了。

TOP

哈,我要的是“过滤页面内容”这个功能,怎么变成正则表达式来着?
正则表达式自己定义不来,反正没直接黑名单容易,有“过滤页面内容”就更容易了,不过又缺少了正则式的灵活性,加标签应该是一种可行方案。除非你们再开发一个正则转换器,把用户收集来的黑名单直接转成正则式那就更好了。

TOP

返回列表