Board logo

标题: [版本发布] 好用簡單的[簡繁轉換]加了詞彙和標點轉換 [打印本页]

作者: wu8d    时间: 2010-1-31 10:31     标题: 好用簡單的[簡繁轉換]加了詞彙和標點轉換

本帖最后由 wu8d 于 2010-2-2 00:02 编辑

是在以前的簡繁轉換裡邊改的,
能夠轉換四個字以內含四個字的詞彙.
自己用的, 所以轉換會準一些.
詞彙要添加自己打開代碼往裡邊改就行, 用[英文空格]隔開.

安裝方法: 複製到plugin\conv目錄下, 進入[插件管理],把[頁面加載後自動運行]給勾上,重啟. 安裝完啟用後[狀態欄]會多了個小[圖標].

默認是簡體->傳統漢字.
修改文件裡邊convFlag這個變量的判斷邏輯或者改dic=dicTS與dic=dicST對調一下可以改為傳統漢字->簡化字.
v2.2-更新
代碼沒更新, 只是多加了些詞彙
[attach]89959[/attach]
v2.2
增加標題也轉換了。
含標點轉換版本(習慣正字標點的用這個, 看網頁看得比較清楚), 另外增加了[網址白名單], 也是用[英文空格]分開就行了:
[attach]89937[/attach]
不含標點轉換版本:
[attach]89938[/attach]
v2.1
修復v2的速度問題, 改用數組操作。
含標點轉換版本(習慣正字標點的用這個, 看網頁看得比較清楚), 另外增加了[網址白名單], 也是用[英文空格]分開就行了:
[attach]89933[/attach]
不含標點轉換版本:
[attach]89934[/attach]
v2(此版本速度很慢, 問題已經找到, 是字符串添加問題, 腳本多次用複製方式添加字符串, 會很慢)
採用了新的"滑動窗口"替換,只需一次替換完成,所以此版本與v1版本不同,沒有二次替換過程,詞彙列表裡邊都直接簡體寫簡體,正體寫正體(某些半正半簡的需要兩個詞條以免轉換錯誤(例如「系統」兩字,前簡後正,由於「系」字缺省轉「係」字,反覆轉換多次會出錯,故要兩條詞條保證,且半正半簡要放前面,純簡的要放後面,因為看代碼生成dicTS的hash表時候會覆蓋相同詞條)。
含標點轉換版本(習慣正字標點的用這個, 看網頁看得比較清楚), 另外增加了[網址白名單], 也是用[英文空格]分開就行了:
[attach]89914[/attach]
不含標點轉換版本:
[attach]89915[/attach]

長度優先的[滑動窗口替換]過程如下,長度長的匹配了就直接滑動過去:
abcd
^^
abcd
  ^^

v1.1
含標點轉換版本(習慣正字標點的用這個, 看網頁看得比較清楚), 另外增加了[網址白名單], 也是用[英文空格]分開就行了:
[attach]89882[/attach]
不含標點轉換版本:
[attach]89883[/attach]
v1.0
含標點轉換版本(習慣正字標點的用這個, 看網頁看得比較清楚):
[attach]89853[/attach]
不含標點轉換版本:
[attach]89854[/attach]
作者: wu8d    时间: 2010-1-31 11:10

MingLiu明體舊體加10.5號字無碎字筆劃版
[attach]89855[/attach]
[attach]89856[/attach]
[attach]89857[/attach]
[attach]89858[/attach]
[attach]89859[/attach]
[attach]89860[/attach]
[attach]89861[/attach]
[attach]89862[/attach]
[attach]89863[/attach]
[attach]89864[/attach]
[attach]89865[/attach]
[attach]89866[/attach]
作者: wu8d    时间: 2010-1-31 11:45

SimSun宋體xp舊宋體+8號小字
[attach]89868[/attach]
[attach]89869[/attach]
[attach]89870[/attach]
[attach]89871[/attach]
[attach]89872[/attach]
[attach]89873[/attach]
[attach]89874[/attach]
[attach]89875[/attach]
作者: wu8d    时间: 2010-1-31 11:48

DFKai.KaiU楷體5.00
[attach]89876[/attach]
[attach]89877[/attach]
[attach]89878[/attach]
[attach]89879[/attach]
作者: needed    时间: 2010-1-31 13:57

额....

谢谢楼主分享..

还是我以前弄的插件   

不过不过有一个疑问,楼主是在繁体系统进行的吧...
  1. 電 电
  2. 鐘 钟
复制代码
貌似还有改进的可能...
作者: wu8d    时间: 2010-1-31 14:17

本帖最后由 wu8d 于 2010-1-31 14:24 编辑

改進的話可以考慮用遍歷domtree的方法, 參見[利用javascript快速過濾網站頁面的HTML代碼]文章
詞彙更替也可以改用反向匹配, 按長度優先+hash表匹配. 速度會很快.
不過夠用就夠了, 原來那個沒有詞彙處理所以不夠用.
這種簡繁轉換對速度要求倒是不是很高.
正好用eeepc, 流覽器不錯隨便就搞了一下.
作者: needed    时间: 2010-1-31 14:59

我的意思是..

大陆这里  没有人说 風採 神採的...

意思是. 你的词转换不够友好.
作者: wu8d    时间: 2010-1-31 16:11

第二次的轉換是對第一次轉換出錯的進行修正的.
不夠的自己加嘛.... 打開文件寫上就是了
一般做轉換都是先轉成概率較高的字然後再修正的.
我拿了個表隨便打了一點點進去而已. 我拿的是[同文堂]的源碼裡邊的表看到哪個就隨便打了些常用的進去, [convertz軟件]也應該有類似的表.




欢迎光临 世界之窗论坛 (http://bbs.theworld.cn/) Powered by Discuz! 7.2