2015年3月31日 星期二

開放康熙離線字典

因著開始閱讀詩經的緣故,每逢發現了可以輔助閱讀的相關資料,我便會想辦法將它轉製成 MDict 離線辭典以方便查找,算算這兩年多來也累積製作了超過三十餘部的大小辭典。在我做的這些辭典之中,"康熙字典" 的製作要算是波折最多的一部了。



01146 古文: 𥮏
部首 筆畫6 總筆畫8注音ㄉㄧㄢˇ,ㄉㄧㄢˋ拼音diǎn, diàn卷別:子集.下卷武英殿刻本:第 293 頁,第 2 字同文書局本:第 128 頁,第 2 字標點整理本:第 55 頁
  《唐韻》、《集韻》、《韻會》、《正韻》𡘋多殄切,顚上聲。《說文》:典,五帝之書也。从𠕁在丌上,尊閣之也。《爾雅.釋言》:典,經也。《廣韻》:法也。《書.舜典》:愼𡽪五典。〔註〕五典,五常也。《周禮.天官.大宰之職》:掌建邦之六典。〈秋官.大司𡨥〉:掌建邦之三典。〔疏〕常經卽是法式。  又,〈周語〉:召公曰:瞽獻典。〔註〕典,樂典也。  又,典守,猶主也。《周禮.春官》:典同。〔又〕典瑞。《戰國策》:我典主東地。〔註〕典猶職典也。  又,姓。〈魏志〉有典韋  又,《集韻》、《韻會》、《正韻》𡘋徒典切,音殄。《正韻》:堅潤貌。《周禮.冬官.考工記》:是故輈欲頎典。〔註〕頎讀爲懇;典,堅韌貌。《韻會》:一曰車轅束。


應該是前年了,初讀詩經不算太久,到處尋找著可以幫助閱讀的辭典資料。"教育部重編國語辭典(修訂本)" 既已完成,我便把目標放在 "說文解字" 跟 "康熙字典" 這兩部古字典上,期望能囊括古、今幾本具有代表性的字、辭典,讓自己的閱讀工具今古兼備。

經過搜尋,我發現了一個不錯的網站 --- 中華開放古籍協會 的 開放康熙字典

"開放康熙字典" 是中華開放古籍協會的王志攀先生以同文書局版《康熙字典》為底本,經過校對修訂、加註注音、漢語拼音、新式標點而成。字頭部分參考了 Unicode 的康熙字典字頭加以辨識修訂,注音符號和漢語拼音取用了 Unihan 中的相關資料,新式標點則採用了教育部公布的《標點符號使用手冊》為依據。志攀先生憑借一己的毅力,前後歷時十餘載,反覆校訂,最後將成果完全公開,開放授權給大眾免費使用,這等心胸,實在令人敬佩。

當時的 "開放康熙" 網站還是舊版,我收集了網站內的資料轉製成了 "康熙字典點校版" 離線辭典,原本想自己閱讀時使用,順便開放給有需要的朋友利用(遵循 CC BY-SA 3.0),但發現資料並不完整,網站有數千個字頭檢索不到,經向協會兩次反應,得到正在搶修的回應。後來苦等數月,未見修復,於是斷了念頭,改採大陸網友分享的幾份 "康熙字典" 資料重新整理,去掉簡體的冗餘資料,製成了我後來使用的 "康熙字典" 離線辭典。雖然如此,心中總有懸念,未能用最正統的資料製成辭典,不能說沒有遺憾。

直到今年年初蒙阿文兄轉贈了一份得自志攀兄處的 "開放康熙字典離線版",這才又重啟了我再次製作的念頭,於是便又開始動手。經過一位對岸好友提供的線索,原來 "開放康熙字典" 的原始資料,在 GitHub 上就有公開(見 The Kangxi Dictionary)。歷經年假期間的一番努力,終於大致告一段落,將原始資料轉製成了 "開放康熙字典" 的離線辭典,開始測試使用。

在整理期間陸續發現了原始資料的一些問題,我聯繫上了志攀兄並把這些問題提供給他,希望可以做為他再修訂時的一些參考。也把這些問題在這邊留下一個記錄,提供給使用 "開放康熙字典" 的朋友一個參考。
  1. 網頁的拼音標示多有錯誤,例如:ㄕˊ、ㄕˋ、ㄓˊ、ㄓˋ 等等同音字,漢語拼音的聲調均不見了(應該是網頁程式的BUG)。
  2. 部分注音格式有錯誤:
    ㄡˊ(與其他不一致)
    㜄𧾠𤑩𨀴 ㄒㄩㄣ ˊ(多了空白)
    𡹤𨌘𧸥𥜢 ㄐㄩㄣ ˋ(多了空白)
    𦌺𠀹 ㄐㄩㄣ -(多了空白)
    𡿼𣵧𩊻 ㄒㄩㄣ ˋ(多了空白)
    𩪱𡺕 ㄒㄩㄣ -(多了空白)
  3. [梞] 音忌──梞', 柎也。
  4. XML中,若干圖片字標示少了 "&"(27處) 或是 ";"(2處)。
  5. XML中,6處 <dd/> 應是 <d/> 之誤。
  6. [𩼻] 原作(kxr-01705) => 誤植原作圖片,應為𩼻[旦➟且]。
  7. [叫] 俗作,非。 => 俗作,非。
  8. [埴] 內文中的圖片 kxr-01447 字形錯誤
  9. 某些字頭因後來改為通用字,造成與內文混淆(忘記記下有哪些)或導致原字檢索不到,如(檢索不到)、柟。
  10. XML中的 Unicode 標示,有錯誤的不少(網頁實際顯示時沒錯,推測是程式並未參考此標示)。
  11. 總筆畫資訊多有錯誤。
應該還有一些,但有些順手修正了,忘記記下(以上錯誤除總筆畫資訊及部分 Unicode 標示外我均已做了修正)。志攀先生為求忠於原字,校訂時使用了一些相容表意字。但現有電腦端的字型多無法正確顯示,為求使用時的方便,我暫時仿照舊版的 "康熙字典點校版" 將通用字同時標註上去(但如此會引入新的衝突,我還未仔細檢查核對)。

原本打算再將約兩百個因改通用字而重複的字頭梳理一遍,然後再公開這份我轉製的 "開放康熙字典.mdx",不過因為幾位旅居國外的親友陸續回來探親、掃墓,接下來一大段時間我可能暫時沒空繼續完成處理,於是決定提前先把這個版本發佈,給有需要的朋友先行參考使用。

下載連結:開放康熙字典.zip (請依照原網站的授權規定使用)

這份草稿版的 "開放康熙字典" 共有兩個檔案:"開放康熙字典.mdx"(5.0MB)、"開放康熙字典.mdd"(0.6MB),分別存放著辭典的正文跟缺字所用的圖片。在關於詞典裡我明確標示出了資料的來源出處,在此依原網站標示的 CC BY-SA 3.0 分享出來(我對這些授權的法律規定不算熟悉,若有疏漏不妥之處,尚請熟悉相關規定的朋友指正),希望這些寶貴的資料能更方便地被大家運用。雖然應該還有不少錯誤,但聊備佐參,也請有使用的朋友能將發現的瑕疵、錯誤反應給我知道,以利我後續的修正。

歷經波波折折,總算是完成了一部較完整的 "康熙字典",雖然仍不完美,但輔助閱讀,差堪足矣!


p.s. 剛剛看到 iPad 上萌典 App 的更新通知,發現教育部國語辭典的授權方式終於做了更新,趕忙連到相關網頁細看,原來教育部在這個月月初,修訂了相關國語辭典的授權方式(參見 教育部國語辭典公眾授權網):

中華民國教育部《重編國語辭典修訂本》、《國語辭典簡編本》與《國語小字典》相關資料採「創用CC-姓名標示- 禁止改作 臺灣3.0版授權條款」釋出
本授權條款允許使用者重製、散布、傳輸著作(包括商業性利用),但不得修改該著作,使用時必須遵照「使用說明」之內容要求。

原始資料也同時提供下載。看來我自己製作的 "教育部重編國語辭典(修訂本)" 離線辭典,應該也可以依新的授權方式公開散布了。待我確認清楚,再將這份 MDict 離線辭典提供給大家使用。另外,不知 "教育部成語典" 是否也已開放授權?


沒有留言:

張貼留言