2013年2月24日 星期日

教育部重編國語辭典(修訂本)

假日裡讀讀詩經,已成了我日常功課的一部份,即使年假的連續假期我也未曾間斷,頗有退休生活以讀書為樂的 Fu~ (當然,我還沒能退休啦)。

讀了半年多的詩經,由於眾家說詩歧異紛紜,因此常常得到處找參考資料輔助閱讀。手邊除原有的資料外,又找來了毛詩正義、朱熹詩經集傳等參考書籍,對照著閱讀。另外彙總了許多古籍資料的 教育部重編國語辭典修訂本 網路版,更是閱讀詩經時查詢字詞含意的重要幫手。

不過說到了 教育部重編國語辭典修訂本 網路版 的線上查詢功能,對於每次閱讀詩經時需要反覆頻繁查詢的我而言,實在是一整個不順手。一下子查詢沒有反應、一下子 "可能離上次操作太久, 您將被導引至首頁, 請重新查詢!",然後就自動把我的查詢都清光了,多多少少都會影響到我閱讀時的心情。

忍受了幾個月,終於受不了了,開始研究怎麼弄一份離線版的字典來給自己使用。查了一些資料,發現我並不是第一個有這樣想法的人,好多年前就有人做過了,只不過礙於教育部的嚴格授權管制,終不能讓這些有用的資料讓大家方便使用。

Babylon 用的國語辭典、英漢辭典檔案
工欲善其事──談教育部國語辭典(上)
工欲善其事──談教育部國語辭典(下)

撇開授權問題,我想,我自己私人使用,不加散布,應該沒什麼大問題吧!先解決我閱讀時的不順手再說。於是花了點時間研究了一下,挑定以 MDict 離線字典檔為目標格式,利用寫 EzMeta 時所用的類似技術,我寫了一支小程式,自動向 教育部重編國語辭典修訂本 網路版 查詢資料,以 417 個注音組合,再加上一 ~ 四聲、輕聲的變化(涵蓋所有的中文字,見 標準國語的讀音變化統計),共查詢了 2085 次(417 x 5,實際上可控制在 1338 次即可),然後同步將查詢所得的資料直接擷取轉存成 MDict (Compact HTML) 的純文字格式。再略作整理,經過 MdxBuilder 的編譯,我就完成了一份我自己專用的 "教育部重編國語辭典(修訂本).mdx" 檔。
MDict 是對岸網友 Rayman Zhang 所設計的一款免費的、開放式的電子辭典平台,本身並不含任何辭典檔案,但可自行取得加入或自行製作辭典檔案。有 PC 版、Android 版、iOS 版等等,使用起來簡單方便。

寫程式自動擷取資料,其實並沒有花我多少時間,但由於教育部國語辭典的資料用的仍是 BIG-5 編碼,許多罕用字都是以使用者造字來處理,再用圖形來顯示這些造字。為將這些造字都還原成文字,我花了許多時間一個字一個字去比對,建立對照表,然後將所有資料都轉換成 Unicode 編碼,全部處理成純文字。由於沒有現成的對照表,這個部分無法用程式自動處理,必須手動完成,花了我最多時間。

就在我製作離線辭典接近尾聲的時候,偶然發現網路上有一群網友也在公開地做類似的計畫,他們以教育部縮寫 MOE 的諧音為名,將成果取名為萌典,有網頁版,也有 Android 版、iOS 版等等。

萌典— 3du.tw 國語辭典
萌典 — 教育部國語詞典(民間離線版)
3du.tw

該計畫以:
為非營利之教育目的,依著作權法第 50 條, 「以中央或地方機關或公法人之名義公開發表之著作,在合理範圍內, 得重製、公開播送或公開傳輸。」
伸張 "還文於民" 的權利,公開對抗教育部的嚴格授權管制。法律上的授權問題我沒有深入研究,只希望這個計畫能一本初衷地順利運行,嘉惠更多利用到這些資料的讀書人。

可惜我太晚知道這個計畫,不然我就不用多花這個時間私下製作。不過自己製作的離線辭典,還是有其開放、可自行維護的好處,時間也就不算浪費了。

稍微比較了萌典收集、處理資料的方法,與我的方式可說是大同小異。我用所有注音組合來查詢(最少 1338 次);他們則是用所有的 BIG-5 內碼組合([0x8E~0xFE][0x40~0x7E, 0xA1~0xFE])來查詢(最少 9915 次)。以查詢次數來說,似乎我的方式要好一些些,查詢次數只要不到七分之一。不過跟所有辭條的16萬筆來比,這一點點差異能節省的時間,實在是可以忽略不計了。

有了方便的離線查詢辭典,我可以繼續快樂地讀詩了。

我製作的離線辭典,查詢結果的實際範例如下:


 簡體: 
部首 筆畫6 總筆畫13注音拼音shī注二shr̄
【名】① 文體名。一般與「文」相對。指以精粹而富節奏的語言文字來表現美感、抒發情緒的藝術性作品。文選.陸機.文賦:「詩緣情而綺靡,賦體物而瀏亮。」唐.白居易.與元九書:「詩者,根情,苗言,華聲,實義。」② 六經之一,即詩經。論語.為政:「子曰:『詩三百,一言以蔽之,曰思無邪。』」唐.韓愈.進學解:「易奇而法,詩正而葩。」【動】詠誦。史記.卷一一七.司馬相如傳:「詢封禪之事,詩大澤之博,廣符瑞之富。」



沒有留言:

張貼留言