2013年4月14日 星期日

教育部重編國語辭典 整理後記

為了有個方便查詢使用的閱讀工具,我花了一些時間,整理了一份教育部重編國語辭典的離線版字典供自己使用。雖然雛型版本已經完工正在使用,但我那個嚴謹、追求正確完美的壞毛病仍在作祟,因此後續還在斷斷續續地整理中。

整理的過程發現不少問題,於是想把它記錄下來,比便後續參考,因此承接上篇寫下這篇後記。

萌典的字典資料收集是於 2013 年一月底取得,詞條共有 166124 條,其中有 1847 條是由 BIG-5 內碼 FE50 及 FE51 即空心括號〖〗所包圍的所謂的異體字。不含這些異體字的部分我暫稱之為主詞條,共有 164277 條;異體字的部分我暫稱之為異體詞條,共有 1847 條。

我的收集大約是在 2013 年二月中旬完成,由於異體詞條均未標示注音,以注音查詢實際上是查詢不到的,所以我擷取的版本只包含了主詞條,共有 164278 條,比萌典的主詞條多了一條,這引起了我的好奇心,到底是多了哪一條?於是我開始了一連串的比對整理......

16萬筆這麼大量的詞條,完全以人工來比對幾乎是不太可能,所以我寫了些小程式來幫忙,半自動、半人工的進行比對整理,最後整理的結果如下:
  1. "些兒"、"演藝"、"禿瘡" 這三筆詞條,在萌典與我擷取的版本中均重複了兩次。經再次上原網站查詢確認,證實為教育部重編國語辭典(修訂本)的原始資料庫即有誤,這三筆都有重複。有效主詞條應剔除三筆重複,變成萌典 164274 條,我的 164275 條,還是差了 1 條。
  2. 異體詞條的 1847 條中,有 297 條為重複,實際有效的異體詞條應為 1550 條。
  3. 我的擷取列舉裡沒有 "ㄆㄧㄚ" 的注音組合(因為紙本字典裡沒有),而教育部重編國語辭典(修訂本)裡有這個發音的資料,所以我的擷取比萌典少了 "㕷 ㄆㄧㄚ"、"啪 ㄆㄧㄚ" 兩筆,補上後,變成萌典 164274 條,我的 164277 條,差了 3 條。
  4. 我的擷取比萌典少了 "作興" 一條,經查詢確認,教育部重編國語辭典(修訂本)的原始資料裡,這一筆缺了注音,因此用注音查詢不到,補上後,變成萌典 164274 條,我的 164278 條,差了 4 條。
  5. 詞條 "月光族" 的內容有被增補,我的擷取較萌典的版本內容為多。
  6. 萌典的擷取比我的少了 "嗷鴻"、"湳水"、"蚖鞷"、"氆氌" 四條,經查詢確認,教育部重編國語辭典(修訂本)的原始資料裡,"嗷鴻" 一條資料有誤,誤植為 "【嗷鴻",因此注音查詢可以查到,而以 "^嗷" 查詢卻查不到。另三條為何萌典沒擷取到?原因則不明,或許是教育部後來才新增的詞條(後查,此三字頭均僅單一詞條,沒有查詢表列,推測萌典的擷取程式可能有誤,未考慮到此情況造成誤判漏取)。補上後,變成萌典 164278 條,我的 164278 條,兩個版本一致。
最後的統計,實際有效的主詞條共有 164278 條,異體詞條共有 1550 條,合計 165828 條

主詞條中,共用到 1422 個 BIG-5 使用者造字,原網站用圖形來顯示這些造字。我逐字比對,建立對照表(部分參考萌典整理的 sym.txt),然後將所有資料都轉換成 Unicode 編碼,全部處理成純文字。

異體詞條中,還另外用到 955 個 BIG-5 使用者造字,這個部份我還沒時間去完成對照表,等以後有時間再說。

整理過程中發現,原始資料裡有許多的錯誤與不一致(或是不合我的習慣),把一部分我有做修正的列舉如下:
  1. 原資料中頓號 "﹑" 與 "、" 混用,統一成用 "、"。
  2. 注音符號 "ㄧ",按標準橫排該用 "|",直排該用 "ㄧ",但從小沒學過用 "|",很不習慣,一律改成用 "ㄧ"。
  3. 原資料中部首的 "丨" 均植為符號的 "|",與注音符號 "ㄧ" 的直排符號相同,一律改成用正確的 "丨"。
  4. 原資料中部分 "一" 字,誤植為符號的 "-"、"ㄧ",修正。
  5. 原資料中,所有全形的英數字改為用半形。
  6. 原資料中書籍國字卷號,全形的 "0" 與 "○" 混用,統一成用 "〇"。
  7. 原資料中書名、卷名的分隔符號,"˙"(與注音輕聲符號同)、"‧"、"・" 與 "." 混用,統一成用 "."。
  8. 原資料中全形的括號 "()" 與半形的括號 "()" 混用,甚至錯位配對,統一修正為半形。
  9. 原資料中相同字詞有不同發音時,在發音的後面有一組以括號包圍的五碼編號數字(作用不明,可能為某種內部資料庫的索引編號),對離線辭典因無實質作用,利用 Regular Expression 剔除之。
  10. 原資料中部分正體字與異體字混用,修正成解釋文視情況統一用正體字,古籍出處維持異體(仍在處理中)。
  11. 原資料中部分的 "丫" 字誤植為注音符號的 "ㄚ",修正。
  12. 參考萌典的程式記錄,下列詞條的原文部分因含有非英文字母,原資料均植為空白,修正之。
    布爾諾(Brno)
    波哥大(Bogotá)
    波爾(Heinrich Böll)
    勃姆(Böhm Theobald)
    柏卡里(Muhammad ibn Ismail al-Bukhārī)
    柏濟力阿斯(Jöns Jacob Berzelius)
    洛梅(Lomé)
    迦旃延(kātyāyana)
    夏目漱石(Natsume Sōseki)
    密支那(Myitkyinā)
    凱末爾(Atatürk, Kemal)
    象牙海岸(Côte d'Ivoire)
    象牙海岸共和國(Republic of Côte d'Ivoire)
    蘇黎士(Zürich)
以上所列僅是我隨意瀏覽看到的一部份,太細瑣的修正我就不加記錄了。教育部重編國語辭典(修訂本)是閱讀時很好的參考資料,但以國家級部會編撰的字詞典標準來看,校對、訂正的功夫還是有待進一步努力。相關的工作人員值得大家的鼓勵,但也希望再多加油,提供給大家更嚴謹的辭典資料。


沒有留言:

張貼留言