整理的過程發現不少問題,於是想把它記錄下來,比便後續參考,因此承接上篇寫下這篇後記。
萌典的字典資料收集是於 2013 年一月底取得,詞條共有 166124 條,其中有 1847 條是由 BIG-5 內碼 FE50 及 FE51 即空心括號〖〗所包圍的所謂的異體字。不含這些異體字的部分我暫稱之為主詞條,共有 164277 條;異體字的部分我暫稱之為異體詞條,共有 1847 條。
我的收集大約是在 2013 年二月中旬完成,由於異體詞條均未標示注音,以注音查詢實際上是查詢不到的,所以我擷取的版本只包含了主詞條,共有 164278 條,比萌典的主詞條多了一條,這引起了我的好奇心,到底是多了哪一條?於是我開始了一連串的比對整理......
16萬筆這麼大量的詞條,完全以人工來比對幾乎是不太可能,所以我寫了些小程式來幫忙,半自動、半人工的進行比對整理,最後整理的結果如下:
- "些兒"、"演藝"、"禿瘡" 這三筆詞條,在萌典與我擷取的版本中均重複了兩次。經再次上原網站查詢確認,證實為教育部重編國語辭典(修訂本)的原始資料庫即有誤,這三筆都有重複。有效主詞條應剔除三筆重複,變成萌典 164274 條,我的 164275 條,還是差了 1 條。
- 異體詞條的 1847 條中,有 297 條為重複,實際有效的異體詞條應為 1550 條。
- 我的擷取列舉裡沒有 "ㄆㄧㄚ" 的注音組合(因為紙本字典裡沒有),而教育部重編國語辭典(修訂本)裡有這個發音的資料,所以我的擷取比萌典少了 "㕷 ㄆㄧㄚ"、"啪 ㄆㄧㄚ" 兩筆,補上後,變成萌典 164274 條,我的 164277 條,差了 3 條。
- 我的擷取比萌典少了 "作興" 一條,經查詢確認,教育部重編國語辭典(修訂本)的原始資料裡,這一筆缺了注音,因此用注音查詢不到,補上後,變成萌典 164274 條,我的 164278 條,差了 4 條。
- 詞條 "月光族" 的內容有被增補,我的擷取較萌典的版本內容為多。
- 萌典的擷取比我的少了 "嗷鴻"、"湳水"、"蚖鞷"、"氆氌" 四條,經查詢確認,教育部重編國語辭典(修訂本)的原始資料裡,"嗷鴻" 一條資料有誤,誤植為 "【嗷鴻",因此注音查詢可以查到,而以 "^嗷" 查詢卻查不到。另三條為何萌典沒擷取到?原因則不明,或許是教育部後來才新增的詞條(後查,此三字頭均僅單一詞條,沒有查詢表列,推測萌典的擷取程式可能有誤,未考慮到此情況造成誤判漏取)。補上後,變成萌典 164278 條,我的 164278 條,兩個版本一致。
主詞條中,共用到 1422 個 BIG-5 使用者造字,原網站用圖形來顯示這些造字。我逐字比對,建立對照表(部分參考萌典整理的 sym.txt),然後將所有資料都轉換成 Unicode 編碼,全部處理成純文字。
異體詞條中,還另外用到 955 個 BIG-5 使用者造字,這個部份我還沒時間去完成對照表,等以後有時間再說。
整理過程中發現,原始資料裡有許多的錯誤與不一致(或是不合我的習慣),把一部分我有做修正的列舉如下:
- 原資料中頓號 "﹑" 與 "、" 混用,統一成用 "、"。
- 注音符號 "ㄧ",按標準橫排該用 "|",直排該用 "ㄧ",但從小沒學過用 "|",很不習慣,一律改成用 "ㄧ"。
- 原資料中部首的 "丨" 均植為符號的 "|",與注音符號 "ㄧ" 的直排符號相同,一律改成用正確的 "丨"。
- 原資料中部分 "一" 字,誤植為符號的 "-"、"ㄧ",修正。
- 原資料中,所有全形的英數字改為用半形。
- 原資料中書籍國字卷號,全形的 "0" 與 "○" 混用,統一成用 "〇"。
- 原資料中書名、卷名的分隔符號,"˙"(與注音輕聲符號同)、"‧"、"・" 與 "." 混用,統一成用 "."。
- 原資料中全形的括號 "()" 與半形的括號 "()" 混用,甚至錯位配對,統一修正為半形。
- 原資料中相同字詞有不同發音時,在發音的後面有一組以括號包圍的五碼編號數字(作用不明,可能為某種內部資料庫的索引編號),對離線辭典因無實質作用,利用 Regular Expression 剔除之。
- 原資料中部分正體字與異體字混用,修正成解釋文視情況統一用正體字,古籍出處維持異體(仍在處理中)。
- 原資料中部分的 "丫" 字誤植為注音符號的 "ㄚ",修正。
- 參考萌典的程式記錄,下列詞條的原文部分因含有非英文字母,原資料均植為空白,修正之。
布爾諾(Brno)波哥大(Bogotá)波爾(Heinrich Böll)勃姆(Böhm Theobald)柏卡里(Muhammad ibn Ismail al-Bukhārī)柏濟力阿斯(Jöns Jacob Berzelius)洛梅(Lomé)迦旃延(kātyāyana)夏目漱石(Natsume Sōseki)密支那(Myitkyinā)凱末爾(Atatürk, Kemal)象牙海岸(Côte d'Ivoire)象牙海岸共和國(Republic of Côte d'Ivoire)蘇黎士(Zürich)
沒有留言:
張貼留言