2013年8月4日 星期日

漢語大詞典3.0

假日裡研讀詩經也已經快一年了,為了研讀的方便,我同時也收集整理了一些工具書籍資料,用來輔助閱讀。一位朋友知我研讀甚勤,遂將一片他早已閒置不用的 "漢語大詞典光碟繁體單機 3.0 版" 光碟轉贈於我,期望對我的閱讀有所助益。收到這樣的心意,實在感激,只有更加 "勤奮用功" 來回報了,呵呵!

漢語大詞典是大陸上海辭書出版社出版的一部大型漢語語文辭典,由羅竹風主編,中國漢語大詞典編輯委員會、漢語大詞典編纂處歷時十八年編纂完成。全書12卷,另有索引‧附錄1卷,共收單字2.27萬,複詞37.5萬,合計五千餘萬字,並配有插圖二千五百多幅。繁體光碟版則授權由香港商務印書館有限公司製作發行,以 BIG-5 字符集 13,069 個漢字所對應的字頭為準,收入 18,014 個漢字字頭,336,706 條複詞,23,383 條成語,504,040 項釋義,861,956 項例證,18,718 項字詞關聯,23 萬多項漢字的字信息,515 幅插圖,20 多種查詢方法。

試著使用了幾天,雖然還不錯,但總還是沒有直接使用 MDict 電子字典來的快速方便。於是想,能不能把光碟裡的資料轉換到 MDict 的平台來使用呢(當然我是自己個人使用,不做商業應用、也不公開散播,應該沒有太多版權上的問題吧)?有了這個想法後,當然先到網路上做點功課、找點靈感,看怎麼做會比較好。

我知道對岸的幾個知名論壇裡其實有許多現成的辭典資料,之前我也稍微瀏覽研究過一下子。不過大陸的朋友們已習慣用簡體字,對於繁體字多已不識,因此不管什麼樣的資料泰半都會轉換成簡體,這樣一來許多古籍資料便失去了它的原貌,難以復原。因著這個緣故,我多半不習慣用對岸論壇上既有的現成版本,手邊的電子辭典幾乎都是自己儘量找到第一手原始資料,然後寫程式轉換出來,製作成 MDict 格式的電子辭典。

稍微搜尋了一下,果不其然,對岸論壇裡確實有好幾個版本的 "漢語大詞典3.0",但或多或少都有些問題。這在我預期之中,我只想確認有人成功這樣做過,既然別人能轉得出來,我應該也能成功,於是開始構思研究做法。

一般來說光碟裡的資料庫為了保護的目的,多半都會採用特殊格式、或是加上特殊編碼,要想解碼出來得花不少的功夫跟時間,還要一些些運氣。由於原版程式的操作介面提供有將查詢結果存檔成 HTML 檔案的功能,我決定讓原版程式幫我解碼,這樣最省事,而且 100% 正確不會出錯。

我直接寫了個簡單的 "機器人程式",自動操控原版程式將一個個字頭的查詢資料存檔成 HTML,這樣就可以將原始的資料完整地擷取出來。經過幾天斷斷續續的調整與測試,確定此法可行,於是開著電腦,讓 "小機器人" 辛勤的工作了兩天一夜,終於取得 18014 個原始的 HTML 檔。由於字頭裡同一字的不同讀音是分開並列,這 18014 個 HTML 檔裡有許多檔案是相同重複的。再快速地寫了個小程式來進行過濾、去掉重複,最後得到 13069 個完全不重複的 HTML 檔案,與光碟裡的說明數目一致,確認沒有遺漏。

原始的資料既然取得,距離目標也就不太遠了。分析一下這些 HTML,找出它們語法的規律性,接著把當初處理 "教育部重編國語辭典(修訂本)" 所寫的程式拿來改一改,試了幾次,做了些調整修正,然後就讓程式全速執行,將 13069 個 HTML 裡的原始資料轉存成一個經過排版安排的 MDict 原始檔,到這裡我的想法就差不多是實現了。

最終在編譯之前,我還做了些額外處理,例如把注音裡橫排的 "丨" 全部改成 "ㄧ"、把標點符號的引號 “ ” ‘ ’<> 改成我們較習慣的「 」『 』 〈 〉等等。另外也把相關的文字連結、圖片連結做一些適當的修正,最後經過編譯,得到 "漢語大詞典3.0.mdx"(64MB) 及 "漢語大詞典3.0.mdd"(7MB,包含512幅插圖,發音資料則全數捨去) 兩個檔案。共計 18014 個漢字字頭、336706 條複詞,合計 354720 個詞條,與光碟說明一致沒有遺漏。

這已是我自行製作的第四部個人使用辭典,有了之前的經驗,處理起來已經駕輕就熟。把 "漢語大詞典3.0" 加進 MDict 的詞庫裡,與我先前整理製作的其他中文辭典(教育部重編國語辭典修訂本、康熙字典、說文解字)聯合成同一分組,組合成一個強大的中文辭典群,這樣就大功告成了。

實際在電腦上查詢的結果大概是這樣:


 簡體: 
頁數:第 11 卷,第 142 頁部首 筆畫6 總筆畫13注音拼音shī反切:《廣韻》書之切,平之,書。
(1) 文學體裁的一種。通過有節奏、韻律的語言反映生活,抒發情感。最初詩可以唱詠。《書.金縢》:「于後公乃爲詩以貽王,名之曰『鴟鴞』。」南朝 劉勰《文心雕龍.樂府》:「凡樂辭曰詩,詩聲曰歌。」 劉祁《歸潛志》卷十三:「夫詩者,本發其喜怒哀樂之情,如使人讀之無所感動,非詩也。」魯迅《書信集.致蔡斐君》:「詩須有形式,要易記,易懂,易唱,動聽,但格式不要太嚴。要有韻,但不必依舊詩韻,只要順口就好。」(2) 指《詩經》。《左傳.隱公元年》:「《詩》曰:『孝子不匱,永錫爾類。』」 韓愈《鄆州溪堂詩》:「公在中流,右《詩》左《書》。」范文瀾 蔡美彪等《中國通史》第一編第四章第十節:「《詩》是兩周詩歌的名篇選集。」(3) 誦詩;題詩;作詩。《國語.周語下》:「詩以道之,歌以詠之。」韋昭注:「誦之曰詩。」 劉祁《歸潛志》卷十三:「因留題殿壁,紀予今昔遊。諸人亦各詩其後。」 顧汧《吳中翰孟舉六十壽序》:「間乘興一往,酒闌詩罷,即鼓枻歸。」(4) 比喻美妙而富於生活情趣或能引發人強烈感情的事物。王西彥《鄉下朋友》:「農民的生活和勞動本身就是詩,大自然的一草一木都是詩,農民簡直就是生活在詩裏。」《新華文摘》1983年第3期:「你們的經歷,本身就是一首詩,我會記住的。」(5) 記錄;記載。《漢書.司馬相如傳下》:「總公卿之議,詢封禪之事,詩大澤之博,廣符瑞之富。」王念孫《讀書雜志.漢書十》「詩大澤之博」:「詩者,志也。志者,記也。謂作此頌以記大澤之溥博,廣符瑞之富饒也。」 韓愈《劉統軍碑》:「日事時功,以著不可誣,有太史之狀、太常之狀,有謚,有誄,有幽堂之銘;又如即外碑刻文以顯詩之,其於傳無已,豈不益可保?」(6) 同「」。《公羊傳.襄公十三年》:「者何?邾婁之邑也。」陸德明釋文:「詩,二《傳》作邿。」《說文.邑部》:「,附庸國,在東平 亢父 邿亭 段玉裁注:「《前志》曰:『東平國 亢父 詩亭,故詩國。』……邿、詩古今字也。」(7) 捧持。《儀禮.特牲饋食禮》:「主人左執角,再拜稽首受,復位,詩懷之,實于左袂,挂于季指。」鄭玄注:「詩,猶承也,謂奉納之懷中。」(8) 接續;繼承。 王應麟《困學紀聞.評詩》:「詩之爲言承也,情動於中,而言以承之,故曰詩。」 盛如梓《庶齋老學叢談》卷中上:「《史記》之文,其意深遠,則其言愈緩;其事繁碎,則其言愈簡。此詩《春秋》之意。」


不過這部 "漢語大詞典3.0" 電子版仍有些小缺憾,例如與原詞典紙本相比刪減了不少內容(因為光碟採 BIG-5 編碼,超出 BIG-5 13069 字之外的字,製作光碟時均被刪去)。另外這雖然是繁體的原版,但仍有些地方它採簡體字(視為異體),而不用標準的繁體字(像 "準" 寫做 "准"、"異" 寫做 "异" 等等),雖不能說是錯,但與我們的正體習慣不同。另外它的編排方式也與我們台灣辭典的編排習慣略略有所不同,並不以詞性(動詞、名詞等等)來分類解釋。

有了這部 "漢語大詞典3.0",可以輔助我的主力辭典 "教育部重編國語辭典(修訂本)" 之不足。透過 MDict 的聯合查詢功能,每次查詢都可以把現有的四部辭典同時呈現,相互參照、互補有無,又快又方便,對於我詩經的研讀助益甚大。


p.s. 2014/10/05 今天讀詩經時查詢「爰」字字義,意外發現釋義中第 (11) 項之後有排版瑕疵。經檢視,似有資料脫漏,但比對原始光碟資料,當初轉換並無遺漏。於是再比對於紙本,發現原始光碟可能是為了要刪除非 BIG-5 的字,造成某些資料遺漏或錯亂重複,原光碟即如此,並非我的轉換有疏失。經過搜尋,類似的錯誤可能多達一千六百餘處,暫時無力一一比對修正,只好改一個是一個了。例如: [一床][一線][一鉤][二疏]...... 等等詞條,釋義第 (1) 項均與第 (2) 項的書證內容重複,比對紙本,第 (1) 項似應改為 亦作「一牀」、「一綫」、「一鈎」、「二疎」等等,或直接刪除並將其下編號均減一為宜。等有時間時再來慢慢比對修正了。
[爰] (11)《漢書.李廣傳》 => (11) 通「猿」。《漢書.李廣傳》    (漏字,據紙本補上)

p.s. 2015/02/01 今天再發現一處錯誤,在此勘誤:
[胡然]
(1) …《詩.鄘風.君子偕老》:「胡然而天?胡然而帝也?」 => 「胡然而天?胡然而帝也?」

p.s. 2015/02/22 今天經向朋友請教,再修正一些錯誤,在此記錄:
所有書證中的《聊齋志》修正為《聊齋志》。
[能始]
…《釋文》云:『胎,本或作。』《史記.天官書》:『三能,即三台。』是胎、、能古字並通用。 => 本或作。』《史記.天官書》:『三能,即三台。』是胎、、能古字並通用。
[丑] (4) …明 徐謂《南詞敘錄》:「以墨粉塗面,其形甚醜。今省文爲。」 => 以墨粉塗面,其形甚醜。今省文爲

p.s. 2015/03/07 朋友又提供的一處錯誤訂正
[厂]
清 聶鈙《泰山道里記》:「轉而東,有石曰三陽洞。」清 劉獻廷《廣陽雜記》卷三:「山足至洞頂高八丈許,洞之上附頂處,架木爲龕,可布三四席。」一說,「」爲「岸」的初文。 => 所有「廠」均應為「」。厂,山邊可以居住人的崖洞。說文解字:「厂,山石之厓巖,人可居。」


7 則留言:

  1. 您好!末學在網路搜尋資料時,欣見 先生曾把幾部非常好的詞典製作成離線版。
    請問能否與 先生在電郵上進一步溝通,以便向 先生請益?(stsamyuen@gmail.com)
    感恩!

    回覆刪除
    回覆
    1. 都快一年了,現在才看到您的留言(當時 Blogger 似乎不會做留言通知),真是抱歉!沒有版權問題的離線辭典,我陸陸續續都會分享出來,請參照相關發文;有版權限制的資料,則不會提供任何形式的下載,這樣會損及版權方的權益。

      刪除
  2. 請問您製作的這兩個檔案,要怎樣下載呢?

    回覆刪除
    回覆
    1. 很抱歉!這是有版權的資料,我不會做商業應用、也不會公開散播,所以不會提供任何下載。

      刪除
  3. 前輩您好,取人以魚不如取人以漁。小子不揆檮昧,惟願學。請問先生,您這類詞典的整理、改造是基於那種計算機語言的呢?晚輩也想自己摸索摸索。

    回覆刪除
    回覆
    1. 抱歉,父親一場大病,這一兩個月都在醫院日夜照護,短時間無法處理辭典相關事宜,敬請見諒!

      刪除
  4. 前輩您好,取人以魚不如取人以漁。小子不揆檮昧,惟願學。請問先生,您這類詞典的整理、改造是基於那種計算機語言的呢?晚輩也想自己摸索摸索。

    回覆刪除