2014年8月25日 星期一

全唐詩典

常常在閱讀一些散文或文學小說的作品時,會讀到作者引用某一段古詩詞來烘托文章的情境與意象。若是我未曾讀過的詩詞,又覺得頗為喜歡,這時我就會想去找出它的全文與出處,做一些延伸性的閱讀。紙本的唐詩三百首、千家詩、宋詞選輯等詩詞欣賞一類的書我也有好多本,但真要查找一首不知何名的作品,還真不知道該從何找起。當然 Google 的搜尋引擎常能幫上忙,但線上有的詩詞資料,簡體的內容占了絕大多數,資料的正確性、嚴謹程度也常值得懷疑。於是我想:如果有一部可靠的數位化的 "詩詞" 辭典,能在我有需要的時候快速而方便地查找詩詞,那該有多好啊!

其實有這樣的想法已經很久,但真正讓我決定開始動手,則是一次偶然間的搜尋,在故宮的【寒泉】古典文獻全文檢索資料庫裡,發現了全唐詩的資料,於是我便開始了一段漫長時間的資料蒐集與整理。

我先鎖定範圍在唐詩的部分,於網路上尋找比較可靠的資料。而《全唐詩》大概是收集整理唐詩作品最多最廣的一部書籍,收有唐詩近五萬首,所以便以它為出發點,開始整理相關的資料。經過數個月的蒐集整理,以正體的繁體中文為篩選目標,大概收集了四個不同來源的版本:

(一) 簫堯『中國詩苑』《全唐詩》 (收未拆分詩 45753 首)
這個網站為私人公益性質,免費提供藝術、文化工作愛好者以及(非營利性)下載。此版本的全唐詩經與中華書局 1960 年出版的紙本全唐詩抽檢比對,錯字不少,許多古字也未保留原貌。而且有許多簡體字轉繁體字的痕跡,例如所有的 "闌干" 都變成了 "闌幹",部分的 "白髮" 也成了 "白發",故這個版本最後捨棄不用。

(二) 故宮【寒泉】古典文獻全文檢索資料庫《全唐詩》 (收未拆分詩 42863 首)
原網站為 台師大圖書館【寒泉】古典文獻全文檢索資料庫,是國文系 陳郁夫教授所架設。該計畫由「中國投資教育基金會」贊助,資料庫完成後,在故宮文獻處處長 吳哲夫先生的推薦下,架設於故宮博物院網站。此版本的全唐詩以中華書局出版的全唐詩為底本,經掃描、OCR、校訂而成。不過由於製作年代久遠,當時是以 BIG-5 內碼加上使用者造字來處理,直至今日網頁仍以 BIG-5 編碼呈現,造字部分已不可見。後來有網上好友提供當初光碟版的造字檔及部分 Unicode 對照表,理論上可以還原顯示,不過造字的數量龐大,仍需進一步費時比對才能完成。此版本經與紙本抽檢比對,仍發現有不少光學辨識之錯字,還需要再嚴加校對才能臻於完美。由於此版本資料標示有卷、冊、頁碼,較容易定位至原紙本的相應位置,因此目前將它當做核對用的紙本電子索引來用,可以較快速地找到某首詩的紙本內容(暫時不再進一步修訂、處理,僅做為參照、索引紙本用途)。

(三) 網路展書讀 之 全唐詩檢索系統 (收已拆分詩 47957 首)
此為元智大學中文系 羅鳳珠老師主持的系列教學、研究用途網站之一。網站註明有 "版權所有,系統設計請勿引用;資料自由使用,但不得為商業用途。",所以資料拿來做為個人用途應該沒有問題。由於網路展書讀是一系列主題網站的集合,目前的網頁入口顯得有些紊亂(尚在持續改版中),光 "全唐詩檢索系統" 就可以找到三個版本。首頁的最左邊有一個快速連結下拉式選單,可連結到 "全唐詩(舊版)" (http://cls.hs.yzu.edu.tw/QTS/,第一版,1999年),我測試過它已完全查不到任何資料,應該已經作廢。然後在 "唐宋文史資料庫" 裏可以找到 "全唐詩" 的連結(http://cls.hs.yzu.edu.tw/tang/Database/index.html,第二版,2006年),我的資料取自這裏。這個頁面裏還有一個 "2012 改版" 的連結(http://cls.hs.yzu.edu.tw/tang/tangats/Tang_ATS2012/SrchMain.aspx),介面與前一版類似,但資料內容的呈現略有些許不同。這個檢索系統的全唐詩有一些問題:首先詩人孟郊的詩作約五百餘首完全檢索不到,不管是第二版或是 2012 新版,推斷這個錯誤在檢索系統裏存在已久,一直沒被發現、修正,使用這個檢索系統來進行分析研究的使用者要特別留意。在第二版的作者清單裏,透過孟郊的連結可以查到他有515首詩,但實際點入,有目無詩。唯有透過 2012 新版的作者清單裏孟郊的連結才能真正查到這些詩。另外一個較嚴重的問題是,一些較長的詩題、詩序或是詩句會被截斷遺失(例如:王維.送祕書晁監還日本國一詩的詩序就掉了一大半,不知是不是資料庫的欄位長度留得不夠。此外有為數不少含有異文的詩句,斷句分行排版整個亂掉(不知是否是用程式自動處理造成的問題?2012 新版含異文的詩句就乾脆不分行了。我用人工大致做了修復)。還有就是極少數地方居然還是有些簡體字轉繁體字的痕跡,例如某些 "云" 字就變成了 "雲"(未記錄是哪幾首)。這個網站雖然已採用 UTF-8 編碼來呈現內容,但仍使用了兩、三百個不可見的使用者造字,目前我已全數比對還原成正常的 Unicode 字,但還有六、七百個組合字尚待比對還原。經與紙本抽檢比對,這個版本的全唐詩錯字還是不少,加上前述的資料丟失、不夠完整,目前僅把它當作互相比對驗證用的輔助版本(暫時不再進一步修訂、處理)。

(四) 搜韻-詩詞門戶網站 (收已拆分唐詩 48552 首)
這是一個對岸的詩詞資料專門網站,收集有很豐富的各朝代詩詞相關資料。如同對岸許多同性質網站一樣,這個網站的資料內容仍多以簡體字為主,但經我觀察,屬於全唐詩的詩作部分,它的資料幾乎全部都是正體的繁體字,因此我便將它的全部唐朝詩作收集下來,進行離線辭典化的整理。按照網站的統計說明,它共收有唐詩 48555 首,我實收 48553 首,但發現一首重複,故實得 48552 首,還少了兩首。經與紙本抽檢比對(與前述版本同步檢驗),這個版本的全唐詩居然是錯誤率最低的版本,一些其他版本缺字、造字的部分,它幾乎都已正確地用上 Unicode 字,可見這個網站所用的全唐詩底稿應該有經過較為嚴謹的校對,不過非全唐詩的部分,錯誤、漏失就還不少。我略將少數殘留的造字還原,若干簡體詩作逐首人工轉為繁體,雖然還是有發現一些錯字與漏失,但相對來說這是個較好的版本,目前就把它當作是我主力的 "唐詩" 辭典來用。

經過一番的收集整理,我初步完成了三部以全唐詩為基底的離線辭典:唐詩典.mdx(7.2MB,搜韻版)、全唐詩典.mdx(6.9MB,展讀版,半成品)、全唐詩.mdx(7.3MB,寒泉版,半成品),把它們設定成一個 "詩詞辭典" 群組,在 MDict 裏就可以進行聯合查詢。實際查詢的效果如下:

 王維.從軍行 - 唐詩典

從軍行
作者:王維類型:押紙韻
【題】一作相和歌辭 從軍行
【詩】▶ 吹角動行人,喧喧行人起。笳悲(一作應)馬嘶亂,爭渡金(一作黃)河水。▶ 日暮沙漠陲,戰聲(一作力戰)煙塵裏。盡繫名王頸,歸來獻(一作報)天子。


 王維.從軍行 - 全唐詩典

從軍行
作者:王維卷別:卷一二五
【詩】▶ 吹角動行人,喧喧行人起。▶ 笳悲馬嘶亂【笳應馬嘶亂】,爭渡金河水【爭渡黃河水】。▶ 日暮沙漠陲,戰聲煙塵裏【力戰煙塵裏】。▶ 盡繫名王頸,歸來獻天子【歸來報天子】。


 王維.從軍行 - 全唐詩

從軍行 王維
▶ 吹角動行人,喧喧行人起。笳悲(一作應)馬嘶亂,爭渡金(一作黃)河水。▶ 日暮沙漠陲,戰聲(一作力戰)煙塵裏。盡繫名王頸,歸來獻(一作報)天子。[頁]卷,冊....[1236]125,4


有了這幾份全唐詩離線辭典,我就可以很方便地查找唐詩資料了。每次查詢都可以相互比對,遇有不一致的地方還可以檢索紙本加以求證,比起線上的搜尋,方便、正確多了。不過這每一份資料都還是有其各自的缺失,沒有哪一份是百分之百嚴謹無誤的(因此需要聯合起來用)。要找到一份絕對嚴謹的資料現階段還是很困難,或許哪一天等我退休了,時間多到不知道該怎樣打發,那時候也許就可以拿這些資料當作底稿,逐字地與紙本進行校對,每天對個10頁,花個兩、三年時間或許可以完成(原紙本有一萬餘頁),這樣才有可能取得一份可以完全信賴的全唐詩資料吧,呵呵!


沒有留言:

張貼留言