2021年12月29日 星期三

《教育部異體字索引字典》

☆ 2023/10/13 累積訂正更新,原連結請重新下載。

四年前,我從官網擷取了《教育部異體字字典》的相關資料,製作了一部離線字典方便自己閱讀時查閱。《異體字字典》共收漢字十萬六千餘個,大部分以圖片呈現,當時我還原了三萬多個圖片字頭,加上原本的兩萬個文字字頭,可以檢索的字頭約有五萬多個,仍有約五萬個圖片字頭無法檢索。這些年來,每每在古籍中遇到一些「奇形怪狀」的俗體字,查《異體字字典》經常能查到,但是圖片字無法直接複製取用,無法用來數位化這些古籍中的字,只能徒呼負負。所以我一直想方設法要將這些圖片字還原成純文字,只是數量龐大,也只能少量地一點一點還原。

2021年12月28日 星期二

漢字使用環境的建置 ——十七萬漢字初稿登場

☆ 2023/10/11 更新,詳情請見 漢字使用環境的建置 —— 部件檢索重要更新暨 Unicode 15.1 全宋體更新

七月初我與 suns99 兄完成了《中華字海》字頭的清理工作後,略事休息,接著又投入了《教育部異體字字典》的字頭清理工作。由於《教育部異體字字典》的字頭清理工作難度更高,我估計憑我二人之力難以在短時間完成,於是便在7月19日去函《教育部異體字字典》的維護單位——國教院,申請《異體字字典》字頭的構形數據。7月30日收到回函,國教院同意提供《異體字字典》字頭的構形數據供我整理之用,實際收到數據已是在10月15日。與此同時,我將尚未還原的《異體字字典》字頭摘錄出來做成工作檔(先前已斷續整理還原了六萬多字,再扣除掉 13830 個手寫字形後,還有 35046 字待清理),每五千字一包,切分成七個包,suns99 兄用倉頡輸入法逐字核對清理(每包平均約花兩週時間,平均還原率略低於 50%),每完成一包發回給我,我再針對可還原的字頭覆核一遍,確保還原的正確性。花了三個月的時間,十月中完成了初步的清理工作。經過統計,利用既有全宋體字庫可檢索的字頭計有 73803 字,需新增至字庫的未收字頭共有 18366 字。然後我將國教院提供的構形數據略事整理,吻合進我的字表,最後提取 18366 個未收字頭數據,加進「部件檢索」裡,至此「全宋體」這個大型字庫,收字正式突破了十七萬漢字,應該足供大多數的漢字應用。