2021年12月29日 星期三

《教育部異體字索引字典》

☆ 2023/10/13 累積訂正更新,原連結請重新下載。

四年前,我從官網擷取了《教育部異體字字典》的相關資料,製作了一部離線字典方便自己閱讀時查閱。《異體字字典》共收漢字十萬六千餘個,大部分以圖片呈現,當時我還原了三萬多個圖片字頭,加上原本的兩萬個文字字頭,可以檢索的字頭約有五萬多個,仍有約五萬個圖片字頭無法檢索。這些年來,每每在古籍中遇到一些「奇形怪狀」的俗體字,查《異體字字典》經常能查到,但是圖片字無法直接複製取用,無法用來數位化這些古籍中的字,只能徒呼負負。所以我一直想方設法要將這些圖片字還原成純文字,只是數量龐大,也只能少量地一點一點還原。

2021年12月28日 星期二

漢字使用環境的建置 ——十七萬漢字初稿登場

☆ 2023/10/11 更新,詳情請見 漢字使用環境的建置 —— 部件檢索重要更新暨 Unicode 15.1 全宋體更新

七月初我與 suns99 兄完成了《中華字海》字頭的清理工作後,略事休息,接著又投入了《教育部異體字字典》的字頭清理工作。由於《教育部異體字字典》的字頭清理工作難度更高,我估計憑我二人之力難以在短時間完成,於是便在7月19日去函《教育部異體字字典》的維護單位——國教院,申請《異體字字典》字頭的構形數據。7月30日收到回函,國教院同意提供《異體字字典》字頭的構形數據供我整理之用,實際收到數據已是在10月15日。與此同時,我將尚未還原的《異體字字典》字頭摘錄出來做成工作檔(先前已斷續整理還原了六萬多字,再扣除掉 13830 個手寫字形後,還有 35046 字待清理),每五千字一包,切分成七個包,suns99 兄用倉頡輸入法逐字核對清理(每包平均約花兩週時間,平均還原率略低於 50%),每完成一包發回給我,我再針對可還原的字頭覆核一遍,確保還原的正確性。花了三個月的時間,十月中完成了初步的清理工作。經過統計,利用既有全宋體字庫可檢索的字頭計有 73803 字,需新增至字庫的未收字頭共有 18366 字。然後我將國教院提供的構形數據略事整理,吻合進我的字表,最後提取 18366 個未收字頭數據,加進「部件檢索」裡,至此「全宋體」這個大型字庫,收字正式突破了十七萬漢字,應該足供大多數的漢字應用。

2021年10月12日 星期二

《電腦漢字字典》

☆ 2022/09/29 因應 Unicode 15 發布,同步更新《電腦漢字字典(精簡版)》字典,原連結請重新下載。
☆ 2022/01/04 為了避免違反 Unicode 官方 "Terms of Use" 的宣告,特將 Unicode Character Code Charts 的數據移除,並更名為「精簡版」以資區別,重新開放分享。
☆ 2021/10/19 經網友提醒,可能會有違反 Unicode 官方 "Terms of Use" 宣告的疑慮,即刻起停止這個字典的分享,以示對版權方的尊重。

這是一部意外的字典。怎麼說呢?當初一直想做一部含有所有 Unicode 漢字的字典以供查閱,試著從 UniHan 的數據整理,結果不是很理想。試著從「國際電腦漢字及異體字知識庫」、「字海網」等網站蒐集,結果都跟我的期待有所落差。後來從 字形維基(GlyphWiki) 蒐集了相關數據,在整理的過程中覺得數據很是龐雜,於是下了幾個正則刪除了一些數據,沒想到結果卻異常的好,分享給一些好友,大家都覺得真是個好工具。於是這部字典就被我留了下來,成了重要的工具。但我總覺得還是不夠完整,所以一直沒有正式分享出來。這次隨著 Unicode 14.0 的發布,我終於利用新的製作技術完成了最後一塊拼圖,完整了這部——《電腦漢字字典》。

2021年10月8日 星期五

難字錄

難字者,一些大型字典沒有收錄的生僻字。與好友整理漢字過程查得的一些資料,隨手貼於此處……難字錄

2021年7月13日 星期二

《學生字典》

☆ 2023/10/13 累積訂正更新,原連結請重新下載。

記得還在念小學時,每年導師都會從班上選出一位小朋友做模範生,統一提報到學校匯總,然後校長就會在朝會上公開表揚,並頒發獎狀、獎品。念小學的六年裏,我就有三年當選了模範生,所以拿了不少獎品,呵呵!在那個相對沒那麼富裕的年代,獎品通常也不會是什麼貴重的東西,很多就是印有縣長啦、地方議員啦敬贈的毛筆、硯台、墊板、鉛筆盒等文具用品,最貴重的應該就屬是一本燙金精裝的國語字典了。今天要介紹的,就是一本學生時代的字典,但不是我的學生時代,而是我的上一代、再上一代,民國初年時期的一本字典——《學生字典》。

2021年7月9日 星期五

漢字使用環境的建置 —— 追加三千漢字

☆ 2023/10/11 更新,詳情請見 漢字使用環境的建置 —— 部件檢索重要更新暨 Unicode 15.1 全宋體更新

三月底我與 suns99 兄完成了《漢字海》三萬多字頭的追加工作後,略事休息,馬上又投入了《中華字海》的字頭清理工作。雖然《漢字海》這本後出的字典幾乎涵蓋了《中華字海》的大部分字頭,但仍有一小部份《中華字海》字頭是其他字典所沒有收錄的。最終,清理出了三千多字,追加補入字庫,將字庫的字量提升到 155070 字。至此,全宋體這個大型字庫,收齊了 Unicode 13.0、CNS11643、目前收字最多的三大字典:《漢字海》、《中華字海》、《漢語大字典》,以及《玉篇》、《廣韻》、《集韻》、《康熙字典》等歷代字書、韻書的所有字頭,能夠提供閱讀者、文獻整理者、學界專家們更精準的漢字呈現與檢索,希望能為漢字文化的推廣、延續盡上一點點棉薄之力。

2021年3月29日 星期一

漢字使用環境的建置 —— 十五萬漢字粉墨登場

從去年底開始,我將注意力放在了一部目前已經出版的收字最多的字典——《漢字海》身上。前後花了三個多月的時間,終於將這部字典的字頭清理完畢。《漢字海》第一版 (全三冊),2014 年由香港大正出版公司出版,共收錄 102447 個漢字字頭,超越了《漢語大字典》的 60367、《中華字海》的 86987,成為目前為止收錄漢字最多的字典(《教育部異體字字典》收字 104302,但未實質出版,故不列入比較)。經清查該字典有 12 個字頭重出,而與既有的全宋體 12 萬字庫比對,約有七萬字已收,最後將 32373 個未收字補入字庫,成功將字庫的字量推升到 151917 字,一舉超過了十五萬字大關。