2023年2月22日 星期三

《說文解字》字典及全宋體更新

☆ 2023/02/23 《說文解字》字典小幅更新,現在所有版面上的篆字圖,包含小徐及段注,點擊都能顯示放大,放大倍率也調高了,原連結請重新下載。

這部《說文解字》字典,自初始製作開始到今天,一晃眼居然已經快滿十個年頭。自己從中實在獲益不少,習得了不少相關知識,尤其是改版到大、小徐與段注的三合一版之後,更是確立了這部字典的布局、體例,實是深度學習《說文》的稱手工具。三合一版的意義在於橫向的關照,讓三家的短長在對照中益加清晰,這是這部《說文》字典的重點價值。不過個人的能力與時間終究有限,許多已知的缺點也只能邊用邊改,無法一次性地全面修訂。

2022年12月30日 星期五

漢字使用環境的建置 —— 中醫藥用字全宋體更新

☆ 2023/02/22 因應《說文解字》字典更新,新造百餘字,小幅更新,原連結請重新下載。
☆ 2023/01/17 99年版「中醫藥造字檔」清理完畢,小幅更新,詳情請參見「後記」一節。原連結請重新下載。

中醫藥特用漢字

偶然的機會裏,在衛福部的網站上發現一個 94 年版「中醫藥造字檔」。這是個很舊的文件,利用早期 Windows 下的造字程式,於使用者造字區創建一些中醫藥領域的特用漢字。在使用 BIG-5 內碼的年代,這是補充缺字的常見做法。不過時至今日,已經很少人會用這種方法,這些曾經的漢字資源,遂逐漸湮沒在荒煙蔓草之中。根據文件所附的說明,這個造字檔是由中醫藥委員會歷年來統一造字 1605 個,再配合簡體版「中華醫典」的造字檔繼續增修,合計共造 4025 字。「中華醫典」涵蓋典籍七百餘部(最新版本已經超過千部),其造字檔相當於數千年來重要中醫藥典籍中罕用字之匯總,任其荒蕪實在可惜。於是我與 suns99 兄又開始了一段小規模的「搶救之旅」。

2022年9月19日 星期一

漢字使用環境的建置 —— Unicode 15 全宋體更新

擴展 H 區

九月十四日,Unicode 官方一如預告,發布了最新的 Unicode 15.0 版,等待多時的擴展 H 區四千多個漢字終於到來。基於以往的經驗,九月初我就開始偷跑,投入了新增漢字的整理工作。9月5日完成了 4193 個新增字形(C區 1 字、H區 4192 字),9月6日完成了部件檢索的 H 區支援,然後與 suns99 兄就雙雙投入了補充字對 H 區字的遷碼整理。這次 Unicode 15.0 除了增添了新字之外,也改動了一些舊字的字形,例如 U+22ACF 的「𢫏」字,從「⿰扌⿱冂山」改成了「⿰扌⿱冖山」。另外也把一些兼容字扶正,重新編碼收入了 H 區之中,例如「𢛔」、「甾」、「緇」,這些都需要進行調整、處理。

2022年6月10日 星期五

漢字使用環境的建置 ——十八萬漢字初稿登場

去年底我與 suns99 兄初步完成了《教育部異體字字典》宋體字頭的清理工作後(尚有 13830 個手寫字形待清理),本來打算休息一年,先把工作重點放在拆分數據的完善上。結果阿文兄硬是不讓我休息,跳出來說要幫忙清理手寫字形的部份,呵呵!計畫趕不上變化,於是只好牙根一咬繼續拼下去了。在經過波波折折、兩度重新編碼後,終於在半年後完成了全部的清理工作,共新增 8289 個手寫字形至字庫,《教育部異體字字典》的所有字頭全數「文字化」。至此「全宋體」這個大型字庫,收字正式突破了十八萬漢字,涵蓋了四大字典(《漢字海》、《教育部異體字字典》、《中華字海》、《漢語大字典》)的所有字頭,應該足供專業等級的漢字應用。

2022年4月8日 星期五

《本草綱目》辭典

☆ 2022/12/30 累積訂正更新,原連結請重新下載。
☆ 2022/09/23 因應 Unicode 15 發布,同步更新《本草綱目》字典,原連結請重新下載。

《本草綱目》是一部集醫藥、本草大成的著作,由明代李時珍費時二十七年,歷經三次改寫而成。萬曆六年(1578年)定稿,卻苦無書商願意承印,又歷十二年,才獲南京藏書家兼出版商胡承龍的贊助,於萬曆二十三年(1596年)正式在南京刊行。然而,李時珍在獲得贊助後,未及三年便撒手人寰,終究未能看到自己的著作問世。

《本草綱目》雖然不是字書,但算得上是中國古代一部劃時代的醫藥類百科全書,影響後世至深且鉅。清代著名的《康熙字典》,引用《本草》相關的引文就有五百多處。時至今日,我們還能經常在廣告文案上看到:「《本草綱目》有記載,……。」云云,讓人倍感親切、信賴。《本草》其實早已內化到每一個華人的骨子裡,是生活上、文化上無法切割的一部分。

2022年3月17日 星期四

《說文解字》字典更新

☆ 2022/12/30 累積訂正更新,原連結請重新下載。
☆ 2022/09/23 因應 Unicode 15 發布,同步更新《說文解字》字典,原連結請重新下載。

我製作的《說文解字》字典,自發布以來受到許多朋友的肯定。我十分高興,高興的並不全是因為受到讚美,而是代表我製作的《說文解字》字典對很多人來說是「有用的」,這也是我製作這字典的初心——除了自己可以使用之外,我希望能幫助更多的從事研究或閱讀的人們。距離上次發布,也已經是三年前的事。三年來,我還是有做了一些小幅度的修訂,只是忙於漢字的整理,一直沒心思撰文把這些更新發布出來。現下剛好有點空檔,於是趕快把這些更新發布出來,省得始終費心記掛。

2021年12月29日 星期三

《教育部異體字索引字典》

☆ 2023/02/22 累積訂正更新,原連結請重新下載。
☆ 2022/12/30 累積訂正更新,原連結請重新下載。
☆ 2022/09/20 因應 Unicode 15 發布,同步更新《教育部異體字索引字典》,列於本文末的勘誤記錄,無需等待官方修訂的,逕行訂正,原連結請重新下載。
☆ 2022/06/10 因應十八萬漢字發布,同步更新《教育部異體字索引字典》,列於本文末的勘誤記錄,無需等待官方修訂的,逕行訂正,原連結請重新下載(原先的 mdd 檔已經不再需要,可刪去)。
☆ 2022/04/06 因應十七萬漢字第一次更新,同步更新《教育部異體字索引字典》,列於本文末的勘誤記錄,無需等待官方修訂的,逕行訂正,原連結請重新下載。

四年前,我從官網擷取了《教育部異體字字典》的相關資料,製作了一部離線字典方便自己閱讀時查閱。《異體字字典》共收漢字十萬六千餘個,大部分以圖片呈現,當時我還原了三萬多個圖片字頭,加上原本的兩萬個文字字頭,可以檢索的字頭約有五萬多個,仍有約五萬個圖片字頭無法檢索。這些年來,每每在古籍中遇到一些「奇形怪狀」的俗體字,查《異體字字典》經常能查到,但是圖片字無法直接複製取用,無法用來數位化這些古籍中的字,只能徒呼負負。所以我一直想方設法要將這些圖片字還原成純文字,只是數量龐大,也只能少量地一點一點還原。

2021年12月28日 星期二

漢字使用環境的建置 ——十七萬漢字初稿登場

☆ 2022/06/10 更新支援至十八萬漢字,詳情請見 漢字使用環境的建置 ——十八萬漢字初稿登場
☆ 2022/04/06 十七萬漢字第一次更新——主要把落在15字面的《異體字典》字頭清理完了,拆分數據有缺漏部件的予以補齊,有錯誤的予以訂正,並做了最小拆分的優化。同時整併了三百多組重複的收字,讓這些位在不同字典中差點錯身而過的字重新再關聯起來,後續就剩下位於16字面的一萬四千多字尚待清理了,原連結請重新下載。

七月初我與 suns99 兄完成了《中華字海》字頭的清理工作後,略事休息,接著又投入了《教育部異體字字典》的字頭清理工作。由於《教育部異體字字典》的字頭清理工作難度更高,我估計憑我二人之力難以在短時間完成,於是便在7月19日去函《教育部異體字字典》的維護單位——國教院,申請《異體字字典》字頭的構形數據。7月30日收到回函,國教院同意提供《異體字字典》字頭的構形數據供我整理之用,實際收到數據已是在10月15日。與此同時,我將尚未還原的《異體字字典》字頭摘錄出來做成工作檔(先前已斷續整理還原了六萬多字,再扣除掉 13830 個手寫字形後,還有 35046 字待清理),每五千字一包,切分成七個包,suns99 兄用倉頡輸入法逐字核對清理(每包平均約花兩週時間,平均還原率略低於 50%),每完成一包發回給我,我再針對可還原的字頭覆核一遍,確保還原的正確性。花了三個月的時間,十月中完成了初步的清理工作。經過統計,利用既有全宋體字庫可檢索的字頭計有 73803 字,需新增至字庫的未收字頭共有 18366 字。然後我將國教院提供的構形數據略事整理,吻合進我的字表,最後提取 18366 個未收字頭數據,加進「部件檢索」裡,至此「全宋體」這個大型字庫,收字正式突破了十七萬漢字,應該足供大多數的漢字應用。

2021年10月12日 星期二

《電腦漢字字典》

☆ 2022/09/29 因應 Unicode 15 發布,同步更新《電腦漢字字典(精簡版)》字典,原連結請重新下載。
☆ 2022/01/04 為了避免違反 Unicode 官方 "Terms of Use" 的宣告,特將 Unicode Character Code Charts 的數據移除,並更名為「精簡版」以資區別,重新開放分享。
☆ 2021/10/19 經網友提醒,可能會有違反 Unicode 官方 "Terms of Use" 宣告的疑慮,即刻起停止這個字典的分享,以示對版權方的尊重。

這是一部意外的字典。怎麼說呢?當初一直想做一部含有所有 Unicode 漢字的字典以供查閱,試著從 UniHan 的數據整理,結果不是很理想。試著從「國際電腦漢字及異體字知識庫」、「字海網」等網站蒐集,結果都跟我的期待有所落差。後來從 字形維基(GlyphWiki) 蒐集了相關數據,在整理的過程中覺得數據很是龐雜,於是下了幾個正則刪除了一些數據,沒想到結果卻異常的好,分享給一些好友,大家都覺得真是個好工具。於是這部字典就被我留了下來,成了重要的工具。但我總覺得還是不夠完整,所以一直沒有正式分享出來。這次隨著 Unicode 14.0 的發布,我終於利用新的製作技術完成了最後一塊拼圖,完整了這部——《電腦漢字字典》。

2021年10月8日 星期五

難字錄

難字者,一些大型字典沒有收錄的生僻字。與好友整理漢字過程查得的一些資料,隨手貼於此處……難字錄