2022年12月30日 星期五

漢字使用環境的建置 —— 中醫藥用字全宋體更新

☆ 2023/10/11 更新,詳情請見 漢字使用環境的建置 —— 部件檢索重要更新暨 Unicode 15.1 全宋體更新

中醫藥特用漢字

偶然的機會裏,在衛福部的網站上發現一個 94 年版「中醫藥造字檔」。這是個很舊的文件,利用早期 Windows 下的造字程式,於使用者造字區創建一些中醫藥領域的特用漢字。在使用 BIG-5 內碼的年代,這是補充缺字的常見做法。不過時至今日,已經很少人會用這種方法,這些曾經的漢字資源,遂逐漸湮沒在荒煙蔓草之中。根據文件所附的說明,這個造字檔是由中醫藥委員會歷年來統一造字 1605 個,再配合簡體版「中華醫典」的造字檔繼續增修,合計共造 4025 字。「中華醫典」涵蓋典籍七百餘部(最新版本已經超過千部),其造字檔相當於數千年來重要中醫藥典籍中罕用字之匯總,任其荒蕪實在可惜。於是我與 suns99 兄又開始了一段小規模的「搶救之旅」。

計畫與變化

在今年六月初完成了《教育部異體字字典》的所有字頭後,我一直在做《中華字海》與《教育部異體字字典》的字頭排查工作,檢查了可疑的上千字頭,一一查證、勘誤。在《教育部異體字索引字典》一文的最後,累積記錄的勘誤超過了三百條。此一排查工作,又將四大字典的字頭正確性提昇了不少。

與此同時,我把注意力放到了 CBETA 的電子佛典缺字上。之前也曾與葉健欣兄幾次討論,我持續在評估處理的可行性與實作的方法。我先把  CBETA 的缺字資料庫數據作成了一個 mdx,主要方便查看字圖,然後利用《教育部異體字字典》的對應,快速還原了數千字頭,CBETA 缺字資料庫的三萬多字便只剩下一萬六千字待處理了。

十月中,字頭排查的工作暫告一段落,正式啟動了 CBETA 的缺字清理。老方法,將字圖先做成一個工作字型檔,把待清理的一萬六千字分成四包,每包四千字,煩請 suns99 兄出手幫忙。至十一月中,suns99 兄已完成了初步清理,我則開始進行複驗。不驗還好,這一驗發現了不少問題。有不少因為底本不夠清晰,CBETA 誤用錯字。也有一些因底本的《大正新脩大藏經 》就錯了,導致 CBETA  跟著出錯。看到可疑的字要一一查證,導致複驗的進度非常緩慢,只能龜速前進。

十二月初,眼看年底將至,CBETA 的缺字清理工作勢必無法於年前完成,於是計畫急轉了個彎,暫時擱置 CBETA 的清理,改以中醫藥用字的清理代打。希望至少在年前能發布一次更新,做為這一年工作的成果總結。

舊物重生

在衛福部網站下載的 94 年版「中醫藥造字檔」,有字形、有倉頡碼,整理起來並不太困難。據說明,作者何威德先生於民國九十三年九月底退休,而於退休後仍繼續留會當義工四個月,把細明體字造足 4025 字。網站上另有使用這個造字檔的古籍文本 26 部,均為何威德先生整理。若以退休時的年紀為 60 ~ 65 歲來推估,現在應當高齡八十左右。先生高義,為中醫藥典籍的整理奉獻良多,值得尊敬,若任其心血荒廢,後輩之損失。於是我立馬決定把它整理出來,再續薪傳。

我先把舊式的 tte 字型檔轉換為標準的 ttf 檔,再利用倉頡碼加人工複覈的方式還原了三千字,剩下一千字對應不上。於是再請 suns99 兄出馬,幫我複驗這一千字,看還能還原多少,剩下的便可以增收進補充字了。

最終,4025 字中,扣除一些非漢字的符號,實際增收了 978 字為補充字,逐一加上了拆分資料,納入「部件檢索」。至此,94 年版的「中醫藥造字檔」在現今的 Unicode 標準下再次重生,而「全宋體」也向中醫藥領域的用字,跨出了一大步。

遷碼對照表

完成了清理的工作,接下來便是如何快速將使用了造字檔的舊有 BIG-5 文本,轉換為新的 Unicode 文本,這就有賴工作時建立起來的遷碼對照表了。由於 94 年版的「中醫藥造字檔」在製作時參考了簡體版的「中華醫典」造字,新增收的  978 字中,其實有一些「全宋體」應該已經以正形的形式收錄,造字檔所造卻是俗體形式。這些字讓我有了遲疑的斟酌,到底該認同於正形呢,還是保留可能是大陸簡體形式的俗體?由於無法了解原作者當時的造形原則,而古籍中確實也常寫俗體字,在無法一一查證底本的情況之下,我採取了較保守的作法,就是儘量保留了可能是俗體的字形加以收錄,只把少數的差異字形對應到既有的正形。

舉幾個實際例子來加以說明,讓要利用這個對照表的使用者能更清楚掌握對應狀況。例如原造字檔中,所有含有「兼」形部件的字,都造作「󵏇」形(教育部異體字字典 A00294-004)。由於現今的標準字形都不作此形,我全部改作「兼」形。又如原造字檔中,所有含有「俞」形部件的字,上段都不作「亼」而作「𠓛」形,我亦改之。而如「𢽳」字,造字檔作「林」形不作「𣏟」形,大陸標準字形把「𣏟」形都作「林」,但這亦是古籍中可能出現的俗字寫法,因此我增收了這個字形做為俗體而不直改。


在對照表中,凡此類字形與原造字檔略有差異的字,我都加註上「*」號(共 162 字),提醒注意。而有正、俗體差異的字,以既收字在前,增收字加括號於後的形式標註。使用者可自行斟酌自己的用字原則,適當調整這個對照表,然後可做為舊有文本的遷碼之用。若是實在懶得像我這樣字字斟酌,原說明中有提到作者撰有「中醫藥罕用字正僞的簡單考據」一文,似乎較傾向於使用既有的正形字,因此可以直接將「*」號與括號帶字刪去,逕為遷碼之用。另有 17 個圖形、符號字未作對應,以「x」標示,遷碼前記得刪去或進一步處理。若實在不知如何遷碼,我將原網站提供的 26 部典籍文本依前述對應原則完成遷碼,隨附於此,提供給有需要的使用者參考。

您若曾利用 94 年版的「中醫藥造字檔」來製作文件,可借助這個遷碼對照表,將相關的文件快速遷碼至 Unicode + 補充字的「全宋體」平台。

p.s. 遷碼對照表的最後,額外包含了 1 個原造字檔所無的遷碼對應。「」字出現在「CM039-唐‧孫思邈撰‧‧千金翼方 File_1063.txt」之中,據前後文判斷,應該是「鉤」字。

字形優化

4025 字扣除 17 個圖形、符號字及 978 個增收字,也就是說有 3030 個字形屬於既收字。我逐字比對這些字形,擇其優者替換掉一些「全宋體」原先質量較差的字形,對增收字字形太差者也做了些修整。至此中醫藥用字的清理工作才算是大致完成。

發布前夕,好友 Mastameta 兄,提供了一批優化字形供我替換、增補,一併做了處理。

修訂字庫

至於拆分資料的部分,仍是我的痛處,只有少量的修整,尚有海量的拆分資料等著我去進一步完善。只能且戰且走,繼續先將這個尚未完全優化的版本推出,讓大家先有個工具可用,至於進一步臻至完善,留待後圖了。



p.s. 這一版的「部件檢索」我嘗試用一些 Unicode 的表情符號來做為部件分類的代表圖示,幫助眼睛定位。由於 Windows 7 本身並不支援彩色字形,僅有使用 FireFox  瀏覽器時能顯示彩色。若是 Windows 10,則各瀏覽器應該都沒問題。 

附記

衛福部的網站上另有一個  99 年版「中醫藥造字檔」,除了安裝說明外,沒有倉頡碼、沒有字典對照表,基本上沒有任何說明(不知使用者要如何用這些字?)。根據我粗略的比對,與  94 年版全不相容,但收字更多,計有 5556 字。網站上有以此造字檔整理的古籍文本 88 部,但我初步比對,這些文本疑似混用了這兩個全不相容的造字檔,尚待進一步確認、釐清。

雖然這一版的造字檔狀況難明,但既然整理了中醫藥用字,也就不放過任何可利用的資源。於是再請  suns99 兄協助,針對這 5556 字進行清理。於此次發布前夕  suns99 兄方才完成,我尚需進行複驗、收尾等作業,來不及一起發布,只好留待「明年」再做更新了。粗看尚有 141 字待收,實際增補不多。

字型更新

經過這些整理,這次更新給大家的全宋體,除了基本字區、A - H 區的已編碼漢字共 98060 個外,再加上 86605 個 Unicode 尚未編碼的補充漢字,總計共有 184665 個漢字。除了涵蓋 Unicode 15.0 的所有漢字、涵蓋了四大字典的所有字頭與台灣 CNS 標準的編碼漢字之外,更涵蓋了不少中醫藥用字,足堪專業領域之使用。

下載連結:全宋體.zip
下載連結:倉頡碼表.7z (僅保留漢字部分,請自行併入您慣用的碼表)

安裝字型的方式請參閱 漢字使用環境的建置 ㈠ —— 顯示篇 的說明。

鳴謝

感謝這些原字型製作單位與作者的無私奉獻。
感謝老友 suns99 兄,總是不離不棄地與我並肩作戰。
感謝好友 Mastameta 兄,陸續提供了一些優化字形供我替換。


現將此成果無條件分享出來,樂見學術研究、教育工作、個人閱讀這方面的運用,但請勿用做任何形式的商業營利行為。希望「全宋體」這個大型字庫以及「部件檢索」這個檢字工具,能在漢字文化的整理、研究上幫上一點小忙。

後記(2023/01/17)

元旦前未及完成的  99 年版「中醫藥造字檔」清理,經過複驗、整理,實際只再增收 127 字(另新造《說文》相關缺字四十多個),於此新年前夕,更新給大家,順便拜個早年,祝新春吉祥,萬事如意!

至於官網上標示以此造字檔整理的古籍文本 88 部,經過審視,確認混用了這兩套全不相容的造字檔,更有 3 處是未涵蓋的不明造字。由於無法得知當初整理者的實際狀況,要還原這些文本變得有些棘手。我只能猜測是「先用  94 年版造字,不足者再用  99 年版造字」,依此推測,先用 94 年版遷碼對照表遷碼一次,然後再用 99 年版遷碼對照表再遷碼一次。完成後,以「唐‧孫思邈撰‧‧千金翼方」抽檢,比對之前 94 年版的文本,發現僅是些異體字的差異,並無錯字產生,或許此法可行。姑且將依此法還原的文本附於此處,僅供參考,不保證其正確性,也不提供維護,有心人當再仔細校對底本,方得為用。

下載連結:中醫藥典籍全文下載(使用99年版中醫藥造字檔).7z(僅含 86 部文字檔,2 本 PDF 未處理)

中醫藥特用漢字的清理,至此暫時告一段落。由於我對此領域並不十分熟悉,缺乏相關古籍的底本收集,因此在字形的查證上難以周全,多半僅能依原造字檔字形收錄。而文本不夠周延,讓我在筆記這些字的字義、出處時也多有窒礙。略撿幾則個人筆記附錄於此,但盼有熟悉此領域的有心人,能詳加查考,理清這些特用漢字的來歷。

(以上幾則只是隨手筆記,缺乏嚴謹學術考證,僅供參考之用)







勘誤:



本分隔線以下已更新處理
    • 󰲷􁇝重複,後者註銷。(2023/06/29)
    • 「􂕮」字註銷。《教育部異體字字典》官網字形錯誤,字當作「󾨥」。(2023/06/15)
    • 「󸗗」字形修正作「竹頭」。《全字庫》官網字形誤作「草頭」。(2023/06/15)
    • 󽹰􁴺重複,後者註銷。(2023/06/14)
    • 𰯲󰓓重複,後者註銷。(2023/06/14)
    • 󾾬󶐭重複,後者註銷。(2023/06/09)
    • 󴐖􂻔重複,後者註銷。(2023/05/31)
    • 𭩎􁖯重複,後者註銷。(2023/05/28)
    • 𮕹􃕪重複,後者註銷。(2023/05/27)
    • 󱅙󵐨重複,後者註銷。(2023/05/25)
    • 𫬴󳩏重複,後者註銷。(2023/05/25)
    • 𬘑󽳙重複,後者註銷。(2023/05/25)
    • 󻆾􃨱重複,後者註銷。(2023/05/24)
    • 𠕊􃣗重複,後者註銷。(2023/05/22)
    • 󻚑􀋦重複,後者註銷。(2023/05/22)
    • 󲦞􀋝重複,後者註銷。(2023/05/22)
    • 󴆖􀺘重複,後者註銷。(2023/05/21)
    • 󳟅􁄖重複,後者註銷。(2023/05/21)
    • 󺴼󿉏重複,後者註銷。(2023/05/21)
    • 󳆿􀏛重複,後者註銷。《教育部異體字字典》官網宋體字形誤作「羊頭」。(2023/05/20)
    • 󾀇􁮲重複,後者註銷。(2023/05/20)
    • 󲰕􀔠重複,後者註銷,字形依後者。(2023/05/20)
    • 󲳧􀛤重複,後者註銷。(2023/05/19)
    • 󳍂􃐊重複,後者註銷。《教育部異體字字典》官網宋體字形誤作「羊頭」。(2023/05/18)
    • 󱼙􃪘重複,後者註銷。(2023/05/18)
    • 󳅍􁠬重複,後者註銷。《教育部異體字字典》官網宋體字形誤作「羊頭」。(2023/05/18)
    • 󳇌􁠮重複,後者註銷。《教育部異體字字典》官網宋體字形誤作「羊頭」。(2023/05/18)
    • 󳇂􁠭重複,後者註銷。《教育部異體字字典》官網宋體字形誤作「羊頭」。(2023/05/18)
    • 󳎽􁠯重複,後者註銷。《教育部異體字字典》官網宋體字形誤作「羊頭」。(2023/05/18)
    • 𠛝󵒱重複,後者註銷。(2023/05/09)
    • 󹿹􀧩重複,後者註銷。(2023/05/08)
    • 󾬣􅍎重複,後者註銷。(2023/04/30)
    • 󰵅􅚫重複,後者註銷。(2023/04/30)
    • 󽍗􁑊重複,後者註銷。(2023/04/30)
    • 𪳙􀡚重複,後者註銷。(2023/04/30)
    • 「顨」CNS字形作「⿱𩔊廾」,不合《說文》,歷代字書亦都不作此形。改依《說文》,「顨」、「󶭎」字形交換。(2023/04/28)
    • 󳐛􁡮重複,後者註銷。《教育部異體字字典》官網宋體字形誤作「羊頭」。(2023/04/28)
    • 󳎍􁡭重複,後者註銷。《教育部異體字字典》官網宋體字形誤作「羊頭」。(2023/04/28)
    • 「􁡲」字形修正作「草頭」。《教育部異體字字典》官網宋體字形誤作「羊頭」。(2023/04/28)
    • 󳋤􁡱重複,後者註銷。《教育部異體字字典》官網宋體字形誤作「羊頭」。(2023/04/28)
    • 𦷥􁡰重複,後者註銷。《教育部異體字字典》官網宋體字形誤作「羊頭」。(2023/04/28)
    • 𮑇􁡨重複,後者註銷。《教育部異體字字典》官網宋體字形誤作「羊頭」。(2023/04/27)
    • 󰫞􁊫重複,後者註銷。(2023/04/27)
    • 󷜡􁉤重複,後者註銷。(2023/04/27)
    • 「􁝯」字形修正作「草頭」。《教育部異體字字典》官網宋體字形誤作「羊頭」。(2023/04/27)
    • 󳆈􁝰重複,後者註銷。《教育部異體字字典》官網宋體字形誤作「羊頭」。(2023/04/27)
    • 󱀫􁝱重複,後者註銷。《教育部異體字字典》官網宋體字形誤作「羊頭」。(2023/04/27)
    • 「󾤽」字形修正作「⿰𢀴頁」。《漢字海》字形失真,據《集韻》改。(2023/04/24)
    • 󰗏󱧷重複,後者註銷。(2023/04/22)
    • 󺤲󺥗重複,後者註銷。(2023/04/22)
    • 󰶛󹘎重複,後者註銷,字形依後者。(2023/04/22)
    • 贩􁶾重複,後者註銷。(2023/04/20)
    • 𥦗􁂄重複,後者註銷。(2023/04/20)
    • 𢡷󰳁重複,後者註銷,字形依後者。Unicode 據《漢語大字典》第一版收錄之字形失真。(2023/04/19)
    • 󹵛􂻱重複,後者註銷。(2023/04/18)
    • 󴮥􂃢重複,後者註銷。(2023/04/18)
    • 󱂸󿘒重複,後者註銷,字形依後者。(2023/04/18)
    • 𮉐􁌉重複,後者註銷,字形依後者。(2023/04/18)
    • 𮊌􁈺重複,後者註銷。(2023/04/16)
    • 丹󵋰重複,後者註銷。(2023/04/16)
    • 𭠭􂵆重複,後者註銷。(2023/04/16)
    • 𨋸􀂭重複,後者註銷。(2023/04/16)
    • 𪹳􀪐重複,後者註銷。《教育部異體字字典》官網字形失真。(2023/04/16)
    • 𥃐􄡛重複,後者註銷。(2023/04/15)
    • 󺹸􁏯重複,後者註銷。(2023/04/15)
    • 󻹖􁔦重複,後者註銷。(2023/04/14)
    • 𦚰􁕎重複,後者註銷,字形依後者。(2023/04/13)
    • 󽩐􂵀重複,後者註銷。(2023/04/13)
    • 󲱒􁫼重複,後者註銷,字形依後者。(2023/04/13)
    • 𤓖􀪇重複,後者註銷。(2023/04/13)
    • 󼋃􀪆重複,後者註銷,字形依後者。(2023/04/13)
    • 䆮􀟟重複,後者註銷。(2023/04/13)
    • 󰬷􂨻重複,後者註銷。(2023/04/11)
    • 󲳆􂫶重複,後者註銷。(2023/04/11)
    • 󺬆􄅪重複,後者註銷。(2023/04/11)
    • 「萒」字形修正作「⿱艹兖」。台標字形「萒」與「𦳆」完全相同,重複收錄。修正後,萒􃮆重複,後者註銷。(2023/04/10)
    • 「󱿏」字形中的四個「㐅」修正作「又」。《漢字海》字形錯誤。(2023/04/09)
    • 󳻔􀔻重複,後者註銷。(2023/04/06)
    • 󿌶􁿍重複,後者註銷。(2023/04/05)
    • 𮈔􄸭重複,後者註銷。(2023/04/05)
    • 󱄑􃊴重複,後者註銷。(2023/04/04)
    • 𮖐􁬤重複,後者註銷。(2023/04/04)
    • 𭖒󾻎重複,後者註銷。《中華字海》字形不清晰,據《直音篇》確認。(2023/03/30)
    • 󱟝󵕉重複,後者註銷。(2023/03/28)
    • 𥮟􁄜重複,後者註銷,字形依後者。Unicode 官方字樣應誤,此字當為「󵤗(筐)」的缺筆避諱字,見《集韻》。(2023/03/28)
    • 𭅖󺽚重複,後者註銷。(2023/03/27)
    • 「􂰗」字形修正作「⿰忄𭅖」。《教育部異體字字典》官網字形錯誤。(2023/03/26)
    • 「􀓧」字形修正作「⿰木𭅖」。《教育部異體字字典》官網字形錯誤。(2023/03/26)
    • 󽔌􄶰重複,後者註銷,字形依後者。《漢字海》字形應誤。(2023/03/26)
    • 「𭅖」字形修正作「⿸󰎀王」。Unicode 官方字樣應誤,此字當為「匡」的缺筆避諱字。方成珪《集韻考正》:「案:宋本凡『匡』字皆作『𭅖』,葢避廟諱也。」(2023/03/25)
    • 「􁱄」字形修正作「⿰訁􀲲」。《教育部異體字字典》官網宋體錯誤。(2023/03/24)
    • 󻚇􄽨重複,後者註銷,字形依後者。(2023/03/23)
    • 󶚚􄙵重複,後者註銷。(2023/03/20)
    • 󿐏􅀪重複,後者註銷。(2023/03/20)
    • 󳄋􁝝重複,後者註銷,字形依後者。(2023/03/20)
    • 󺡛􁕚重複,後者註銷。(2023/03/20)
    • 󳹇󵔼重複,後者註銷,字形依後者。(2023/03/19)
    • 󻱛􀊙重複,後者註銷。(2023/03/08)
    • 󾧙􁶩重複,後者註銷。(2023/03/06)
    • 󾩗􂚎重複,後者註銷。(2023/03/03)
    • 󹺠􂢊重複,後者註銷。(2023/03/03)
    • 󱼬􀾞重複,後者註銷。(2023/03/02)
    • 𥏾􃨮重複,後者註銷。(2023/03/02)
    • 𤔡􀦋重複,後者註銷。(2023/03/02)
    • 𱳤󼳄重複,後者註銷。(2023/03/02)


    本分隔線以下已更新處理
    • 𮘈􁰩重複,後者註銷。(2023/02/06)
    • 󰦻􁂻重複,後者註銷。(2023/02/02)
    • 󵾘􃨋重複,後者註銷。(2023/02/01)
    • 𦃟󿗈重複,後者註銷。(2023/02/01)
    • 肊􁗀重複,後者註銷。(2023/01/31)
    • 𭺗􀪲重複,後者註銷。(2023/01/28)


    本分隔線以下已更新處理
    • 𦒇󽬰重複,後者註銷。(2023/01/14)
    • 𥉢󵡮重複,後者註銷。(2023/01/14)
    • 󻬀􁯤重複,後者註銷,字形依後者。(2023/01/09)
    • 𫵔󸭠重複,後者註銷,字形依後者。(2023/01/08)
    • 瀛󴚘重複,後者註銷。(2023/01/07)
    • 𫟒􁟻重複,後者註銷。(2023/01/06)
    • 𮉾󺤂重複,後者註銷。(2023/01/03)
    • 「􂔫」字形修正作「⿰󰒲頁」。《教育部異體字字典》官網宋體錯誤。(2023/01/03)
    • 𠱗􁫮重複,後者註銷。(2022/12/31)




    4 則留言:

    1. 太感謝了!祝福您新的一年中完成更多計畫,造福大眾!
      (感覺好累,不太像祝福?XD)

      回覆刪除
      回覆
      1. 謝謝!也祝福您新的一年事事順利!

        刪除
    2. 已转发,感谢大佬,祝春节愉快。

      回覆刪除