WFG: 漢字使用環境的建置 —

2021年7月9日星期五

漢字使用環境的建置 —— 追加三千漢字

☆ 2023/10/11 更新，詳情請見漢字使用環境的建置 —— 部件檢索重要更新暨 Unicode 15.1 全宋體更新。

三月底我與 suns99 兄完成了《漢字海》三萬多字頭的追加工作後，略事休息，馬上又投入了《中華字海》的字頭清理工作。雖然《漢字海》這本後出的字典幾乎涵蓋了《中華字海》的大部分字頭，但仍有一小部份《中華字海》字頭是其他字典所沒有收錄的。最終，清理出了三千多字，追加補入字庫，將字庫的字量提升到 155070 字。至此，全宋體這個大型字庫，收齊了 Unicode 13.0、CNS11643、目前收字最多的三大字典：《漢字海》、《中華字海》、《漢語大字典》，以及《玉篇》、《廣韻》、《集韻》、《康熙字典》等歷代字書、韻書的所有字頭，能夠提供閱讀者、文獻整理者、學界專家們更精準的漢字呈現與檢索，希望能為漢字文化的推廣、延續盡上一點點棉薄之力。

有關《中華字海》的字頭，目前可見整理得較完整的，大概就屬字海網。這次的清理，基本上便是在字海網整理的基礎上，將沒有對應到 Unicode 的圖片字頭拿出來進行清理。

我的法子大概是這樣：先將 23567 個圖片字頭轉製成一個臨時性的工作字型，安裝好這個工作字型後，這些圖片字便能在一般的純文字編輯器中顯示。接著由 suns99 兄接力，用倉頡輸入法試著將這些「字」一一打出來。如果打得出，表示字庫已收，可用既有字來對應；如果打不出，表示字庫未收，應該新增補入字庫。完成後，將所有未收字的字形抽取出來，重新加以編碼補入現有字庫。最後再對這些新增字一一補上拆分數據，加進部件檢索之中。

整個程序說起來很簡單、很笨，但卻也是目前我所能做到，最有效率的方式。借重 suns99 兄的倉頡快手，正事之餘有空就幫忙打一些，前後歷時約一個月，才將這兩萬多個圖片字頭繕打完一遍。又經過我一陣地複驗、調整，最後才定案收字。收字後工作並未結束，還得為這三千多個新增字編上拆分數據，我打字實在不行，最後仍得央得 suns99 兄出馬，為這些字打上拆分數據。所以這次整個程序幾乎都是由 suns99 兄出力，沒有他，這些旁人眼中不可能的任務，根本也就不可能完成。

完成之後，我並沒有馬上發布這些成果（一方面也是發懶），而只是提供幾位長期的好友試用，藉由他們的反饋，陸續修訂一些疏漏，將一些重複收錄或者差異過微的字予以整併，如此又過月餘。

如今，修整暫告一段落，我遂將這些成果發布出來。利用這次發布的字庫，能將目前收字最多的三大字典：《漢字海》、《中華字海》、《漢語大字典》的所有字頭全部納入索引，不著任何一個圖片字，這應該是目前為止唯一能辦得到的字庫，相信這對進一步的漢字整理與應用會有不少的幫助。

新增的三千多個漢字中，約有一半我利用字形維基的「《中華字海》字表」取得了品質略好的字形，另一半則字形維基也尚未建立對應字形，只得維持用掃描圖片轉製的字形。由於掃描圖片的解析度不夠，轉製的字形品質很差，只能勉強使用，這點有待日後再慢慢改善（也徵求會使用造字軟體的造字志工，能夠長期協助修整改善字形）。另外值得注意的是字形維基的《中華字海》字形有不少造字錯誤，我已儘量修復，若使用時發現字形與拆分有出入時，請反饋給我修正。

下一步計畫要挑戰困難度更高的《教育部異體字字典》，這大概是我藉助大型字典來收字的最後一戰，能否竟全工，實無把握。若成，則十數萬漢字的橫向聯繫脈絡樹立，字庫的專業完整度又將上一個層級，以後便只維持依據辭書所缺少量收字了。

樂見學術研究、教育工作、個人閱讀這方面的運用，但請勿用做任何形式的商業營利行為。希望「全宋體」這個字庫以及「部件檢索」這個檢字工具，能在漢字文化的整理、研究上幫上一點小忙。

下載連結：全宋體.zip

下載連結：部件檢索(測試版).7z
下載連結：倉頡碼表.7z (由於每個人的習慣不同，僅保留漢字部分，請自行併入您慣用的碼表)

p.s. 這次的更新除了《中華字海》的追補字外，其實還包含了一些其他的新增字，其中比較值得提醒大家注意的是八個下一版 Unicode 預計會發表的候選字，由於碼位大概不會有什麼意外變動，所以我提前將他們加進字庫裏搶先使用（目前字海網也已經收錄了這幾個 Unicode 候選字）。他們分別是：U+09FFD 鿽（⿰口窄）、U+09FFE 鿾（⿰土郎）、U+09FFF 鿿（⿱甫󰓢）、U+2A6DE 𪛞（⿰⺩荣）、U+2A6DF 𪛟（⿰目王）、U+2B735 𫜵（⿴𰀪⺀）、U+2B736 𫜶（⿰⺼敦）、U+2B737 𫜷（⿰寿⻏），其中有六字原先已收錄在補充字裏，故提醒大家若有用到這些字，請記得儘速將他們遷至官方定義的碼位，因為隨著這次的更新，已經註銷了這六個補充字，並移作他用。

下載連結：候選字遷碼表.7z

174 則留言:

Walter Pai2021年7月9日下午5:39
感謝您無私的付出，也期待異體字典早日完成！
回覆刪除
回覆
VimVim2021年7月10日上午8:50
感谢不断完善！打包了一个 mdx 方便日常使用：

https://forum.freemdict.com/t/topic/5576
回覆刪除
回覆
VimVim2021年7月10日下午4:09
反馈：在简体中文的Win10中目前安装全宋体后，漢字簡易測試.txt的擴展B區、和擴展C區最右侧依然为「豆腐」字

详见截图：https://forums3cdn.471901.xyz/original/2X/c/ced4a8798869d4ecd9ce70c13ccd259ddface525.png
回覆刪除
回覆
Walter Pai2021年7月10日下午5:46
在您製作的《說文》中，將「卺」這個字與「𧯷」關聯，但「卺」當為「巹」的異體字，因此實當與「巹」關聯才對。

由於這篇是較新的文章，因此留言在此，不好意思！
回覆刪除
回覆
Hsien2021年7月12日下午3:45
感謝您的努力，
在cjk-ext-G中，30713的字型有誤，30713應是氵𡬧。您的字體中30713=3071E氵穾。
回覆刪除
回覆
Mastameta2021年7月13日晚上11:20
好極了，謝謝！
回覆刪除
回覆
Mastameta2021年7月13日晚上11:58
請教，有沒有辦法讓所有FSung層次利用同一個 family name? （目前我在EmEditor和其他軟件只能選其中一個。只有html/mdx利用font-face才能同時用所有層次。）

理論上 FontForge 可以改 family name，讓它們的family名稱統一起來。但我光打開FSung-2，沒裝載完，FontForge就崩潰了。
回覆刪除
回覆
Mastameta2021年7月21日凌晨2:47
請問全宋體有沒有這個字？
https://imgur.com/o70Qer3
來自漢語大字典，34頁。

我用“𤮺”來查，找不到。

“𦣹”是另外的字：
https://imgur.com/MNA2CA4
漢語大字典，339頁。
回覆刪除
回覆
Mastameta2021年7月21日凌晨3:02
我用FontLab把FSung-m、1、2、3、F註冊為同一個字體組，讓EmEditor能利用其所有層次。感興趣的話，我貼上來，當做參考資料。五個字型的Typographic style name (TSN；簡稱Style name)都標成'Regular'（默認屬性），所以寫法還算是規範的。
https://imgur.com/TDGUDko

字體組的成員，一般是屬性不同，但西區字不需要面對65,535字的限制，所以沒必要像全宋體把同一個屬性的字體分別包成不同字型。這些模式是配合西區字體而設計的，處理漢字可以活用。

回覆刪除
回覆
Mastameta2021年7月22日下午5:04
類推簡化字挺麻煩的。目前沒有這個字“马犮”。大字典4838頁。
“马又丑”大字典4850頁。
回覆刪除
回覆
Mastameta2021年7月23日下午3:51
大字典4838頁，正體“䮂”與簡化“𱅄”：
https://imgur.com/ollrUAn

簡化字的部件卻是“马󰝼”---我當時把部件搞錯了。

我當時疑惑，涉及到同個碼位不同字形的問題。
Unicode的reference glyphs:
https://imgur.com/kn2atol

https://imgur.com/XlpJ4PA

看來，“犮”（72AE）跟“󰝼”（全宋體F077C)，如果跟“馬”偏旁幷在一起，就只有一個碼位：“統一”的4B82。
全宋體把4B82的結構當做“馬犮（舊字體）”，所以用“馬󰝼”（F077C）來搜就沒有字。總之，漢語大字典的“䮂”字體，不能用全宋體顯示，除非給它造個私有區字。
我當時要打這個簡化字時，沒考慮到舊字體、新字體的問題和“統一碼”的限制。
回覆刪除
回覆
Mastameta2021年7月29日下午4:25
Unicode 14.0草稿發了U+2B738：
https://imgur.com/XFa0yjC
https://www.unicode.org/charts/PDF/Unicode-14.0/U140-2A700.pdf

目前這個字形掛在全宋體F6825。
回覆刪除
回覆
Mastameta2021年8月4日晚上11:31
https://imgur.com/wUfHFBi
𪤔、𫎠的拆分是否該是“戸”？

𪤔，全字庫（TW-Sung-Ext-B-98_1.ttf）：
https://imgur.com/o1dF8un

𫎠：
https://imgur.com/fkzcIVs

關於：
啓 5553
啟 555F
啓 2F843
三戶三啓，最終沒有康熙字體的“啟”，呵呵，有點可惜。
回覆刪除
回覆
Unknown2021年8月9日晚上11:25
哇……我这外行只能感叹
回覆刪除
回覆
Ahsum2021年8月11日晚上10:04
請問有而比這個字嗎? 檢索找不到
回覆刪除
回覆
Mastameta2021年8月16日晚上9:35
忘記加拆分：󿆼@qpko
𱁭@靑㝎→青㝎 Code Chart只有一個字形，來自大字典（4314頁）。
𭟹𮂂𮃻𮐻𮞭𮨘拆分為㠯，應該是㠯吧。
𰯽𰯾𰯿𰰀𰰁𰰃𰰄𰰅𰰆𰰇𰰈𰰉𱃺拆分為舌820C，CNS好像沒有編碼，看來應該是󰐦F0426。
𤫴 24AF4 採用T6-3958字形；居然跟細明字型不合（我以為細明採用台灣標準，沒想到還有差距。）讓我疑惑的是，全宋體又有“󰳕”F0CD5（⿰失瓜）私有區字，可不可以說一下這個用意。
回覆刪除
回覆
Mastameta2021年9月1日下午4:18
𥆮 251AE
來源：GHZ(漢語大字典1e)-4.2489.06
https://imgur.com/HMjpzYv

漢語大字典，第二版，2664頁，字形是“目圠土”，而不是251AE的“目圠上”：
https://imgur.com/TjC5S74

我想提的是，全宋體私有區F0CCA（目圠七）也跟大字典不合：
https://imgur.com/ZE4eNgZ

全宋體這個字碼跟開心宋重疊，說明早期引進了開心宋字形，但F0CCA後來跟開心宋有脫離，不知為啥。開心宋這個字形符合大字典。
回覆刪除
回覆
Mastameta2021年9月3日凌晨4:31
https://imgur.com/PIuk1Gd
https://imgur.com/K9epk2y

21660跟台源字形不合；好像用了2165B字形。
回覆刪除
回覆
Mastameta2021年9月3日凌晨4:52
𩀱29031 雔夂5902
󰲜F0C9C 雔攵6535

勾選“包容異體”，A部件查不出B字，B部件查不出A字。

程序目前有：
"590A":"5902"

也許可以再加：
"5902":"6535"
回覆刪除
回覆
Mastameta2021年9月3日晚上8:45
https://imgur.com/iW0utWJ

來源：GHZR(漢語大字典2e)-74003.07
https://imgur.com/q6QEVEw
回覆刪除
回覆
Mastameta2021年9月6日晚上10:36
https://imgur.com/fvJLALY

據我理解，FAA4（字表：疒𥄳）為《全宋體》再次挪用，當「疒罒󰌬」（即761D日源、韓源字形）。

既然如此，FAA4拆分可以更新：「疒罒󰌬」或「疒罒󰌬!疒𥄳」。
回覆刪除
回覆
Mastameta2021年9月6日晚上11:30
https://imgur.com/ZPj96IE

拆分應當改成或加上：「木卻」。
回覆刪除
回覆
Mastameta2021年9月7日凌晨12:34
󰊧F02A7
𦭝26B5D
前者是「羊罒」；後者在搜尋功能方面，等於是「草罒」，但字形反而从「羊」（因為採取T6-333E字形）。從使用《部件檢索》角度來說，「𦭝26B5D」的搜尋功能跟他的長相出矛盾，讓人疑惑。

既然26B5D需要符合台灣標準字形，可以考慮讓兩個部件交換功能：讓26B5D辦F02A7目前的「羊罒」功能；然後把F02A7改成明確的「草罒」部件。

那是大話題哈哈，接著提出區區修改：CDEFG區需要重新處理「草罒」：
𫉼、𬁜、𬰖、𬴱、𬹛、𭋥、𭟭、𭲿、𭳡、𮄥、𮄦、𮓅、𮜤、𰵉、𰿃、𱆕、𱈙、𱈛
都應當歸草。

𭟤、𭬽、𮒽、𮓏
已經修過，不用改。

回覆刪除
回覆
Mastameta2021年9月9日凌晨1:55
14.0的字：𫜸2B738
https://imgur.com/JMcVNNP

不知道全宋體是否已經分配了字形。若採取「T5-2160」字形，就會跟叱2F83A 字形重複，等於把「口bǐ匕」字形從相容區搬到正式字集而已。
https://imgur.com/9QDYEhO

來源：GHZR(漢語大字典2e)-20619.05：
https://imgur.com/rX2fZBk

部件檢索分辨「匕、󰉿、𠤎」部件。
2B738既然讀huà，我推測他的聲符是「huà𠤎」的訛文。（字形接近的「chì叱」，聲符實際上是「七」。）所以2B738不應該取用「T5-2160」字形。不知道你對這個怎麼看。
回覆刪除
回覆
Mastameta2021年9月9日凌晨2:05
我在這樓有一堆刪掉帖子的痕跡，請你把痕跡也刪了，包括這個帖子。
blogspot 沒有重新 edit 的功能，讓我覺得煩惱，我習慣先貼再修呵呵。
回覆刪除
回覆
Mastameta2021年9月9日下午5:29
全宋體 277F1、277F5 字形是重複的。

https://imgur.com/hegNFfa
https://imgur.com/RXqjmLn

而且，雖然“𧟱277F1”字形是“覀服”，拆出來是“襾服”。

277F1來源；GKX(康熙字典9e.1958)-1129.01
277F5來源：G4K(四庫全書)-18240
回覆刪除
回覆
Mastameta2021年9月9日晚上10:39
󲆸
拆分：亠夕㇃丶
改成：亠夕㇂丶

除了形狀方面，“㇃”部件也只出現在這一個字；不如部件合併。
回覆刪除
回覆
Mastameta2021年9月9日晚上11:08
我建議設個特殊的“救命啊”部件，讓它在搜尋方面包含著所有超級罕見的部件。需要勾選“包容異體”才能用上這個特殊部件。

這是針對“部件鍵盤”的設計。使用者對鍵盤的需求是有矛盾：一方面，需要常用的部件；另一方面，部件檢索畢竟是來查僻字，所以鍵盤需要提供（普通輸入法）打不出來的部件。（補一句：不但打不出來，用拆分法也不方便拆出來的又元素又奇怪的部件。）問題是：把一堆罕用、難輸的部件堆在鍵盤太繁雜，又大佔空間。不如造個特殊部件來包括這種超級罕見的雜類。
回覆刪除
回覆
Mastameta2021年9月9日晚上11:19
舉個例子：
𡆢211A2
拆分：囗α

使用者若不知道要打“α”，就完蛋了，要去翻所有“囗”部件的字。

若有“🚑救命”部件，用鍵盤打“囗🚑”就得了。
回覆刪除
回覆
Mastameta2021年9月10日凌晨2:21
14.0，舊字更新了字表：

3777、6AC0
https://imgur.com/eMUoNBk
https://imgur.com/TWZzy47

22ADC、230F2、25B27、26F28
https://imgur.com/71erGqd
https://imgur.com/XvyDGX2
https://imgur.com/4HgRpZR
https://imgur.com/yU4bDS3
回覆刪除
回覆
Mastameta2021年9月10日上午8:08
全宋體，𥡤25864、𥡱25871 字形重複。
https://imgur.com/C5gDvkd
回覆刪除
回覆
Mastameta2021年9月10日上午8:52
這個挺怪的：𦭠26B60、𦭫26B6B 字表一樣。
https://imgur.com/QE9UuVk
https://imgur.com/RKI1woC

全宋體應當讓兩個字形交換。

𦭠26B60：GHZ(漢語大字典1e)-53194.03
第二版：https://imgur.com/c9XTQQO
回覆刪除
回覆
Mastameta2021年9月10日下午3:48
21F2C、21F12 不合字表。要互相替代。
https://imgur.com/0zuk3gJ
https://imgur.com/hY6Ink1
回覆刪除
回覆
Mastameta2021年9月10日下午4:00
𢡍2284D，只有中華書局符合字表。
https://imgur.com/iNRwQfY
https://imgur.com/yYBpOuR

而且，全宋體字形跟 󰳀F0CC0 重複。

回覆刪除
回覆
Mastameta2021年9月10日下午4:25
𦒯264AF 應當怎麼寫拆分？
𠷎殳羽
𣪾羽
合併兩個部件，搜尋方面有何區別？
回覆刪除
回覆
Mastameta2021年9月10日下午5:05
󴕠F4560 缺形；按拆分，有意取用𠍶20376 陸源字形。

https://imgur.com/JmHF99V
回覆刪除
回覆
Mastameta2021年9月11日下午3:24
𱄗31117 與字表不合：
https://imgur.com/jupyjRs
：馬󰛖

𦫉26AC9
：舟龜||舟󰱗

󸓿F84FF
：囗龜||囗󰌢？
回覆刪除
回覆
Mastameta2021年9月11日下午4:41
𨞤287A4 不合字表：
https://imgur.com/Cp6zYtz
https://imgur.com/MoB77hK
回覆刪除
回覆
Mastameta2021年9月11日晚上11:50
嶶，港字，PUA有一模一樣的字形。兩個不是擴展區字--被淘汰PUA字的關係，所以奇怪。
https://imgur.com/hqSCQjq
回覆刪除
回覆
Mastameta2021年9月12日凌晨3:21
襔8954，全宋體用細明字形，細明不合字表。
https://imgur.com/jGRik5I

屬於香港核心課程。我沒用過，但知道 mingliu.ttc 有一層是港字字形；本來想...這個細明字與眾不同，也許是針對香港而造的，但字表提供的香港規範字形不是長得那樣。奇怪。

據kIRGHanyuDaZidian，這個字排在第一版5.3113.161
但後面那個“1”號應當代表理論上的排次，而不是具體的位子。（“1”號只佔55812條的1260。）
回覆刪除
回覆
Mastameta2021年9月12日清晨6:15
柡67E1：木二水||木永

參考栐6810 日、越字形。《教育部異體字字典》漏掉“栐”。

回覆刪除
回覆
Ahsum2021年9月14日下午2:50
請問有牜周這個字嗎? 檢索找不到
https://imgur.com/HjvqLqg
回覆刪除
回覆
Mastameta2021年9月18日凌晨3:49
建議讓𡺛21E9B、𡸓21E13 部件可以彼此查出來（若勾選“無理拆分”）：
𡺛21E9B@山仌丨仌
改成：@山丨𠈌!屮𠈌
（𡺛21E9B 是大字典第一版的字頭；𡸓21E13 是第二版字頭）

這些“仌仌”、“从从”，可以考慮合併為“𠈌”：
󱺢@仌仌@从从
𡺛@山仌丨仌
󻷱@爫冂仌丨仌王
󻸆@爫冂仌丨仌𨐌
󽗱@爫冂仌丨仌虫
󾁙@爫冂仌丨仌見
󾘵@門冂仌丨仌
𤑼@火日仌丨仌亏
𤳋@𠆢仌丨仌田
𤻣@疒仌丨仌一日
𡹽@山仌乚仌
󾟠@釒󰊸仌工仌

󻴦@𠃊止从一从斤
𠚕@凵从一从
󳳴@山凵从凵从
󷝀@󸸤从一从𠃊
𣦊@止从一从
𢍩@从囗从廾
󶼽@𠃊从日从
𦠗@仌仌仌⺼

還有，拆分中的仌4ECC、仌2F819 兩個部件，是否應該統一。2F819在拆分出現4次。
回覆刪除
回覆
Mastameta2021年9月18日下午1:23
𫠦2B826 不合字表：
https://imgur.com/tVxyS7C
回覆刪除
回覆
Mastameta2021年9月27日晚上8:31
󻘢FB622
⺸2EB8

既然兩個字形一樣，FB622沒有提供特別的用處，我覺得。
2EB8雖然屬於CJK Radicals Supplement而不是正集的字，他畢竟是標準字碼。
除了全宋體字集以外，這也涉及到部件檢索用的拆分。拆分方面，兩個是同等意思，不如用標準碼。
回覆刪除
回覆
Mastameta2021年9月27日晚上8:49
󻘢FB622
⺸2EB8

既然兩個字形一樣，我在想值不值得另外造出私有區的FB622。
2EB8雖然屬於CJK Radicals Supplement而不是正集的字，他畢竟是標準字碼。
除了全宋體字集以外，這也涉及到部件檢索用的拆分。拆分方面，兩個是同等意思，不如用標準碼。
回覆刪除
回覆
Mastameta2021年9月28日下午4:34
“不好擅改它的字形”

為了糾正2EB8，全宋體另外造字，難道不是“擅改”？曹操擁護獻帝，遷都許昌，今日叫他君主，明日自稱皇帝。這個FB622不就是許昌嗎？

弄出許昌，不如重建常安，把2EB8建構為“艹干”，上短下長。

“含有⺸2EB8 的只有 1 個”

這也證明2EB8是有問題的。部件檢索既然把這個“supplemental radical”的字員都奪走了，剩下只給他一個字，它究竟還算是“radical”嗎？全宋體雖然名義上沒“擅改”，但部件檢索的拆分才是實力，把字員都歸於FB622。要篡位，就徹底吧哈哈。

我正在修改王力字典的數據，發現方正也不接受2EB8的字形，所以另外造個F10E4。
https://imgur.com/7malwC5

又有許昌又有鄴。天下好多私有明堂，好亂哈哈。
回覆刪除
回覆
Mastameta2021年10月28日晚上8:59
𤪬：⺩𥈜‖⺩𥈜
拆分有重複
回覆刪除
回覆
Mastameta2021年10月28日晚上9:00
𥍙：󰒤󰒤󰒤‖󰒤󰒤󰒤
回覆刪除
回覆
Mastameta2021年11月13日晚上7:19
FSung BMP區字型有大概5,000非標準codepoint的glyph name，開頭是”_”。大概是替換字形之後，自動重新命名。除非有特別意義保留，刪掉能減體積。
回覆刪除
回覆
Mastameta2021年11月13日晚上7:24
商業字型偶爾用"_X"當做element，用在不同glyph，免得重複字形的成分，但FSung的“_”看起來不是這類的。
回覆刪除
回覆
Mastameta2021年11月18日凌晨1:23
建議：
󰊊：丅口丄 or 󶌽二
回覆刪除
回覆
Ahsum2021年11月19日上午9:19
請問有艸吐這個字嗎? 檢索找不到
回覆刪除
回覆
Mastameta2021年11月29日下午5:03
2FA1A鼏、鼏9F0F，字形重複。應當由區分，參照T5-5351。
回覆刪除
回覆
Mastameta2021年11月29日下午5:04
應當有區分
回覆刪除
回覆
Ahsum2023年1月20日清晨7:16
請問有穴角嗎? 在最新版沒找到。https://imgur.com/9SyWLxc
回覆刪除
回覆

新增留言

訂閱：張貼留言 (Atom)

2021年7月9日 星期五

漢字使用環境的建置 —— 追加三千漢字

174 則留言:

2021年7月9日星期五