2022年6月10日 星期五

漢字使用環境的建置 ——十八萬漢字初稿登場

去年底我與 suns99 兄初步完成了《教育部異體字字典》宋體字頭的清理工作後(尚有 13830 個手寫字形待清理),本來打算休息一年,先把工作重點放在拆分數據的完善上。結果阿文兄硬是不讓我休息,跳出來說要幫忙清理手寫字形的部份,呵呵!計畫趕不上變化,於是只好牙根一咬繼續拼下去了。在經過波波折折、兩度重新編碼後,終於在半年後完成了全部的清理工作,共新增 8289 個手寫字形至字庫,《教育部異體字字典》的所有字頭全數「文字化」。至此「全宋體」這個大型字庫,收字正式突破了十八萬漢字,涵蓋了四大字典(《漢字海》、《教育部異體字字典》、《中華字海》、《漢語大字典》)的所有字頭,應該足供專業等級的漢字應用。


收字的工作雖然「大勢底定」,但後續尚有兩、三萬字的拆分數據需要優化,只能繼續「長期抗戰」。先將這「並不完善」的「全宋體」字庫初稿發布出來,讓大家能先使用,也為這波大型字典的清理工作正式做一個 Ending。

《教育部異體字字典》的字頭全數「文字化」,對我來說是一個重要的里程碑。盼了多年,沒想到真有實現的一天,到現在還有些微「美夢成真」的不真實感。這些《異體字字典》的字頭,對於古籍的數位化具有相當程度的幫助,可以大幅減少缺字的機會,有利於加速古籍的數位化整理,希望有更多的「有志之士」能投身到這個領域,將這些資源進一步地發揚光大。

由於全數「文字化」了,《教育部異體字索引字典》已經不再需要字頭圖片,所以原先的 mdd  檔已經不再需要,換上新版之後便可刪去(《教育部異體字索引字典》另文更新)。

很多字形相同的手寫字在官網上是以各自獨立的圖片呈現,彼此並不關聯。這些重複的手寫字,在整理的過程中都已經對應成同一字,也就是說它們都被關聯起來了,使用者查詢時,可以得到更全面的資訊,不會如官網般只能查得局部。《教育部異體字字典》現有字頭共 106315 字,若將同形字合併,實際收字 96800 字,略少於《漢字海》。

感謝阿文兄、suns99 兄,沒有他們的話,這失落的「最後一塊拼圖」也不可能這麼快就拼上去。在這裡還要感謝另一位好友 Mastameta,陸續提供了一些他手工精造的字形讓我替換掉品質較差的字,雖然數量還不多,但至少是慢慢走在優化的道路上,呵呵!

樂見學術研究、教育工作、個人閱讀這方面的運用,但請勿用做任何形式的商業營利行為。希望「全宋體」這個大型字庫以及「部件檢索」這個檢字工具,能在漢字文化的整理、研究上幫上一點小忙。

下載連結:全宋體.zip
下載連結:倉頡碼表.7z (僅保留漢字部分,請自行併入您慣用的碼表)

最後,將一些整理過程中記錄的工作日誌附在這裡,做為一個回憶與紀念:
  • 2021/12/31 阿文兄留言表示願意幫忙清理《異體字字典》手寫字頭。
  • 2022/01/03 將欲清理的 13826 個手寫字製成的臨時性字型檔及字頭表列檔發給阿文兄,正式啟動作業。
  • 2022/02/10 阿文兄完成清理,共還原 4661 字,還原率約為 34%。
  • 2022/04/06 結束位於 15 字面的《異體字字典》宋體字頭之拆分數據優化工作,開始處理手寫字頭。
  • 2022/05/06 阿文兄的還原字複驗完成,累計剔除不正確 482 字,故實際的有效還原為 4179 字,還原率約為 30%。
  • 2022/05/07 另行還原阿文兄未檢出的標準字 313 字,剔除重複字 55 字。
  • 2022/05/13 手寫字頭編碼完成。
  • 2022/05/16 更新全宋體、部件檢索及《異體字索引字典》,共 9279 個手寫字頭加進補充字,預備發布。發現阿文兄的失誤率有點高,suns99 兄開始進行複查,暫時取消發布。
  • 2022/06/06 suns99 兄複查完畢,9279 個手寫字中又還原了 990 字。
  • 2022/06/07 針對 suns99 兄的還原複驗完成。在兩位好友的協助下,實際的有效還原為 5169 字,還原率約為 37%。
  • 2022/06/08 手寫字頭重新編碼完成。更新全宋體、部件檢索及《異體字索引字典》,共 8289 個手寫字頭加進補充字,預備發布。



勘誤:



本分隔線以下已更新處理
  • 󴐕􀢓重複,後者註銷。(2022/09/14)
  • 󲀎􀰏重複,後者註銷。(2022/09/14)
  • 󽢠􀕢重複,後者註銷,字形依後者。(2022/09/14)
  • 󶶉􁁕重複,後者註銷。(2022/09/14)
  • 󼡐􀻗重複,後者註銷。(2022/09/14)
  • 󽆅􀧮重複,後者註銷。(2022/09/14)
  • 󰮏􀱏重複,後者註銷,字形依後者。(2022/09/14)
  • 󼍂􀦣重複,後者註銷,字形依後者。(2022/09/13)
  • 󱺴􀦯重複,後者註銷,字形依後者。(2022/09/13)
  • 󲡯󿳸重複,後者註銷。(2022/09/13)
  • 󴙻􀣼重複,後者註銷。(2022/09/13)
  • 󴙥􀣻重複,後者註銷。(2022/09/13)
  • 󿀤􀀺重複,後者註銷,字形依後者。(2022/09/12)
  • 「󱲝」修正作「⿱佛壼」。《中華字海》字形失真。(2022/09/11)
  • 󿋷􀠍重複,後者註銷,字形依後者。(2022/09/11)
  • 󴑓􀣄重複,後者註銷,字形依後者。《中華字海》字形失真。(2022/09/11)
  • 󳀖􀂖重複,後者註銷,字形依後者。(2022/09/10)
  • 󽯎􀦛重複,後者註銷,字形依後者。(2022/09/09)
  • 󸆪􁁫重複,後者註銷。(2022/09/09)
  • 󼴘􀕉重複,後者註銷,字形依後者。(2022/09/09)
  • 󻧂􀾗重複,後者註銷。(2022/09/09)
  • 󽡆􀸟重複,後者註銷,字形依後者。(2022/09/08)
  • 󼤪􀎮重複,後者註銷。字形依後者。(2022/09/07)
  • 󳚓􀎦重複,後者註銷。(2022/09/07)
  • 󼰫􀞊重複,後者註銷。字形依後者。(2022/09/07)
  • 󼰪􀞡重複,後者註銷。字形依後者。(2022/09/07)
  • 󼰯􀞋重複,後者註銷。(2022/09/07)
  • 󺾢􀑿重複,後者註銷。(2022/09/07)
  • 󼎷􀧰重複,後者註銷。(2022/09/07)
  • 󼉀􀩄重複,後者註銷。(2022/09/07)
  • 󴗜􀠅重複,後者註銷。(2022/09/07)
  • 󴖋􀢶重複,後者註銷。(2022/09/07)
  • 󶳫󼍻重複,後者註銷。(2022/09/07)
  • 𢫏󲼀重複,後者註銷。Unicode 15 修改「𢫏」字形,改作「⿰扌冚」。(2022/09/06)
  • 𰝙󴘊重複,後者註銷。Unicode 15 修改「𰝙」字形,改作「⿱邦清」。(2022/09/06)
  • 󻉢󿕔重複,後者註銷。(2022/09/01)
  • 󷶗󿘰重複,後者註銷。(2022/09/01)
  • 󽔯󿙾重複,後者註銷。(2022/09/01)
  • 「󲴑」修正作「⿵󰊲⿱󰌃土」。《中華字海》字形失真。(2022/08/31)
  • 𰂧󱽜􁚲重複,後二者註銷。(2022/08/31)
  • 󾲓􂛳重複,後者註銷。(2022/08/28)
  • 𢧼􁁝重複,後者註銷。(2022/08/21)
  • 「󿂉」修正作「⿺兀󲏺」。《中華字海》字形錯誤。(2022/08/14)
  • 「󱧘」錯誤字形,予以註銷。《漢字海》字形錯誤。(2022/08/05)
  • 􂧒󱲍重複,後者註銷。(2022/08/05)
  • 󰬶􃮙重複,後者註銷。(2022/08/01)
  • 󽍵􁒅重複,後者註銷。(2022/08/01)
  • 「󽭱」錯誤字形,予以註銷。《中華字海》、《漢字海》字形錯誤。(2022/08/01)
  • 󽢅􃎀重複,後者註銷。(2022/08/01)
  • 󺕐󾽐重複,後者註銷。(2022/07/27)
  • 󸽒󴔢重複,後者註銷。(2022/07/24)
  • 「󱓷」修正作「⿺九雨」。《中華字海》字形失真。(2022/07/23)
  • 「󲑭」修正作「⿱亠⿳󰉦囙分」。《中華字海》字形錯誤。(2022/07/20)
  • 󱇽􀞨重複,後者註銷。(2022/07/18)
  • 「󿩽」錯誤字形,予以註銷。(2022/07/17)
  • 𱇬󿩗重複,後者註銷。(2022/07/16)
  • 𮧻󾮘重複,後者註銷。《中華字海》字形略有失真。(2022/07/13)
  • 𰶍󿡷重複,後者註銷。《中華字海》字形錯誤。(2022/07/08)
  • 練󹨋重複,後者註銷。(2022/07/08)
  • 𮋅󿛥重複,後者註銷。(2022/07/08)
  • 􃕋󿛜重複,後者註銷。(2022/07/08)
  • 𪚨󿙜重複,後者註銷。(2022/07/07)
  • 𩖘􁼧重複,後者註銷。(2022/07/04)
  • 󰛕􂝌重複,後者註銷,字形依後者。(2022/07/03)
  • 󰛔􂓈重複,後者註銷,字形依後者。(2022/07/03)
  • 𭟢󽀔重複,後者註銷。(2022/07/03)
  • 𬐄󿘷重複,後者註銷。(2022/07/03)
  • 󾉰􁯭重複,後者註銷。(2022/07/02)
  • 󾊁􁯯重複,後者註銷。(2022/06/29)
  • 𥮵􁄑重複,後者註銷。(2022/06/29)
  • 𡹙􀛃重複,後者註銷。(2022/06/28)
  • 󼁝􀚀重複,後者註銷。(2022/06/27)
  • 𢲅􀃵重複,後者註銷。(2022/06/27)
  • 󼆢􀍢重複,後者註銷,字形依後者。(2022/06/27)
  • 𭗒􃨍重複,後者註銷。(2022/06/27)
  • 󱳢􀪵重複,後者註銷,字形依後者。(2022/06/26)
  • 𢗂󿘙重複,後者註銷。(2022/06/26)
  • 𭰹􀠚重複,後者註銷。(2022/06/26)
  • 「󿩀」修正作「⿰⿱󰐷米鳥」。《中華字海》字形錯誤。(2022/06/25)
  • 󼢶􅌤重複,後者註銷,字形依後者。《中華字海》字形錯誤。(2022/06/25)
  • 󼛃󿘟重複,後者註銷,字形依後者。《漢字海》字形錯誤。(2022/06/25)
  • 𫱲󿔓重複,後者註銷。(2022/06/24)
  • 󼒎􀾑重複,後者註銷。(2022/06/23)
  • 𡹴􃬦重複,後者註銷。(2022/06/23)
  • 「󿋤」予以註銷。《中華字海》字形錯誤。(2022/06/21)
  • 「󴐃」予以註銷。《漢字海》字形錯誤。(2022/06/21)
  • 𰛥󿋕重複,後者註銷。(2022/06/21)
  • 𥨏󿊿重複,後者註銷。(2022/06/21)
  • 𢧇󿊻重複,後者註銷。(2022/06/21)
  • 𢕧󿊕重複,後者註銷。(2022/06/20)
  • 「󰸬」予以註銷。《中華大字典》字形錯誤。(2022/06/20)
  • 帯󿉴重複,後者註銷。(2022/06/18)
  • 𰎽󿉬重複,後者註銷。(2022/06/18)
  • 𡈇󿉜重複,後者註銷。(2022/06/18)
  • 󱎝󿉐重複,後者註銷。(2022/06/18)
  • 󲳓􁼨重複,後者註銷。(2022/06/18)
  • 𠮠󿉋重複,後者註銷。《中華字海》字形錯誤。(2022/06/16)
  • 𭡌󿃯重複,後者註銷。(2022/06/16)
  • 𫟍􁜻重複,後者註銷。(2022/06/15)
  • 𦒣󿁉重複,後者註銷。《中華字海》字形錯誤。(2022/06/15)
  • 𦣼󾿎重複,後者註銷。(2022/06/15)
  • 󶭌􃯁重複,後者註銷。(2022/06/14)
  • 󺇨􁌥重複,後者註銷。(2022/06/13)
  • 󼮟􁍴重複,後者註銷。(2022/06/13)
  • 󶄇􁍵重複,後者註銷。(2022/06/13)
  • 𧁘󾾋重複,後者註銷。(2022/06/12)
  • 「󾾀」字形沾黏導致誤判,重新造字修正作「⿱葭廾」。(2022/06/11)



55 則留言:

  1. 想不到這部字典竟然會在這個時代重新復活,太不可思議了!衷心感謝!

    回覆刪除
    回覆
    1. 不客氣,希望對大家有所助益。

      刪除
  2. WFG 你好,最近我使用了全宋體補齊 "教育部重編國語辭典" 的私造字,使用中發現了1個全宋體的模糊字,以及 6個全宋體缺字的問題,在這邊回報一下

    https://cloud.freemdict.com/index.php/s/j8rtnQDMAj8PeKd

    回覆刪除
    回覆
    1. 您好,感謝您的回報。我一一說明如下:
      1. U+FF29F,是的這個字形品質不佳。全宋體裏有數萬個字都是我用掃描的圖片轉換而來,否則我一個人沒錢、沒人,怎麼可能造出數萬個字形給大家使用,呵呵!這要靠大家幫忙完善。
      2. U+284DC,全字庫收有兩個碼位 11-2E39 與 13-7345,結果字形完全相同,一筆不差。我當然沒必要傻傻地跟著它也收兩個一模一樣的字形,如果您有下載我做的《全字庫》字典的話,應該可以看到我把兩個碼位都歸在同一字下,便是這個原因。全字庫裏類似的情況很多,否則我也不用耗費大量的時間來作清理。至於「辵」部字的偏旁不論寫作「辶」「⻌」「⻍」,純粹只是字體風格的問題,並不影響這個部件的本質,所以應該視為相同,不應區分作不同字,Unicode 的收字也是秉持相同原則。否則所有「辵」部的字是不是都該編出「辶」「⻌」「⻍」三倍碼位、三份字形,這不切實際,您說是吧!
      3. U+F9C33,全宋體與全字庫字形是一致的,不知您說的「全字庫字型相同,全宋體變另一個字」是什麼意思?
      4. U+7075,偏旁作「󰐷」作「⺕」,視為相同,理由同前述原則。
      5. U+F6140,此字形來自《異體字字典》,字源是簡化字異同對照表,只是手寫體的微細差異,視為相同,後續我調整字形。
      6. U+FA47B,豎筆勾與不勾,視為相同,理由同前述原則。
      7. U+200E8,豎筆有時為了美觀與平衡,收筆轉撇,視為相同,理由同前述原則。
      8. U+1039DB,橫筆長短無關緊要,這字我已造有宋體替換手寫。

      刪除
    2. 感謝回覆。

      「全字庫字型相同,全宋體變另一個字」這句單指 IDS:辶免 那個字。

      因為我認知上 "全宋體字型 " 有向下相容 "全字庫字型",所以遇到 "教育部國語辭典字型" 與 "全字庫字型" 相同,結果 "全宋體字型 " 不同時感到疑惑。

      但現今看起來是我一開始就認知錯誤了。

      至於 U+1039DB 是我昨天太急標錯地方,橫筆長短的確無關緊要,但上面寶蓋頭寬度應不小於最下面一筆。

      我現在才知道全宋體是一人作業,祝福 WFG 大,身體健康、事事順心。

      刪除
    3. 了解您的意思了。因為還整合了其他來源的字形,而且有些全字庫的字形錯誤或不恰當我也可能進行調整,所以全宋體雖然以全字庫為基礎,但不保證所有字形與其一致。

      辶字旁的字形,我進行了一些調整,原則上會比較一致了,下一次更新時就會釋出,「辶免」這字會跟您預期的字形一樣。

      刪除
    4. U+FF29F 我已經重新造字,下次更新釋出。

      刪除
  3. WFG你好,最近發現全宋體(等寬)對拼音中的母音(a e i o u)寬度不一致的問題,不知道之後的版本是否會將這5個字母的寬度統一呢?

    https://cloud.freemdict.com/index.php/s/qmZ5YnjDpTs4MqR

    回覆刪除
    回覆
    1. 感謝留言。這個問題可能比您想的複雜。
      1. 這些拼音符號分散在多個區塊,要改寬度應該要整個區塊的符號都調整,也就是說要調整的符號遠比您想的多。
      2. 目前為止我仍找不到整的、這些區塊的類似風格等寬字形(調和字形比較常見,等寬很少)。全字庫把這些區塊的符號全部造成全形寬度,看起來很奇怪,所以我沒採用。
      基於以上原因,到目前為止我仍沒有好的解決方案,所以尚無法改善。

      刪除
    2. 原來如此,雖然全形與半形交錯看起來很奇怪,也只好先妥協了。
      祝 順心。

      刪除
    3. 如果您是要用於文件的呈現,像是製作網頁或是離線辭典,建議使用「全宋體(調和)」,或是把拼音的部份改用其他如 Calibri 之類的英文字體,這樣會比較美觀。「全宋體(等寬)」比較適合用在編輯環境,對於美觀地呈現中英文混雜的文件,不是它的主要訴求,效果會不如「全宋體(調和)」來得好。

      刪除
  4. 煩請收錄:[目效],[口賀] ,「⻏耆」

    回覆刪除
    回覆
    1. 您好,收錄到字庫的字,我都會儘量記錄它們的出處、字義。能請您說明一下這些字的來源嗎?出自那一本書或文獻?最好能提供截圖,讓我知道它們被使用的實際情形。感謝您!

      刪除
    2. 來自 「長短經」,南宋影印本。這三個字在如下的鏈接裡面的截圖:https://ibb.co/MpJz8rX 、https://ibb.co/cXdYCvS ,也可以通過這裡查看文本:https://ancient-china-books.github.io/changduanjing/OEBPS/Text/part07.html#p8 、https://ancient-china-books.github.io/changduanjing/OEBPS/Text/part25.html#p7

      刪除
    3. 影印本書格下載:https://new.shuge.org/meet/topic/20891/

      刪除
    4. 感謝您提供的詳細資訊。此三字已經造好加入字庫,下次發布時更新。

      刪除
    5. 網誌管理員已經移除這則留言。

      刪除
    6. 我不是什麼大佬,只是現代的「愚公」,呵呵!

      刪除
  5. 缺字:https://ibb.co/3Sc5vWM ,煩請收錄。來源史記,文本可以參考:https://ancient-china-books.github.io/shiji/OEBPS/Text/006.htm#p9 。影印本可以參考,商務印書館 史記 百衲本。

    回覆刪除
    回覆
    1. 史記 「秦始皇本紀第六」,商務印書館 百衲本 截圖:https://ibb.co/jHk1xd7

      刪除
    2. 多謝,兄臺撥冗收錄。

      刪除
  6. WFG 你好,最近我使用了全宋體補齊 "教育部成語典" 的私造字,使用中發現了3個全宋體缺字的問題,在這邊回報一下

    https://cloud.freemdict.com/index.php/s/MaKqm22Y7tyiZCK

    回覆刪除
    回覆
    1. 您好:
      感謝回報。以下針對您的回報逐一說明:
      1. [⿰毛監]:查中華書局《全唐詩》p.5594 施肩吾〈貧客吟〉,字形作「𣰦([⿺毛監])」。此二字形屬於典型的「錯位異體」,在非字書級探討的情況下,視為相同是合理的,無須區分。另查了若干古籍,此字字形都作「𣰦」,沒找到作[⿰毛監]的例子。若您於實體書(古籍更好)見到此形,煩請告知,我將增收此形。
      2. [⿱既木]:此字台灣的標準字體作[⿱既朩]、大陸的標準字體作[⿱既木],同一字也,不須過於拘泥於細微的筆畫差異。Unicode 不會兼收此二形,全宋體也不會。對於字形的鑑別,我建議莫只停留在筆畫的層次(有時為了字形的美觀、平衡,橫作挑、豎作撇、點作橫,在所常見),而應稍稍提高至部件層次,只要構成的部件慣例上是等義的,視為相同可也。
      3. [⿱厥金]:此字似乎台灣的舊標準作[⿸厥金],現在的標準則作[⿱厥金]。此二形亦是典型的「錯位異體」,而且古籍中此型錯位很多都是筆畫曖昧,說它像 A 形也可以、說它像 B 形似乎也沒錯。查證歷代字書,此字多偏向[⿱厥金]形,故依現今標準調整全宋體作[⿱厥金]形。雖然 Unicode 不會兼收此二形,但為對應某些古籍之用,另增收[⿸厥金]形為補充字。
      我的看法是:《教育部成語典》並非是字書,有時不必過於拘泥於些微的筆畫差異,在合理的情況下應該用標準字替補缺字。以上,供參考。

      刪除
    2. 原來如此,感謝詳細說明。期待全宋體的新版。
      順帶一問,下個月 Unicode 15 發布後,預計全宋體造字區會對應至CJK H區。那原本在造字區的碼位是會留空抑或是用來放新的字呢?
      如果是放入新字,或許舊文件會有相容性問題,這部分不知道您會如何處理。

      刪除
    3. 我現在還沒有空去想 H 區字呢,等它正式發布再說,呵呵!

      按照慣例,被 H 區收錄的補充字,我會建成一個「遷碼表」,方便批量將所有文件一口氣遷碼至 H 區。然後這些補充字便會被註銷,碼位將來會被新收字重新填充。

      您提的相容性問題是存在的,所以在更新至 H 區的新版前,使用全宋體來製作文件的朋友,一定要利用我提供的「遷碼表」將文件遷碼,過渡至 H 區,這樣就可避免相容性問題。

      刪除
    4. 感謝說明。看來得把之前的舊文件全部拿出來升級了。

      刪除
  7. 請問有 穴角 嗎? 在最新版沒找到。https://imgur.com/9SyWLxc

    回覆刪除
    回覆
    1. 此字我懷疑是「𥦁」的訛字,因此暫時沒有收錄。

      台灣聖經公會網站作:「12:4 𥦁街路的門關啲,挨磨的聲細細,鳥仔一下哮,人就起來,唱歌的查某囝仔也攏降低。」字作「𥦁」不作「穴角」。另查《漢語方言大詞典》:「𥦁,tòng ㄊㄨㄥˋ〈動〉穿透;一直通到。閩語。福建廈門[t‘aŋ21] ~過透過 ‖ ~心入心 ‖ 即條路~廈門。」音義也與經文合。

      除非另有書籍也有「穴角」用例,否則暫時判定為訛字,或當改用「𥦁」字為宜。

      刪除
    2. 閩南語
      穴角 ㄉㄚ 條街 https://imgur.com/kmMC2b7
      𥦁 ㄊㄤˋ ,𥦁(ㄊㄤˋ)佗位tó-uī
      應該不是訛字

      刪除
    3. 正如您附的截圖,「穴角」後括弧裡的拼音是「thàng」,應該就是接近於「ㄊㄤˋ」、「ㄊㄨㄥˋ」之類的發音,閩南語裡的意思是「整條街」,而不是您說的「ㄉㄚ」,「每條街」的意思,所以我說它的音義完全與「𥦁」吻合。再加上古籍中確實有「甬」部件的字被訛寫成「角」的例子,畢竟字形非常接近,所以我才會懷疑是訛字。

      刪除
    4. 這是一位長輩的需求,他還是希望能夠造這個字,不知是否方便造字?

      刪除
    5. 沒問題,畢竟我也只是懷疑,並無確切證據證明它就是訛字。那就先以「𥦁」的異體字身份收錄吧!感謝您提供這些字,字已經造好,下一次更新即可使用。

      刪除
  8.   {穴角}為訛字!
      「角」不會有「thong、thang」的音。
      「𥦁」為臺語用字。
    【𥦁】華‥ㄊㄨㄥˋ
      台{文}ㄊㆲ└ thong3 {變}ㄊㆲˋ thong3~2
       (白)ㄊㄤ└ thang3 {變}ㄊㄤˋ thang3~2
       (白)ㄊㄤ  thang1 {變}ㄊㄤ├ thang1~7
     ①穿過、透過。 {例}𥦁光‥透光。
     ②遍及。 {例}𢭻𥦁𥦁‥找遍了。 行𥦁𥦁‥走遍了。 𥦁四界‥到處都有。
    【𥦁光】❶ㄊㄤˋ ㄍㄨㆪ(漳)∥ㄊㄤˋ ㄍㆭ(泉)
         thang3~2 kuinn1(漳)∥thang3~2 kng1(泉)
     ⊕透光。
    【𥦁光】❷ㄊㄤ├ ㄍㄨㆪ(漳)∥ㄊㄤ├ ㄍㆭ(泉)
         thang1~7 kuinn1(漳)∥thang1~7 kng1(泉)
     ⊕消息很靈通。
    【𥦁四界】ㄊㄤˋ ㄒㄧˋ ㄍㆤ└ thang3~2 si3~2 ke3
     ⊕到處是、到處都有。
    【𥦁心】ㄊㄤˋ ㄒㄧㆬ thang3~2 sim1 ⊕穿心、透心。
    【𥦁𥦌】ㄊㄤ├ ㄌㄤ└ thang1~7 lang3 ⊕透亮寬敞。

    回覆刪除
    回覆
    1. 感謝阿文兄做的補充,跟我的看法一致。

      刪除
  9. 仁兄好,发现一个字字体里面没有收录,就是嘟字,但是在者下面日字的右上角有一个小点。这个字实际上同嘟字,是三民大词典里面收录的字。

    回覆刪除
    回覆
    1. 您好!這個字我知道。現代的標準字形都把「者」右邊的一點捨去,其實是同一字,認同即可。但辭典既然二形兼收,加收此字形以為對應,也無不可。目前針對《三民大辭典》的缺字,我這邊累積了約五十字,不過還有數百組重複字頭尚無力檢核,有賴有心人去排查清理。等我忙完手邊的事情,再找時間把這些缺字補上,可能要麻煩您再等些時候。

      刪除
    2. 是的,因为有很多这种形似异体字的,目前也看到好几个,有的字体收录了,有的没有收录,所以有时候用输入法打的时候,就很困难。非常感谢仁兄的付出!!!

      刪除
  10. 你好,我在尝试做仓颉的拆分码表,但是碰到有的字找不到字根,比如今天在拆分丘、乓、乒时,丘第一笔的这个人字旁目前十八万里面并没有收录,仁兄能否收录进去呢?以方便后期做仓颉的拆分码表之用。其它也有或多或少的拆分字根没有收录进去。

    回覆刪除
    回覆
    1. 您好!您提得這個部件,目前確實沒有,我會增補進去,下次更新時提供。

      刪除
  11. 您好,想反映一下,俗的仓颉码是ocor,但是我看仓颉码表里面并没有c对应的那个字根,并且促字的y码只有卜这个字根可以将就用,这个字根第二笔是一点,并不是促字里面的一横,希望仁兄可以添加。还有其它不同的字根,可能目前的仓颉十八万汉字也有遗漏,希望仁兄可以慢慢添加,感谢感谢!

    回覆刪除
    回覆
    1. 您好!我雖不會倉頡輸入,但稍微對照了字根表,有些不懂您的問題。
      您提的「c」,在「俗」字的拆解裡不就是「八」嗎?怎會沒有這個字根呢!
      您提的「 y」,在「促」字的拆解裡不就是「⺊」嗎?怎會沒有這個字根呢!
      如果是我誤解了您的意思,請再進一步說明,最好有圖片連結輔助,這樣比較清楚。

      刪除
    2. 俗字的这个「八」,感觉不太对,码表里面有这个字,但是不知道是不是我理解不对,我感觉谷最上面的不应该是八,而应该是两个角度更大的点。促字中的「⺊」,我又下载了上面帖子里面最新的仓颉码表,但是好像真的是没有搜索到这个字根,尴尬。

      刪除
    3. 另,不知道这个俗字中「八」,是不是也是「俱」最后的那个字根呢?感觉好像也是不一样的,在仓颉码表里面好像也是没有收录。

      刪除
    4. 我好像弄懂您的意思了。您仔細看我提供的下載連結後面,有特別註明「(僅保留漢字部分,請自行併入您慣用的碼表)」,意思是我提供的碼表只有 Unicode 中 CJKV 的標準編碼漢字,某些漢字筆畫、補充部首,例如「⺊」,由於不屬於標準編碼漢字,所以並未收錄其中,您若需要用到這些符號,請自行補上碼表。

      至於這個「八」,您提到的「谷」、「俱」對應的倉頡拆碼都是「c」,代表的字根是「金」,查倉頡的字母表可以知道輔助的字根是「丷八儿」。也就是說,就是拆作「八」,不論「谷」的頭、「俱」的腳,在倉頡都是拆作「八」,沒有什麼不一樣。

      我不會倉頡輸入,沒辦法給您太專業的說明,這些倉頡拆字規則,請您自行參考較專業的教學說明,免得被我耽誤了,呵呵!

      刪除
    5. 感谢回复,确实是这样子的,可能有时候是为了追求完美,就想某一个字根和原字一模一样。

      刪除
    6. 另,仁兄可否有时间完善一下仓颉的对应的字根呢?例如「谷」、「俱」对应的仓颉五拆分码都是「c」,代表的字根是「金」,虽然是可以用八代替,但是感觉可能一模一样可能更好一点。因为我在做仓颉的拆分码表,感觉和拆分字字根一模一样的话,可能更利用初学者对字体的直观拆分认识。下面的图片是我找到的可能仓颉五字根最完整的一个了,仅供仁兄参考。https://github.com/baileichao/PictureBed/blob/master/b4c95ea8c41a5ee50006d2ecb846102.jpg

      刪除
    7. 我覺得仁兄不必執著於此,我查過《第五代倉頡輸入法手冊》定義的輔助字根,「八」就是「八」,不是什麼代替品。各種部件用在字體設計上,有時為了美觀與視覺上的平衡,常常會略微變化筆畫的樣貌,例如「土」用於左邊的偏旁時,最下方的「橫筆」常會改作「挑筆」,類似情形不勝枚舉,像「金」、「工」、「子」等等都是。兄提供的圖片基本上是站在教學的角度整理,把各種可能的變形羅列,讓初學者知道字形中「一撇一捺」的是「八」,「一撇一點」的也是「八」。兄卻有些逆其道而行,希望區分「一撇一捺」的「八」與「一撇一點」的「八」,呵呵!我只能說仁兄的這種需求比較特殊,與一般字型的收字原則相悖,「全宋體」不會如此收字。不同的字型這種筆畫的變形也會不同,區分實在意義不大,兄若執意要體現這樣的不同,那可能您得自行造字去處理了。

      刪除
  12. 仁兄能把仓颉五里面的难字根放到字体里面么?

    回覆刪除
    回覆
    1. 例如难字根里面的臼(没有第一笔的撇),好像就没有收录。

      刪除
    2. 呵呵!我說過了,仁兄的這種需求比較特殊,與一般字型的收字原則相悖,「全宋體」不會如此收字。除非有實質組字意義的部件,否則我不會把這些示意的字根放入字型裡,抱歉!

      刪除
  13. 用原来的数据训练,通过人工智能自动拆分,大大提高效率,一年的工作量一个月就能完成

    回覆刪除
    回覆
    1. 「人工智能」——很夯、很迷人的流行詞彙,大師若有這方面的經驗,請以實際教程教我,感激不盡!

      刪除