2021年7月9日 星期五

漢字使用環境的建置 —— 追加三千漢字

☆ 2023/10/11 更新,詳情請見 漢字使用環境的建置 —— 部件檢索重要更新暨 Unicode 15.1 全宋體更新

三月底我與 suns99 兄完成了《漢字海》三萬多字頭的追加工作後,略事休息,馬上又投入了《中華字海》的字頭清理工作。雖然《漢字海》這本後出的字典幾乎涵蓋了《中華字海》的大部分字頭,但仍有一小部份《中華字海》字頭是其他字典所沒有收錄的。最終,清理出了三千多字,追加補入字庫,將字庫的字量提升到 155070 字。至此,全宋體這個大型字庫,收齊了 Unicode 13.0、CNS11643、目前收字最多的三大字典:《漢字海》、《中華字海》、《漢語大字典》,以及《玉篇》、《廣韻》、《集韻》、《康熙字典》等歷代字書、韻書的所有字頭,能夠提供閱讀者、文獻整理者、學界專家們更精準的漢字呈現與檢索,希望能為漢字文化的推廣、延續盡上一點點棉薄之力。

有關《中華字海》的字頭,目前可見整理得較完整的,大概就屬字海網。這次的清理,基本上便是在字海網整理的基礎上,將沒有對應到 Unicode 的圖片字頭拿出來進行清理。

我的法子大概是這樣:先將 23567 個圖片字頭轉製成一個臨時性的工作字型,安裝好這個工作字型後,這些圖片字便能在一般的純文字編輯器中顯示。接著由 suns99 兄接力,用倉頡輸入法試著將這些「字」一一打出來。如果打得出,表示字庫已收,可用既有字來對應;如果打不出,表示字庫未收,應該新增補入字庫。完成後,將所有未收字的字形抽取出來,重新加以編碼補入現有字庫。最後再對這些新增字一一補上拆分數據,加進部件檢索之中。

整個程序說起來很簡單、很笨,但卻也是目前我所能做到,最有效率的方式。借重 suns99 兄的倉頡快手,正事之餘有空就幫忙打一些,前後歷時約一個月,才將這兩萬多個圖片字頭繕打完一遍。又經過我一陣地複驗、調整,最後才定案收字。收字後工作並未結束,還得為這三千多個新增字編上拆分數據,我打字實在不行,最後仍得央得 suns99 兄出馬,為這些字打上拆分數據。所以這次整個程序幾乎都是由 suns99 兄出力,沒有他,這些旁人眼中不可能的任務,根本也就不可能完成。

完成之後,我並沒有馬上發布這些成果(一方面也是發懶),而只是提供幾位長期的好友試用,藉由他們的反饋,陸續修訂一些疏漏,將一些重複收錄或者差異過微的字予以整併,如此又過月餘。

如今,修整暫告一段落,我遂將這些成果發布出來。利用這次發布的字庫,能將目前收字最多的三大字典:《漢字海》、《中華字海》、《漢語大字典》的所有字頭全部納入索引,不著任何一個圖片字,這應該是目前為止唯一能辦得到的字庫,相信這對進一步的漢字整理與應用會有不少的幫助。

新增的三千多個漢字中,約有一半我利用字形維基的「《中華字海》字表」取得了品質略好的字形,另一半則字形維基也尚未建立對應字形,只得維持用掃描圖片轉製的字形。由於掃描圖片的解析度不夠,轉製的字形品質很差,只能勉強使用,這點有待日後再慢慢改善(也徵求會使用造字軟體的造字志工,能夠長期協助修整改善字形)。另外值得注意的是字形維基的《中華字海》字形有不少造字錯誤,我已儘量修復,若使用時發現字形與拆分有出入時,請反饋給我修正。

下一步計畫要挑戰困難度更高的《教育部異體字字典》,這大概是我藉助大型字典來收字的最後一戰,能否竟全工,實無把握。若成,則十數萬漢字的橫向聯繫脈絡樹立,字庫的專業完整度又將上一個層級,以後便只維持依據辭書所缺少量收字了。

樂見學術研究、教育工作、個人閱讀這方面的運用,但請勿用做任何形式的商業營利行為。希望「全宋體」這個字庫以及「部件檢索」這個檢字工具,能在漢字文化的整理、研究上幫上一點小忙。


下載連結:全宋體.zip
下載連結:部件檢索(測試版).7z
下載連結:倉頡碼表.7z (由於每個人的習慣不同,僅保留漢字部分,請自行併入您慣用的碼表)


p.s. 這次的更新除了《中華字海》的追補字外,其實還包含了一些其他的新增字,其中比較值得提醒大家注意的是八個下一版 Unicode 預計會發表的候選字,由於碼位大概不會有什麼意外變動,所以我提前將他們加進字庫裏搶先使用(目前字海網也已經收錄了這幾個 Unicode  候選字)。他們分別是:U+09FFD 鿽(⿰口窄)、U+09FFE 鿾(⿰土郎)、U+09FFF 鿿(⿱甫󰓢)、U+2A6DE 𪛞(⿰⺩荣)、U+2A6DF 𪛟(⿰目王)、U+2B735 𫜵(⿴𰀪⺀)、U+2B736 𫜶(⿰⺼敦)、U+2B737 𫜷(⿰寿⻏),其中有六字原先已收錄在補充字裏,故提醒大家若有用到這些字,請記得儘速將他們遷至官方定義的碼位,因為隨著這次的更新,已經註銷了這六個補充字,並移作他用。


下載連結:候選字遷碼表.7z




174 則留言:

  1. 感謝您無私的付出,也期待異體字典早日完成!

    回覆刪除
    回覆
    1. 感謝您的鼓勵,我會繼續加油。

      刪除
  2. 感谢不断完善!打包了一个 mdx 方便日常使用:

    https://forum.freemdict.com/t/topic/5576

    回覆刪除
    回覆
    1. 感謝您的鼓勵,只要是在學術研究、教育工作、個人閱讀這些方面的運用,歡迎儘量發揮創意改作,讓大家能使用到更多元、更好的漢字工具。也感謝您的 mdx 版本製作,讓更多朋友能接觸、使用到這個工具。

      刪除
  3. 反馈:在简体中文的Win10中目前安装全宋体后,漢字簡易測試.txt的擴展B區、和擴展C區最右侧依然为「豆腐」字

    详见截图:https://forums3cdn.471901.xyz/original/2X/c/ced4a8798869d4ecd9ce70c13ccd259ddface525.png

    回覆刪除
    回覆
    1. 呵呵!抱歉,這是我的疏失,請看本篇開頭我後來加上的紅色字提示公告。

      刪除
  4. 在您製作的《說文》中,將「卺」這個字與「𧯷」關聯,但「卺」當為「巹」的異體字,因此實當與「巹」關聯才對。


    由於這篇是較新的文章,因此留言在此,不好意思!

    回覆刪除
    回覆
    1. 在《說文》中,標示為「異體」與標示為「關聯」是有差別的。「卺」字與「𧯷」有關聯(不是異體關係)並沒有錯,但在「巹」字下應該補上「卺」字為異體,跳轉連結也該如您所說優先跳到「巹」字比較恰當。我會進行修正,感謝您的指正。

      刪除
  5. 感謝您的努力,
    在cjk-ext-G中,30713的字型有誤,30713應是氵𡬧。您的字體中30713=3071E氵穾。

    回覆刪除
    回覆
    1. 確實是弄錯了,我立刻修正,感謝您的指正。

      刪除
  6. 請教,有沒有辦法讓所有FSung層次利用同一個 family name? (目前我在EmEditor和其他軟件只能選其中一個。只有html/mdx利用font-face才能同時用所有層次。)

    理論上 FontForge 可以改 family name,讓它們的family名稱統一起來。但我光打開FSung-2,沒裝載完,FontForge就崩潰了。

    回覆刪除
    回覆
    1. 於字型我其實只是個半吊子,沒人願意做,只好自己來,呵呵!Family name 設成相同不會互相覆蓋嗎?我沒有見過實際的例子,所以沒從這方面想過。在 EmEditor 和其他軟件裡,可以參閱「漢字使用環境的建置 ㈠ —— 顯示篇」裡的說明,匯入註冊機碼後,只選「全宋體(等寬)」或「全宋體(調和)」即可全部顯示。FontForge 的前端 UI 界面其實寫得很糟糕,載入稍微大一點的字型就必定崩潰,根本不堪使用,我只利用他的 python script 來批量作一些處理,其餘就不用。

      刪除
  7. 請問全宋體有沒有這個字?
    https://imgur.com/o70Qer3
    來自漢語大字典,34頁。

    我用“𤮺”來查,找不到。

    “𦣹”是另外的字:
    https://imgur.com/MNA2CA4
    漢語大字典,339頁。

    回覆刪除
    回覆
    1. 這是已知問題,這一組字的處理,漢語大字典似乎是有點問題的。p.34 引的是《說文》與《玉篇》;p.339 引的是《玉篇》,推測編輯的原意是想區分「今文」與「古文」為兩個字形。但《說文》裏的「今文」與《玉篇》裏的「古文」其實字形相同,沒有太大的差別,大字典試圖硬用用中間的「二」與外圍的「凵」連與不連來區分二者,有點硬拗了。

      試溯其源,《說文》:「自(𦣹),鼻也。象鼻形。凡自之屬皆从自。𦣼,古文自。」《宋本玉篇》:「自,疾利切。鼻也,象形。又由也,率也。𦣹,古文。」《說文》是以小篆為主體的字書,它的「今文」是「𦣹」;「古文」是「𦣼」。《玉篇》可以說是第一本以楷書為主體的字書,它的「今文」是「自」;「古文」是「𦣹」。《玉篇》所謂的「古文」是相對於楷書的「自」而言,指的其實就是《說文》的「𦣹」,大字典的編輯似乎有點張飛打岳飛,硬要說這是兩個不同的字。

      所以我個人的看法是 p.34 與 p.339 的這兩個字都是「𦣹」,大字典重複收字了。留言裏引圖不便,請用我製作的說文解字字典,查「自」字下大徐、小徐、段注的小篆字形,注意看段注的小篆字形中間的「二」與外圍的「凵」也是不相連的喔。

      刪除
    2. 嗯,我說服了,是同一個字。我作大字典mdx,就讓“𦣹”字頭出現兩次。

      刪除
    3. 呵呵!本來還擔心您不容易被說服,所以打了這麼多字。還有一證可以支持我的看法,異體字字典 A03386-001-1 下的說明就持相同看法(他說:按《玉篇》所謂古文,實即篆文之變,故今定作自之異體),請參見 https://dict.variants.moe.edu.tw/variants/rbt/word_attribute.rbt?quote_code=QTAzMzg2LTAwMS0x。

      刪除
  8. 我用FontLab把FSung-m、1、2、3、F註冊為同一個字體組,讓EmEditor能利用其所有層次。感興趣的話,我貼上來,當做參考資料。五個字型的Typographic style name (TSN;簡稱Style name)都標成'Regular'(默認屬性),所以寫法還算是規範的。
    https://imgur.com/TDGUDko

    字體組的成員,一般是屬性不同,但西區字不需要面對65,535字的限制,所以沒必要像全宋體把同一個屬性的字體分別包成不同字型。這些模式是配合西區字體而設計的,處理漢字可以活用。

    回覆刪除
    回覆
    1. 如同上一次的回覆,在 EmEditor 和其他純文字編輯軟件裡,可以參閱「漢字使用環境的建置 ㈠ —— 顯示篇」裡的說明,匯入註冊機碼後,只選「全宋體(等寬)」(即 FSung-m)或「全宋體(調和)」(即 FSung-p)即可顯示全部所有層次。應該不需要修改 Family name 即可辦到。

      上次與您討論過後,我也再做了一些搜尋研究,仍找不到任何支持您這樣改法的說法。我目前的做法,是根據微軟作業系統的標準做法,Windows 裏的新細明體、新宋體都是用如此設定,應該是較為可靠的做法。原本想說按您的做法是不是能解決 Office 軟件調用字形的問題,但看您也是沒有成功。

      您所謂的「讓EmEditor能利用其所有層次」,原本就可做到,在沒有任何明確優點的情況之下,我目前不打算改變現有做法,仍維持原狀。歡迎您將您的做法貼上來,讓大家可以參考。也感謝您不斷的創新嘗試,如果有任何新的想法,歡迎隨時在這邊提出來討論。

      刪除
    2. “原本就可做到”
      我裝原版,就不行,大概是英文系統的原因。大概只影響我這群人。
      https://imgur.com/IJEy27a
      EmEditor設置改成中文,也無效。

      但在Notepad/記事本,用原版FSung-m就能用所有層次。我不知道區別在哪裡。我記得EmEditor跟Notepad一樣,字體菜單是用[Family Name] [Style name]"安排的(要是“Style name”是“Regular”就不標出來,但幕後還是“[Family Name] [Style name]”)。Anyway,字型方面有太多細節了,而且軟件的行為不同。

      FontLab,看來沒有localized names,不能同時叫“FSung”和“全宋體”,這點不如FontForge。

      關於Word,它是用Style group來組合的(而不用Family name)。據我所知,Word限制Style group頂多有四個成員;我測試了,雖然只包四個字型,它也不配合,無論如何,不work。

      Anyway,

      刪除
    3. 是的,字型方面有太多細節了,我也還沒有參透,呵呵!

      刪除
    4. 後來發現,在EmEditor用(原版)全宋體,可以這樣解決:
      https://imgur.com/f8RSvgG

      刪除
    5. 原來還有這功能,以前都沒發現可以這樣用。又學一招,感謝!

      刪除
  9. 類推簡化字挺麻煩的。目前沒有這個字“马犮”。大字典4838頁。
    “马又丑”大字典4850頁。

    回覆刪除
    回覆
    1. 您指的 p.4838「马犮」,是指「马󰝼」嗎(以全宋體字形為準)?如果是,那就是「𱅄」,G 區已收。p.4850 未見您說的「马又丑」,只見「馬又丑」,就是「𱄜」,同樣是 G 區字。這兩個字用部件檢索很容易查到啊,讓我有點懷疑是否誤解了您的意思。建議溝通時請註明第幾頁第幾個字頭,若是內文請註明是哪個字頭之下,這樣比較明確。

      刪除
  10. 大字典4838頁,正體“䮂”與簡化“𱅄”:
    https://imgur.com/ollrUAn

    簡化字的部件卻是“马󰝼”---我當時把部件搞錯了。

    我當時疑惑,涉及到同個碼位不同字形的問題。
    Unicode的reference glyphs:
    https://imgur.com/kn2atol

    https://imgur.com/XlpJ4PA

    看來,“犮”(72AE)跟“󰝼”(全宋體F077C),如果跟“馬”偏旁幷在一起,就只有一個碼位:“統一”的4B82。
    全宋體把4B82的結構當做“馬犮(舊字體)”,所以用“馬󰝼”(F077C)來搜就沒有字。總之,漢語大字典的“䮂”字體,不能用全宋體顯示,除非給它造個私有區字。
    我當時要打這個簡化字時,沒考慮到舊字體、新字體的問題和“統一碼”的限制。

    回覆刪除
    回覆
    1. 因為這兩形 Unicode 是認為相同的,所以通常是不予區分。不過只要有鈎選「包容異體」,用「馬󰝼」來搜,一樣會搜出「馬犮」的字。

      刪除
    2. 我本來用UniHan來查字形,後來發現UniHan只提供新字體,例如之前講的“䮂”:
      http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=%E4%AE%82

      後來才知道要看Unicode的Code Charts PDF才會列出某個碼位的不同字體的可能性。
      https://www.unicode.org/charts/

      (UniHan只標出一個字體,讓人疑惑,應當複製他們Code Chart的信息。)

      刪除
    3. UniHan 的查詢界面基本上屬於「年久失修」的狀態,字形的小圖片一直停留在 Version 3.2,也就是比較後期的字區(好像是 B 區以後)連這個小圖都沒有。用 UniHan 查字不如用「zi.tools 字統网」(https://zi.tools/),至少有列出部份的各地區字形,不過要注意,它也並不完整。基本上我都是查 Unicode 的 Code Charts PDF,這才是最完整的官方資訊,不過某些地區字形似乎還是沒有根據該地區的標準單位更新,例如台灣地區的字形有些就跟 CNS 標準公佈的全字庫字形有差異(推測是 CNS 提交之後又有做過修正),其他地區的字形我相信可能也有類似狀況,必要時得再查證該地區的標準單位之公佈字形。

      刪除
    4. zi.tools,我注意到他的IDS的內容,大概從UniHan抓的吧。
      中華大字典,也提供IDS信息,瞧了一下mdx,感覺他們用很多部件來描述字形,經常拆兩次,畢竟很多部件沒有標準碼。(方正字庫)中華書局字型,雖然填滿了PUA-A區,好像也沒有為了IDS而造出部件。中華書局網頁也提供一個輸入軟件,我裝不了,沒試用過。

      刪除

    5. zitools:⿻卝𠀆
      中華大字典:⿻卝𠀆

      不用“艹”描述,呵呵。

      刪除
    6. 網路上可見的 IDS 資訊,絕大多數是從 UniHan 的數據而來,因為最省事。中華書局的輸入軟件,很久前我有試過,嗯!不好用,呵呵!

      「艹」因為是兼容字(照 Unicode 的定義 ≡ 8279 艹),所以很多人避免用他,而改用「卝」。但我覺得把「卝」做為「羊頭」用更不合理,何況把「艹」與「艹」相混本來就是不合字理的,故而「部件檢索」全面調整過。

      刪除
  11. Unicode 14.0草稿發了U+2B738:
    https://imgur.com/XFa0yjC
    https://www.unicode.org/charts/PDF/Unicode-14.0/U140-2A700.pdf

    目前這個字形掛在全宋體F6825。

    回覆刪除
    回覆
    1. 多謝告知,我再問問朋友這碼位會不會再變動。

      刪除
  12. https://imgur.com/wUfHFBi
    𪤔、𫎠 的拆分是否該是“戸”?

    𪤔,全字庫(TW-Sung-Ext-B-98_1.ttf):
    https://imgur.com/o1dF8un

    𫎠:
    https://imgur.com/fkzcIVs

    關於:
    啓 5553
    啟 555F
    啓 2F843
    三戶三啓,最終沒有康熙字體的“啟”,呵呵,有點可惜。

    回覆刪除
    回覆
    1. 多謝指正,相關拆分已修正,下版更新。關於三戶三啓,這都是 Unicode 定義的,我也無能為力,呵呵!

      康熙的字體,應該是對應至 u5553,日本提交的字形便與其一致。「戶」的三個字形古籍均常見,依照《說文》小篆「戶」當為正,故台灣的字形多以此形為部件。除非個別強調差異,否則一般情形下三形應視為相同。類似的情形像是「艹」「⺾」、「礻」「⺬」、「糹」「糸」等等,若是為每一部件異形都分別造字,漢字不知要膨脹多少倍,不實際也沒必要。我目前的收字原則是:上述的部件異形情形,除非一些指標性的字集標準或辭書兩形兼收,否則就予以認同歸併,以避免字形數量過度擴張。

      刪除
  13. 哇……我这外行只能感叹

    回覆刪除
    回覆
    1. 漢字咱們天天都使用,沒什麼外行不外行,多跟它親近也就熟了,呵呵!

      刪除
  14. 請問有 而比 這個字嗎? 檢索找不到

    回覆刪除
    回覆
    1. 您好,目前的確沒有收錄這個字。直覺地依字形猜測,是否跟「𣬉」字相關?但查了《教育部異體字字典》,「𣬉」字並沒有這個異體。請問這個字的出處是哪裡?哪一本書哪一頁?方便的話請提供一下截圖,若不是錯字的話,可以考慮在後續的版本收入。

      刪除
    2. 再次確認,弄錯了,是 面比,在全宋體-2裡面就有,感謝

      刪除
    3. 呵呵!沒關係,不是缺字就好。

      刪除
  15. 忘記加拆分:󿆼@qpko
    𱁭@靑㝎→青㝎 Code Chart只有一個字形,來自大字典(4314頁)。
    𭟹𮂂𮃻𮐻𮞭𮨘 拆分為㠯,應該是㠯吧。
    𰯽𰯾𰯿𰰀𰰁𰰃𰰄𰰅𰰆𰰇𰰈𰰉𱃺 拆分為舌820C,CNS好像沒有編碼,看來應該是󰐦F0426。
    𤫴 24AF4 採用T6-3958字形;居然跟細明字型不合(我以為細明採用台灣標準,沒想到還有差距。)讓我疑惑的是,全宋體又有“󰳕”F0CD5(⿰失瓜)私有區字,可不可以說一下這個用意。

    回覆刪除
    回覆
    1. 感謝指正。G 區字的拆分直接來自 IDS,日本字形作靑旁,故有此拆分。㠯、舌全部修正過一遍。至於 𤫴 U+24AF4 與 󰳕 U+F0CD5,則是整理上的失誤,兩字形應當互換。早期整理是以細明體為基礎,故留下一些類似失誤,我已盡力修正,但仍有一些漏網之魚需要大家幫忙發現。細明體並未完全遵照台灣標準,更多時候是照 UCS2003 的標準,當然我也是在整理的中後期才知道這個差異。

      以上諸項均已修正,不過目前正在進行異體字字典的清理工作,初步已再清理了一萬字(累計七萬五千字),一些數據半新半舊,不適合現在立刻更新給大家,將在下一版時一併更新,請耐心等候並見諒。

      刪除
    2. 附帶一提,Unicoe U+24AF4 的陸源字形(⿰矢瓜)來源標示是 GHZ-42655.01,也就是《漢語大字典》(第一版)的 p.2655 第 1 字,經查紙本卻是作(⿰失瓜),表示這個字形似乎有問題。

      目前手邊有的字典經查都作(⿰失瓜),反而找不到(⿰矢瓜)這個字形。只有在《慧琳音義》找到有關的敘述:「弧矢,……。弧字,經本有從矢邊作弧(󰳕),或矢邊直作瓜者,皆無典據。……」但它不是(⿰失瓜)義,而是同「弧」。

      刪除
    3. Extension B在Unicode 3.1 (2001) 加入字集,當初字表只提供一個字形,由北京中易製作。當時未提供台源字形,因此細明MingLiU[B].ttf遵照中易字形,引起有些Extension B字形與台灣標準形不合。及Unicode 5.1 (2008),Extension B字表才提供多欄、多源的字形,到時候中易所造的第一輪的字形被淘汰,然仍保留於字表,名為“UCS2003” (Unicode Standard 2003)。
      https://www.unicode.org/L2/L2020/20080-remove-ucs2003-ext-b.pdf

      總之,SimSun、Zhonghua、MingLiU顯示24AF4的字形(⿰矢瓜)都來自中易,跟來源的《漢語大字典》不合。

      中易製造Extension B字的不精準也包括“𨔹”28539(辶日㇒日)。字表標來源是“GHC”,即《漢語大詞典》,沒提頁碼。經查,字頭在1032頁,第二欄,字形為“⻌日白”。細明沿著中易的字形...搞得您得造󰮁F0B81,呵呵。

      刪除
    4. “U+24AF4 與 󰳕 U+F0CD5,則是整理上的失誤,兩字形應當互換。”

      互換是說,既有24AF4,目前F0CD5的字形就會被註銷?

      刪除
    5. B 區字的問題是比較多,有些就成了歷史包袱,Unicode 不修正,我也就不好擅自修改。

      互換的意思是 U+24AF4 作(⿰失瓜)而 U+F0CD5 作(⿰矢瓜),因為在《慧琳音義》找到(⿰矢瓜)的用例,所以留著這個字形還是有用。

      刪除
  16. 𥆮 251AE
    來源:GHZ(漢語大字典1e)-4.2489.06
    https://imgur.com/HMjpzYv

    漢語大字典,第二版,2664頁,字形是“目圠土”,而不是251AE的“目圠上”:
    https://imgur.com/TjC5S74

    我想提的是,全宋體私有區F0CCA(目圠七)也跟大字典不合:
    https://imgur.com/ZE4eNgZ

    全宋體這個字碼跟開心宋重疊,說明早期引進了開心宋字形,但F0CCA後來跟開心宋有脫離,不知為啥。開心宋這個字形符合大字典。

    回覆刪除
    回覆
    1. 全宋體並未曾引入過開心宋的字形,我查了一下手邊的開心宋字型,也並沒有F0CCA,是不是您有所誤會?或是您手上的開心宋是有人改造過的,加入了某些全宋體字形?

      經查,F0CCA 原始的字形便是來自大字典第二版,在整理漢字海時,眼花誤把近似的字形覆蓋過來了。感謝指正,我這邊已經修正回來,下一版更新時便會調整回來。這兩個極近似的異體字在《異體字字典》均有收錄,目前正在整理中,最終會進一步完善這些字形。

      附帶一提,大字典的該字書證引《篇海類編・身體類・目部》,經查書影,《篇海類編》字頭實際上作「𥆮 251AE」,从上不从土,與第一版一致。二版或許是為了正形,因而改動了字形。

      刪除
    2. 老兄查篇海類編,絕招呀哈哈。這也解了我之前一個迷:大字典第二版,是否改了第一版字頭一些字形?我最近對比了kIRG_GSource:GHZ(指第一版)和大字典第二版mdx,好像有所不同(如果kIRG_GSource信息可靠),例如:

      (第一版字頭、第二版字頭、第一版頁碼)
      㝽 𡯑 10553.080
      㯞 𣚓 21298.030
      䘗 𧗼 20843.010
      䞊 𧸩 63660.020
      彚 彙 20962.040
      揷 挿 31918.050
      爋 𤑕 32247.040
      獡 𤡯 21368.110
      蕵 薞 53300.170
      讂 𧭦 64030.070
      韎 𩎟 74504.030
      𡠌 媲 21072.070
      𡯦 尮 10554.110
      𣑫 桗 21208.050
      𧆙 󰩝 53340.110

      最後一條是全宋體PUA,把“口”換成“尸”。我沒有第一版在手上,不知原來“𧆙”字形到底長得怎樣。

      我正在整理大字典mdx,發現開心宋跟全宋體的PUA字體,有2,000字碼是重疊的:抽象來說,是同一個字,具體來說,並不是一樣的規度、佈局比例和形狀,應當不是從全宋體直接灌進去的。也許兩個字型是通過第三者而打起關係來。

      https://imgur.com/QYIqLjT
      後面一欄是大字典第二版頁碼;可以看出codepoint次序幾乎是按照大字典的先後。
      上面的FOCDD,其實B區早就提供標準字碼:𤴝24D1D。估計開心宋的FOCDD和多的PUA,是早於部件檢索。(但𤴝24D1D是個多形的字碼,只有台源字形才符合大字典:https://imgur.com/7j3UlQe)

      無論是國學大師原版開心宋,或是修改版,都沒跟上Unicode 6.0 (2010)很多D區字;若有DEFG區的字形,大多掛在私有區。

      有的glyph也許能用;我把上面2000字的字表包成html;加上開心宋(v6.8; 2019.10.28; 阿弥陀佛 修改):
      https://drive.google.com/file/d/1v3vF9rVdhfNepei6Ph7RLiVvmWS3JU4L/view?usp=sharing

      刪除
    3. 「大字典第二版,是否改了第一版字頭一些字形?」答案是肯定的,但您所列的兩版字頭比較,除了最後一條之外,全部不正確,也就是這些字頭一、二版都相同(都作二版字形)。最後一條確如您所列,一、二版分作「𧆙」、「󰩝」,後者把“口”換成了“尸。

      您所說的這個「開心宋」應該並非原版,而是網友改造過的,而您所謂重疊的2,000字碼,正是來自「全宋體」無誤,因為這些碼位是當初我跟瑾昀與原創者紫雪藍海兄三人討論後定案,只此一家別無分號故可100%肯定。至於某些字形的規度、佈局比例並不一樣,這是因為這個「開心宋」取的是較早版本的全宋體字形,是紫雪藍海兄原始製作的字形,隨著我後續的整理,調整了字重,若有收集到品質更好的字形也會陸續取代,因此有了差異。

      關於FOCDD與24D1D沒有整併,這是因為當初紫雪藍海兄整理字頭時依的是大陸字形標準,24D1D與大字典字形有異,故另造了FOCDD,類似這樣的情形我記得有一百多例。這些年來我漸漸確立了「全宋體」的收字原則,所以陸續把這樣的情形做了一些調整。以此例來說,我後續會調整字形,建議您把大字典字頭定作24D1D即可。

      您說開心宋DEFG區的字形,大多掛在私有區,可是我看您這個「開心宋」,DEF區的缺字並不多呀,主要缺了G區的字。網友改造時用的開心宋或許不是最新的版本,我知道的最新版應該是有G區字的。不過我的印象它幾乎把所有glyph的空間都用光,應該塞不下額外的兩千字,或許是這原因,網友捨棄了G區字。

      刪除
    4. 上面列的kIRG_GSource:GHZ第一版信息(字、頁碼),既然不可靠,我接著就不特別在意了。這個比對的工作,原來是為了注意二版mdx好像漏掉的字頭,適合仔細檢查。(看來,kIRG_GSource:GHZ信息,字形接近就當做是那個字了,可以說是錯誤,也可以說是用個很泛的“unified character”觀念來指認字。)

      關於兩個字型的PUA,你講出全宋體的發展過程就make sense了。我之前覺得奇怪,怎麼字碼一樣,字形稍微不同,呵呵。其中有文章,我只能亂猜。

      實際上,我所注意的並不是那群2000重疊的PUA,反而是兩個字型在PUA區的脫離:既有脫離,我就知道這PUA字形一定有標準字碼。我在整理的大字典mdx,一千多字頭就是用這個方式來改的。PUA的脫離讓我知道該注意哪些字。

      這個mdx,需要糾正的標準字碼是少數,主要工作是補充G區字,和DEF區一大堆類推簡化字,把開心宋PUA改成標準字。另外,大概一百字頭,我決定適合用字型解決問題,可以擺脫PUA的需求:有的字頭,讓全宋體顯示,有的字頭,讓中華書局字型顯示。雖然字頭添加了重複字碼,但便於查字。最後還留下來的PUA字頭,也是全宋體所用的,可以用部件檢索來查。

      刪除
    5. 補充G區字,您可以參考我提供的G區字遷碼表。從您的描述,似乎您用的大字典字頭底稿是依據開心宋的PUA?方便的話,或許您可以留個私下的聯絡方式(Blogger 沒有悄悄話的功能,可以留言後立刻刪除,我仍會收到 e-mail 通知),也許我能幫上一點忙。

      您也是個有心人,願意花時間在這些細節上,繼續加油,也希望將來有機會能為共同有興趣的課題一起合作。

      刪除
  17. https://imgur.com/PIuk1Gd
    https://imgur.com/K9epk2y

    21660跟台源字形不合;好像用了2165B字形。

    回覆刪除
    回覆
    1. 這也是我困擾的事,Unicode 文件的標示與字形,常與各地區的標準單位不一致。以此例來說,Unicode 標示的台源字形是 T4-3C5D 上部从艹,可是實際查台灣的全字庫,T4-3C5D 的宋體字形上部从䒑(但明體、楷體卻从艹),總筆畫13,拆分部件為䒑幺幺大,筆順為丶丿一乚乚丶乚乚丶一丿丶,再再都顯示其認定的字形上部从䒑,其提供的實際字型也从䒑,這便是全宋體的字型由來。

      由於2165B也作此形,故此例可明確判定全字庫的字形有誤,我將進行修正。另有不少類似的情形,卻難以判定誰對誰錯。

      最近剛好又發現一例文件不一致的情形,可以佐證我所言不虛。2BA52 Unicode 標示的台源是 T3-672B,可是實際查台灣的全字庫卻無此字,也不知是 Unicode 標示錯誤,還是全字庫後來註銷了此字,總之是一團迷霧,呵呵!

      刪除
    2. https://imgur.com/dBRbY5b

      “全字庫後來註銷此字。”有意思,雖然字表也有台源字形,中華書局("ZH")特別採用越南字形,我第一次看到中種現象,也第一次看到口字旁在字體擺得那麼高。

      我以前作了個簡體繁體轉換表,過程中碰到非大陸規範的簡化字,其中有三十多V4來源的。V4指三個字書,漢字題目是:
      喃字詞典2006;
      岱喃字字典2003;
      沔南喃字榜查1994。

      刪除
  18. 𩀱29031 雔夂5902
    󰲜F0C9C 雔攵6535

    勾選“包容異體”,A部件查不出B字,B部件查不出A字。

    程序目前有:
    "590A":"5902"

    也許可以再加:
    "5902":"6535"

    回覆刪除
    回覆
    1. 雖然俗寫字經常混用「夂」、「攵」二形,但此二字的本義相距甚遠,且一般比較不會混淆,故未設成異體包容。「夂」、「夂」的本義雖也不同,但自古以來,古籍、字書二形相混的情形嚴重,包含現代的字形都夾雜不清,難論正訛,逼不得已,只好設定為異體包容。類似的情形還有「月」、「⺼」,也是本義不同,但不得不設定為異體包容。

      刪除
    2. 本義值得分辨,但俗字不講本義。我當時提出"5902":"6535",不是真的推薦,只是提出話題,自己沒做過實驗,不知道值不值得,代價大不大。也許會讓程序明顯跑慢了。這兩個畢竟是常用的部件,各有超過1000字,若讓他們互換,搜尋結果也許變得太泛。

      刪除
    3. 是的,我之所以沒有加入這一組異體相容,便是評估過敝大於利。原則上我還是會儘量讓部件各遵本義,除非如上所述自古已經交雜難辨者,否則不輕易相混。

      刪除
  19. https://imgur.com/iW0utWJ

    來源:GHZR(漢語大字典2e)-74003.07
    https://imgur.com/q6QEVEw

    回覆刪除
    回覆
    1. 這字形我是取自字形維基,與大字典的字形其實是一樣,左邊是一個「巳」。只不過某些字形書寫者為了美觀,常會把字形左邊的「巳」、「已」、「己」之最後一筆「背拋勾」,縮短成一個「倒勾」,讓字體架構看起來比較精神,所以二形是完全等價的。

      大字典引的書證是《直音篇・邑部》,實際查證《重訂直音篇》,其字形正是與字形維基一致(實際上比較像「已」,豎筆未封口,不過這是古籍、刻本常見的情形)。另外查我手邊有的歷代字書,《龍龕手鑑》、《集韻》、《重刊詳校篇海》均有此字,也都是作字形維基之形。

      所以不管是遵循古籍字書,或是著重現代美感,其形一也,沒有對錯。

      刪除
  20. https://imgur.com/fvJLALY

    據我理解,FAA4(字表:疒𥄳)為《全宋體》再次挪用,當「疒罒󰌬」(即761D日源、韓源字形)。

    既然如此,FAA4拆分可以更新:「疒罒󰌬」或「疒罒󰌬!疒𥄳」。

    回覆刪除
    回覆
    1. 非常細心,連這個您都能發現,呵呵!

      FAA4 確實是我再次挪用,原因是《漢字海》同時收錄了 761D 的陸源及日源(或韓源,事實上就是康熙字典)字形做為字頭,照 Unicode 的標準這是同一字,無法區分,可是《漢字海》硬是分成了兩個字頭,怎麼辦呢?

      當然我可以另立一個補充字來對應康熙字形,可是一般的情形下這二形是視為等價的,實在沒有必要再浪費一碼去對應,於是我找上了 FAA4。

      FAA4 對兩岸的使用者而言基本上是一個無用的「死碼」,因為它的字形與另一碼位的 24E04 一模一樣,也就是當您要用[⿸疒𥄳]這個字形時,應當用 24E04 這個正字,而不該用 FAA4 這個兼容字,所以 FAA4 形同是廢物,不被使用。既然它無用,又被 Unicode 定義為 761D 的兼容字,於是我靈機一動就拿來廢物再利用,略略改變它的外形,拿來對應康熙字形,既可再活化這個字碼,意義上也沒有偏離 Unicode 的定義太多。

      您的拆分建議很好,我會進行調整,多謝!

      刪除
    2. 761D康熙字體,也是王力字典和我常用的《故訓匯纂》所採納的字形。

      https://imgur.com/mn8B85m
      王力(默默)引了集韻反切,因為廣韻沒收。

      廣韻收的是「癏」。
      https://imgur.com/oBAJlaR

      《故訓匯纂》引了「癏」的反切來注「疒罒󰌬」。
      https://imgur.com/ORXzDYg

      (不知道《類篇》用哪個字形。)

      王力、《故訓匯纂》的字頭,在mdx我歸761D,又另外貼上全宋體FAA4來補充準確的字形。總之,我走過類似的路線,所以猜出你對FAA4的思路。

      刪除
    3. 《類篇》汲古閣本作 761D 台源字形;楝亭本、姚刊三韻本則作 761D 陸源字形。

      我對 mdx 的處理方式剛好與您相反,我用 FAA4 做為字頭,然後將 761D 跳轉到 FAA4。也就是顯示儘量與紙本一致,查詢則各形均可查到對應內容。

      刪除
    4. 《類篇》不同版本的字形,同時能顯出統漢碼的方便,和並陳的麻煩。

      《古音匯纂》(2019) 用陸源字形;算是規範化,字頭旁邊沒列出等同字形。

      關於mdx,嗯,我做法讓FAA4跳到761D;界面同時列出兩個字碼,一個以規範字表為主,一個考慮具體字型效果。
      若針對一個mdx來講,哪個跳哪個,查詢結果一樣。但以union dictionary來講,字頭用標準字,更能夠跟別的mdx通用,尤其有不是自己處理的mdx,像《中華大字典》mdx,數據來自官方網頁,字頭限制於標準字碼,這個mdx環境裡沒有761D-FAA4跳轉功能,也不適合加進去。

      類似問題:若我輸入「761D」codepoint,在《漢字碼字型譜》環境會跳到「瘝」,但union dictionary的其他mdx,這個「761D」查不出什麼,而且我們也不會想加這種跳轉。

      刪除
    5. 我說的是一般的情況,您想做的是以 Unicode 為基準的字典,當然不適合做這樣的跳轉,跳轉該怎麼加還是須依辭典的性質而定。

      至於您舉的的例子,我覺得並不影響添加跳轉的決定,譬如有一本字典A是別人做的,只有761D沒有FAA4,也沒有加跳轉,而我自己做了一本字典B,用了FAA4作字頭,同時加了761D跳FAA4的跳轉。當兩本字典聯合查詢時,若我查FAA4,當然只有字典B的內容出現;但若我查761D,則字典A、字典B的內容都會出現,而且我可以看出字典A用的是761D的字形,字典B用的是FAA4的字形。也就是說跳轉不會因為 union 其他的 mdx 而功能有所減損,何樂而不為。關鍵是您怎麼加跳轉。

      若我舉的例子您還感受不太出來的話,請把字典A、字典B用歷代的字書、韻書名稱代進去。當我查761D,看見《類篇》、《正字通》用的是陸源字形,看見《集韻》、《詳校篇海》是用台源字形,看見《康熙》是用日、韓源字形,您覺得這種「資訊」有沒有用呢,呵呵!

      刪除
    6. 作者已經移除這則留言。

      刪除
    7. 什麼意思?2B735 的字形應該沒錯呀(像個斜斜的繩梯),您的第二張截圖怪怪的。

      刪除
    8. nevermind。我這方的數據搞錯了,手工加了新的codepoint,忘記改具體的字。

      刪除
  21. https://imgur.com/ZPj96IE

    拆分應當改成或加上:「木卻」。

    回覆刪除
    回覆
    1. FAD2 的字形應該改回如 Unicode 的定義,這也是個死碼。「木卻」該用 2F8E7。

      刪除
  22. 󰊧F02A7
    𦭝26B5D
    前者是「羊罒」;後者在搜尋功能方面,等於是「草罒」,但字形反而从「羊」(因為採取T6-333E字形)。從使用《部件檢索》角度來說,「𦭝26B5D」的搜尋功能跟他的長相出矛盾,讓人疑惑。

    既然26B5D需要符合台灣標準字形,可以考慮讓兩個部件交換功能:讓26B5D辦F02A7目前的「羊罒」功能;然後把F02A7改成明確的「草罒」部件。

    那是大話題哈哈,接著提出區區修改:CDEFG區需要重新處理「草罒」:
    𫉼、𬁜、𬰖、𬴱、𬹛、𭋥、𭟭、𭲿、𭳡、𮄥、𮄦、𮓅、𮜤、𰵉、𰿃、𱆕、𱈙、𱈛
    都應當歸草。

    𭟤、𭬽、𮒽、𮓏
    已經修過,不用改。

    回覆刪除
    回覆
    1. 這一組的複雜度很高,所以一直沒去動它。

      這個字按字理應該作「羊頭」,而不是作「草頭」,作「草頭」是俗寫。由於大陸的字形原則上是不區分「羊頭」與「草頭」,所以提交的字形一律都做「草頭」,導致用部件檢索(勾選包容異體)去檢索時可以看到有些字作「羊頭」有些又作「草頭」,特別是 B 區之後,並不統一。

      理論上,這些字除了少數的正俗並立之外,字形都該統一作「羊頭」,以符合字理。不過這樣一來,茲事體大,所牽涉的字形又多,所以我還不敢去碰它。

      至於 26B5D 與 F02A7 字形造成了疑惑,這是因為台灣的細明體 26B5D 作「草頭」,與全字庫不同。早期的整理我是依細明體所做,所以留下了一些矛盾未及清理。這部份是該做一些調整、修正,容我在後續的版本中慢慢訂正。

      刪除
    2. 我自以為講究的地方,我太太只說我怪癖哈哈。我碰到這個兩個部件時,體會到是圍繞著正俗問題,也跟部件檢索通過不同階段的發展有關係。而且「󰊧󰓚蔑」這種組合部件,具體程序方面我不大懂,只感覺很難搞,既決定字形標準,又有彈力性。

      刪除
    3. 尊夫人真是一針見血啊,呵呵!我與幾位好友都自嘲自己是聚在一起的「龜毛」人士,哈哈!

      您若讀過那幾篇我記錄「部件檢索」開發過程的舊文的話,大概就知道我也經過「撞牆期」。若見到我整天在紙上畫著一棵棵「漢字樹」的情景的話,大概也要認為我是瘋子了,呵呵!

      刪除
    4. F02A7 修正作「草頭」。附帶一提,《漢語大字典》此字的釋義:「󰊧,同『苜』。《集韻・屑韻》:『苜,或書作󰊧。』」錯很大。

      《集韻》原文作「苜,目不正。或書作󰊧。」字有誤,當作「𥄕,目不正。或書作𦭝。」《漢語大字典》有「𥄕,目不正。」、「苜,〔苜蓿〕也作『牧宿』、『目宿』。植物名。」兩條,本條釋義、書證交錯二者,全盤皆錯。

      若此字的出處為《集韻》,字頭字形當作「羊頭」而不是「草頭」。

      刪除
    5. 山羊眼睛卻是挺怪,覺得「不正」是正常的呵呵。

      F02A7既然修正作「草頭」,相關的拆分也得改,例如:

      矒:
      目瞢:
      目󰓚目:
      目󰊧F02A7(改成𦭝26B5D)冖目

      也就是說,讓「󰓚」拆分為「𦭝冖」。

      刪除
    6. 相關拆分我都清理過了,另新增了一個部件字 U+F0460 󰑠(艹罒冖),與「󰓚」設成異體包容,以統整相關字形拆分。

      這些字我暫時還無力去一一探究本義、決斷該从「羊」从「草」,只能暫依現有字形各歸其部,留待他日專家學者們進一步去辨析。

      刪除
  23. 14.0的字:𫜸2B738
    https://imgur.com/JMcVNNP

    不知道全宋體是否已經分配了字形。若採取「T5-2160」字形,就會跟 叱2F83A 字形重複,等於把「口bǐ匕」字形從相容區搬到正式字集而已。
    https://imgur.com/9QDYEhO

    來源:GHZR(漢語大字典2e)-20619.05:
    https://imgur.com/rX2fZBk

    部件檢索分辨「匕、󰉿、𠤎」部件。
    2B738既然讀huà,我推測他的聲符是「huà𠤎」的訛文。(字形接近的「chì叱」,聲符實際上是「七」。)所以2B738不應該取用「T5-2160」字形。不知道你對這個怎麼看。

    回覆刪除
    回覆
    1. 2B738 全宋體已經分配了字形,您提的問題我也注意到了,所以此字不採台源的 T5-2160,改採陸源的大字典字形。

      「七、𠤎、匕、󰉿」的問題極其複雜,歷代字書已是亂成一團,昨天我與好友還為這個「吵架」(我們經常為字「吵架」,呵呵!)。

      「叱責」的「叱」據《說文》:「訶也,从口七聲。」其實應該作 20B9F 𠮟。但現今的標準字都用它的訛形 53F1 叱做為正字。而「化」字,台源右邊訛作「匕」,陸源比較合字理作「𠤎」。回來 2B738,《漢語大字典》:「huà,开口貌。」,當然這不是它亂掰出來的,《類篇》、《集韻》、《重刊詳校篇海》、《篇海類編》形音義均同。不過既音 huà,右邊當从「𠤎」,而《四聲篇海》、《字彙》、《康熙字典》此字的字形正是从「𠤎」作「叱」(叱責義則作「𠮟」),這下可好,又跟現代的「叱責義」字形打架了。「󰉿」形有些字書認為是「𠤎」的等價,有些字書卻認為是「匕」的等價。而《龍龕手鏡》:「𫜸,俗。𠮟,正。」2B738 又成了「叱責義」,總之,亂成一團,我也不知該怎麼辦,呵呵!

      刪除
    2. 作者已經移除這則留言。

      刪除
  24. 我在這樓有一堆刪掉帖子的痕跡,請你把痕跡也刪了,包括這個帖子。
    blogspot 沒有重新 edit 的功能,讓我覺得煩惱,我習慣先貼再修呵呵。

    回覆刪除
    回覆
    1. 沒關係,我看到就會刪除,盡情修吧,呵呵!

      刪除
  25. 全宋體 277F1、277F5 字形是重複的。

    https://imgur.com/hegNFfa
    https://imgur.com/RXqjmLn

    而且,雖然“𧟱277F1”字形是“覀服”,拆出來是“襾服”。

    277F1來源;GKX(康熙字典9e.1958)-1129.01
    277F5來源:G4K(四庫全書)-18240

    回覆刪除
    回覆
    1. 多謝指正!

      其實我最早做的字體叫「全明體」,是用細明體為基底做的。但細明體為商業字形,未經授權不能修改、發布,於是只好用全字庫宋體再做一個「全宋體」用來公開發布。這兩個字型雖然很像,但還是有不少個別的字形有差異。由於早期的許多字形修正工作都已經改在「全明體」裏,又沒有完整的記錄得以再複製一次修正到「全宋體」,所以我還不能放棄「全明體」,依然是我主要的工作字形,但如此一來,一些差異我也不容易發現。

      此字便是一例,在「全明體」裏,277F1 从「襾」、277F5 从「覀」,字形沒有重複。而「全宋體」因為是台源字形所以重複了。字形重複並不合理,故我會修正「全宋體」,277F1 依陸源改从「襾」。

      維護兩個字型當然是費事的,我也努力在讓兩個字型一致,等到一致的那一天,「全明體」就可以功成身退了,

      刪除
  26. 󲆸
    拆分:亠夕㇃丶
    改成:亠夕㇂丶

    除了形狀方面,“㇃”部件也只出現在這一個字;不如部件合併。

    回覆刪除
    回覆
    1. 多謝!已修正。由於拆分資料蒐集自不同來源,數量又太龐大,我無法逐一都做檢查,故還有不少瑕疵,只能邊用邊改。

      刪除
  27. 我建議設個特殊的“救命啊”部件,讓它在搜尋方面包含著所有超級罕見的部件。需要勾選“包容異體”才能用上這個特殊部件。

    這是針對“部件鍵盤”的設計。使用者對鍵盤的需求是有矛盾:一方面,需要常用的部件;另一方面,部件檢索畢竟是來查僻字,所以鍵盤需要提供(普通輸入法)打不出來的部件。(補一句:不但打不出來,用拆分法也不方便拆出來的又元素又奇怪的部件。)問題是:把一堆罕用、難輸的部件堆在鍵盤太繁雜,又大佔空間。不如造個特殊部件來包括這種超級罕見的雜類。

    回覆刪除
  28. 舉個例子:
    𡆢211A2
    拆分:囗α

    使用者若不知道要打“α”,就完蛋了,要去翻所有“囗”部件的字。

    若有“🚑救命”部件,用鍵盤打“囗🚑”就得了。

    回覆刪除
    回覆
    1. 這是個好建議,不過什麼是「超級罕見的部件」恐怕不容易定義,每個人的認定也會不同。這樣的功能需要修改程式才能達成,須得構思的更清楚一些才好動手。

      刪除
    2. 超級罕見怎麼定義,難免有點任性。但我們知道“道生一,一生二,二生三,三生萬物。”三嘛就冒出萬物,所以就劃分在二吧。

      刪除
    3. 問題是您的「二」可能是 A、B、C,我的「二」卻是 A、B、C、D。若不能讓使用者有個直覺的明確範圍,這功能恐怕只能是使用者心中那個「留之無用,棄之可惜」的雞肋功能。

      刪除
  29. 14.0,舊字更新了字表:

    3777、6AC0
    https://imgur.com/eMUoNBk
    https://imgur.com/TWZzy47

    22ADC、230F2、25B27、26F28
    https://imgur.com/71erGqd
    https://imgur.com/XvyDGX2
    https://imgur.com/4HgRpZR
    https://imgur.com/yU4bDS3

    回覆刪除
    回覆
    1. 多謝告知,前兩字先前已修,後四字我會再修正。

      刪除
  30. 全宋體,𥡤25864、𥡱25871 字形重複。
    https://imgur.com/C5gDvkd

    回覆刪除
    回覆
    1. 「全明體」不誤,修正「全宋體」,25864 改依陸源。

      刪除
  31. 這個挺怪的:𦭠26B60、𦭫26B6B 字表一樣。
    https://imgur.com/QE9UuVk
    https://imgur.com/RKI1woC

    全宋體應當讓兩個字形交換。

    𦭠26B60:GHZ(漢語大字典1e)-53194.03
    第二版:https://imgur.com/c9XTQQO

    回覆刪除
    回覆
    1. 這是 Unicode 的歷史錯誤,由於當初 B 區提交的字數眾多,審查不夠嚴謹,導致重複收字,類似情形我記得還有好幾處。「全宋體」是依台標,所以字形不會再調整。其實這二碼就是同一字,字形讓它微異只是方便辨認,字典應該做好跳轉即可,沒必要為 Unicode 搞錯的事,再多花咱們的腦筋,呵呵!

      刪除
  32. 21F2C、21F12 不合字表。要互相替代。
    https://imgur.com/0zuk3gJ
    https://imgur.com/hY6Ink1

    回覆刪除
    回覆
    1. 「全明體」已修過。修正「全宋體」,二形交換。

      刪除
  33. 𢡍2284D,只有中華書局符合字表。
    https://imgur.com/iNRwQfY
    https://imgur.com/yYBpOuR

    而且,全宋體字形跟 󰳀F0CC0 重複。

    回覆刪除
    回覆
    1. 「全明體」已修過。修正「全宋體」,2284D 依陸源。

      刪除
  34. 𦒯264AF 應當怎麼寫拆分?
    𠷎殳羽
    𣪾羽
    合併兩個部件,搜尋方面有何區別?

    回覆刪除
    回覆
    1. 以此字來說,拆成「𣪾羽」較好,此字在《集韻》中便寫成是「⿱𣪾羽」。古籍中書寫這類字常會有不同的「部件錯位」寫法,其實都是同一字。

      在部件檢索中拆分要愈少愈好,以您說的兩種拆分「𠷎殳羽」、「𣪾羽」來說,若輸入「𠷎殳」兩者可都檢出;但若輸入「𣪾」則只有後者能被檢出,所以後者的涵蓋性較好。我會修正拆分。

      刪除
  35. 󴕠F4560 缺形;按拆分,有意取用 𠍶20376 陸源字形。

    https://imgur.com/JmHF99V

    回覆刪除
    回覆
    1. 此字我也掙扎了很久,二形差距極小,一般均視為相等。大多數字書均作陸源之形,也有少數作台源之形。可是《異體字字典》二形並立,因此全宋體也得兼收,只好按慣例,正字 20376 採台源,陸源只好補到補充字 F4560 去。

      刪除
  36. 𱄗31117 與字表不合:
    https://imgur.com/jupyjRs
    :馬󰛖

    𦫉26AC9
    :舟龜||舟󰱗

    󸓿F84FF
    :囗龜||囗󰌢?

    回覆刪除
  37. 𨞤287A4 不合字表:
    https://imgur.com/Cp6zYtz
    https://imgur.com/MoB77hK

    回覆刪除
    回覆
    1. 「全明體」不誤,修正「全宋體」。

      刪除
  38. 嶶,港字,PUA有一模一樣的字形。兩個不是 擴展區字--被淘汰PUA字 的關係,所以奇怪。
    https://imgur.com/hqSCQjq

    回覆刪除
    回覆
    1. 應該是有差異的字形,5DB6 是台源字形(从儿);F74D6 是陸源字形(从几)。這二形原本應該認同沒必要並列,但《漢字海》二形兼收,所以全宋體也兼收以便對應。

      刪除
    2. 哦,卻是不同字形。我當時沒注意到。

      刪除
  39. 襔8954,全宋體用細明字形,細明不合字表。
    https://imgur.com/jGRik5I

    屬於香港核心課程。我沒用過,但知道 mingliu.ttc 有一層是港字字形;本來想...這個細明字與眾不同,也許是針對香港而造的,但字表提供的香港規範字形不是長得那樣。奇怪。

    據kIRGHanyuDaZidian,這個字排在第一版5.3113.161
    但後面那個“1”號應當代表理論上的排次,而不是具體的位子。(“1”號只佔55812條的1260。)

    回覆刪除
    回覆
    1. 修正全宋體字形。大字典第一版實際上並沒有收錄這字,kIRGHanyuDaZidian 的標示只是以第一版的字頭為基準,做為一種排序的參考。

      刪除
    2. 修正全宋體字形,「8954 襔」與「F7C7E 󷱾」字形互換。

      刪除
    3. 嗯,“1”號字頭,大概一半(按核心課程的信息、和大詞典的說法)是港日韓用的字。

      刪除
  40. 柡67E1:木二水||木永

    參考 栐6810 日、越字形。《教育部異體字字典》漏掉“栐”。



    回覆刪除
    回覆
    1. 修正拆分。「《教育部異體字字典》漏掉“栐”」是什麼意思?《教育部異體字字典》有「栐」字呀,在 https://dict.variants.moe.edu.tw/variants/rbt/word_attribute.rbt?quote_code=QzA1MDU1LTAwMQ。

      刪除
    2. I see. 那我用的mdx不夠新,或沒抓成。
      但我的意思是栐字應當列於柡的字條裡面。

      刪除
    3. 您仔細看我貼給您的網址頁面,「栐」字正是列在「柡」字條下的異體字。我猜您可能是用論壇抓取的版本,這版本我只有匆匆一瞥,沒留(因為我有我自己整理的版本),感覺它好像並沒有完全體現原典的精神(我並沒有深入去看,說錯勿怪),是不是您因此受到誤導?您手上有 mdx,好好跟原典對照一下,看是不是有結構上的差異,這樣您可能也會更了解《異體字字典》的體例,它是個值得多用好工具。

      刪除
    4. 《異體字字典》目前最大的問題便是使用了大量圖片字,能用 Unicode 去檢索的只有不到兩萬字,這造成了查詢上極大的不方便。我與 suns99 兄目前正在努力的便是將這些圖片字跟 Unicode 接軌,能還原成 Unicode 字的還原,Unicode 沒收的就加進補充字,總之目標便是希望讓《異體字字典》的每一個字頭都能用「部件檢索」來檢字。目前的進度已經能檢索 66914 個字頭,其餘的尚在努力。

      刪除
    5. 嗯,我在論壇抓的有問題。it's to be expected. 但漏掉的東西不好發現,畢竟沒留痕跡。

      刪除
    6. 《異體字字典》顯字的圖片,字形是按照證據資料來定形,還是配合台灣標準字?圖片既然不能拷貝來用,我一般只是掃一眼,沒特別去注意這方面。

      刪除
    7. 應該都有,不過《異體字字典》所定的字形有時也會有失真或錯誤的情形,好友 suns99 兄就經常給他們糾錯,所以多看原始書證還是重要的。《漢語大字典》雖是有旗標地位的好字典,錯誤還是不少,好友們發現討論過的錯誤我都會一條條記錄下來,累積也有一百五十幾條。所以「盡信(一本)書,不如無書」,還是要養成多方查證的好習慣,呵呵!

      刪除
  41. 請問有 牜周 這個字嗎? 檢索找不到
    https://imgur.com/HjvqLqg

    回覆刪除
    回覆
    1. 有,用「牜周」即可查到,「󶗎」收在補充字區。您是否沒有將「限標準字」的選項取消勾選?若沒有取消,只會查到 Unicode 有編碼的標準字,取消勾選後則可以查到「全宋體」增補的補充字。不過這些補充字不是官方的標準,只有安裝了「全宋體」的電腦才能正確顯示,使用時請特別留意。

      刪除
  42. 建議讓 𡺛21E9B、𡸓21E13 部件可以彼此查出來(若勾選“無理拆分”):
    𡺛21E9B@山仌丨仌
    改成:@山丨𠈌!屮𠈌
    (𡺛21E9B 是大字典第一版的字頭;𡸓21E13 是第二版字頭)

    這些“仌仌”、“从从”,可以考慮合併為“𠈌”:
    󱺢@仌仌@从从
    𡺛@山仌丨仌
    󻷱@爫冂仌丨仌王
    󻸆@爫冂仌丨仌𨐌
    󽗱@爫冂仌丨仌虫
    󾁙@爫冂仌丨仌見
    󾘵@門冂仌丨仌
    𤑼@火日仌丨仌亏
    𤳋@𠆢仌丨仌田
    𤻣@疒仌丨仌一日
    𡹽@山仌乚仌
    󾟠@釒󰊸仌工仌

    󻴦@𠃊止从一从斤
    𠚕@凵从一从
    󳳴@山凵从凵从
    󷝀@󸸤从一从𠃊
    𣦊@止从一从
    𢍩@从囗从廾
    󶼽@𠃊从日从
    𦠗@仌仌仌⺼

    還有,拆分中的 仌4ECC、仌2F819 兩個部件,是否應該統一。2F819在拆分出現4次。

    回覆刪除
    回覆
    1. 𡺛21E9B、𡸓21E13 《大字典》一版兼收,二版可能認為重複故合二為一,不過字頭卻採用「𡺛21E9B」,與《說文》羌字古文不合。《異體字字典》𡸓 A03216-002 下說明即有:「其中豎筆當貫下,亦有衍訛作𡺛者,即從此形衍變。」

      您的建議很好,我大致均予採用,唯「󱺢」的拆分不能合併,合併了即無拆分。另「𢍩」的从似乎位在不同層級的部件裡,可能不適合合併。拆分有經適度優化,與您建議所列略有小異。

      刪除
    2. 嗯,我講兩個版本的字頭,剪貼中搞混了。(開始剪貼時就變成像機器人一樣呵呵。)

      上面第二組字的“𢍩”,我也覺得是另類,讚成你的做法。

      刪除
  43. 𫠦2B826 不合字表:
    https://imgur.com/tVxyS7C

    回覆刪除
    回覆
    1. 差異不大,此俗字在古籍中常見,中間這一筆作點或是短豎筆的均有。當初此字的字形應該是取自 BabelStone Fonts,他的短豎筆造得略長了一些,我會再調整字形,感謝您的反饋。

      刪除
  44. 󻘢FB622
    ⺸2EB8

    既然兩個字形一樣,FB622沒有提供特別的用處,我覺得。
    2EB8雖然屬於CJK Radicals Supplement而不是正集的字,他畢竟是標準字碼。
    除了全宋體字集以外,這也涉及到部件檢索用的拆分。拆分方面,兩個是同等意思,不如用標準碼。

    回覆刪除
  45. 󻘢FB622
    ⺸2EB8

    既然兩個字形一樣,我在想值不值得另外造出私有區的FB622。
    2EB8雖然屬於CJK Radicals Supplement而不是正集的字,他畢竟是標準字碼。
    除了全宋體字集以外,這也涉及到部件檢索用的拆分。拆分方面,兩個是同等意思,不如用標準碼。

    回覆刪除
    回覆
    1. 其實我忍了 ⺸2EB8 很久,後來忍不下去才造了 󻘢FB622,呵呵!

      ⺸2EB8 真是個奇怪的部首字形,羊頭,下面卻不是個「干」形,而是個上橫畫長、下橫畫短的字形。在目前所有全宋體收錄的字形中,含有 󻘢FB622 的有 93 個,而含有 ⺸2EB8 的只有 1 個。也就是說絕大多數的字形羊頭下都作「干」形,我就不懂為何當初定義 ⺸2EB8 時,下部卻不作「干」形?如果說 ⺸2EB8 的上長下短字形才是對的,那麼為何其他的字形卻都作上短下長?

      或許有人說不管上長下短、上短下長其實都一樣,都是同一個字。是的,是同一個字,不過 󻘢FB622 的字形我怎麼看都覺得怪(違反了漢字平衡、穩定的原則,呵呵),又不好擅改它的字形,只好再造出一個 󻘢FB622 來,一方面滿足了視覺上的平衡,一方面我賦予它的定義是個漢字(羊的異體字),而不是個部首字形,以與 ⺸2EB8 別。

      刪除
  46. “不好擅改它的字形”

    為了糾正2EB8,全宋體另外造字,難道不是“擅改”?曹操擁護獻帝,遷都許昌,今日叫他君主,明日自稱皇帝。這個FB622不就是許昌嗎?

    弄出許昌,不如重建常安,把2EB8建構為“艹干”,上短下長。

    “含有 ⺸2EB8 的只有 1 個”

    這也證明2EB8是有問題的。部件檢索既然把這個“supplemental radical”的字員都奪走了,剩下只給他一個字,它究竟還算是“radical”嗎?全宋體雖然名義上沒“擅改”,但部件檢索的拆分才是實力,把字員都歸於FB622。要篡位,就徹底吧哈哈。

    我正在修改王力字典的數據,發現方正也不接受2EB8的字形,所以另外造個F10E4。
    https://imgur.com/7malwC5

    又有許昌又有鄴。天下好多私有明堂,好亂哈哈。

    回覆刪除
    回覆
    1. Unicode 是個國際標準,我不接受2EB8的字形,不代表別人就沒有使用它,我若擅改2EB8的字形,或許別人的文件就會出問題。這就是標準的精神,若人人可以擅改,那標準就不是標準了,那才是真正的天下大亂呢,呵呵!

      刪除
    2. 按Unicode定義,2EB8是個部首,而部件檢索把這個部首改成空虛部首,一個標準字員都沒有!一個部首若無字員,哪算是部首?部首是來歸類的,現在變成有類無員。所以實際上部件檢索卻是改了Unicode的定義,做出另一個標準。
      我想說的是,在實踐方面,全宋體跟部件檢索是一套的:既然部件檢索的拆分改了Unicode定義,做完整的話,就同時改全宋體的2EB8字形。改不改,當然你做主。我只不過提出一些想法。

      既然談到私有區的事,我建議讓全宋體私有區字跟中華書局字型 -- 在權威字典的字頭方面 -- 盡量用一樣碼位。這樣不但對使用者提供方便,也讓全宋體更能夠變成一個廣用的工具。要不然,在某些種情況下,使用者必須取一棄一。何必呢?

      拿王力字典為例,它有12,421字頭,都能夠轉成標準字,除了這兩個字頭:
      ⿱⺾狵:中華書局 F1CFD;全宋體 F0AB2
      ⿰犭賔:中華書局 F7F0B;全宋體 F65E1

      王力字典數據是用中華書局字型,不能用全宋體顯示:一方面兩岸字體不同(王力字典也有很多舊體字頭,是用中華書局私有區來補充),另一方面王力字典數據原來有200多中華書局私有區字,雖然大多能轉成標準字,還有很多不能轉,也是全宋體沒有的字形。總之,這個數據不能擺脫中華書局字型,尤其是他的私有區。如果全宋體跟中華書局在這兩個字頭,碼位若有分歧,那我必須加跳轉,讓(通過部件索查出來的)全宋體字跳到中華書局私有區字。同時,我在漢語大字典mdx,應該加中華書局私有區字跳到全宋體私有區。不如讓這兩個私有區字頭用同一個碼位。

      這個建議是有限制,不是說兩個私有區要一致的(那是不可能的),只是說希望在字典字頭方面盡量採取通用的碼位,也就是上面兩個字。

      有一件事想向你請教,王力字典,“疒”字條(751頁),有“⿰大矢”這個字。這是“疾”的異體字嗎?“大”這個部件,跟“仌厂”、“疒”有關係嗎?

      刪除
    3. 這只是個認定的問題,您認定這字形就一定是 2EB8,不作 2EB8 就是改變了 Unicode 定義。我的看法不同,部件檢索的拆分並沒有改變 Unicode 的定義,只是依據字形的事實予以補充,完全不影響使用者的使用。

      「讓全宋體私有區字跟中華書局字型用一樣碼位」,基本上這是不可能的事。部件檢索與全宋體的製作遠早於中華書局字型的發布,我又怎能事先預料把編碼跟它一致?呵呵!再說我也不可能為遷就一本字典就更動編碼,那麼那些原先使用全宋體整理文件的人怎麼辦?試想,您今天若用全宋體整理了《漢語大字典》、《王力古漢語字典》的缺字,哪天我卻逕自把這些缺字搬了個家改變了編碼,您辛苦的整理瞬間變成了廢物,您可以接受嗎?

      您說王力字典有些字全宋體沒有字形,事實上在幾年前我就已經把《辭源》、《字源》、《中華大字典》、《王力古漢語字典》等等字典出現的缺字全部整理進全宋體了,除非是認定不同,否則應該是不會有缺。我倒是好奇,您能舉幾個全宋體缺字的例子嗎?

      關於「⿺大矢」這個字,全宋體收在 F65F1 󶗱,應該是個甲骨文的直接隸定字。至於字形意義各家說法不一,一說這個「大」形是個人,人中箭所以有「疾」。一說「大」形是「𡯁」,人有疾病走路不穩,需倚人而行。我不是古文字專家,不敢妄說誤導,您可以參考《古文字詁林》、《古文字釋要》這兩本書,我製作的《說文解字》「疒」字條下有它們的頁碼。

      刪除
    4. 用英文說,我的角度強調 spirit of the law (法律的精神和用意),你的角度強調 letter of the law (法律條文和文字)。其實,在其他情況下,我也覺得兩個字是該分辨,但覺這個狀況較特別,Unicode的用意是讓它當部首。雖然你強調字的“條文”,在其他情況下也不見得會計較一長一短,會看字的“用意”而當做是一樣的字(否則要造出多少glyph!),但這個“條文”呢,美觀方面看不過去。

      王力字典的數據,用上160獨特私有區字,又另外提供將近200圖片來代表中華書局缺乏的字形。(其實,這兩個補充也不完全夠,如果真的講“條文”。)私有區包括這些:
      https://imgur.com/rvlPGM6

      這些本來都是圖片,但分辨率低,而且紙書模樣抓得再好也就那樣,我看不過去,所以給他們都造了glyph,按照中華的規度跟風格。
      https://imgur.com/45RyXSp

      有一群是把康熙“冎、骨”跟新體“艹⻌”放在一起,自然沒有任何字型會有。原來是圖片,難看。
      https://imgur.com/gLy1tKQ

      還有小篆跟甲骨文。(我知道全宋體也有一群,只不過部件檢索連不上。)最下面較醜陋的本來是圖片,我只能 trace contour 而轉成glyph。掛在16平面。

      https://imgur.com/LbdKCOj

      私有字形我另外包在一個特製TTF,出現在數據的地方,用html/css標上,讓特製字型來顯示。之所以大多glyph都掛在標準碼位,是按照標籤的條件才會顯示。一方面,我盡量不用私有區碼位,另一方面,中華書局跟全宋體有六萬多重疊的私有字碼,我不想同時用兩個又重疊又能有衝突的標準,影響工作的各個方面,包括跳轉的處理。“⿺大矢”,數據提供圖片,我後來掛在全宋體碼位。

      謝謝你對“⿺大矢”的解釋。我知道全宋體有這個字,你一定為了某個文獻而加進去的。我翻了很多字的異體字表,但抓不到變形的線索。

      刪除
    5. 稍微看了您提供的圖片,有些字全宋體已收,有些則確實沒有。不過某些字沒收的原因是因為它是錯字,例如:「⿰礻冉」其實該是「袡」、「⿰卒皮」其實該是「𥀏」等等。《王力古漢語字典》的書證例句幾乎都是照搬《漢語大字典》跟《辭源》,您可以相互對照看看便知。由於只有字形圖片沒有前後文或詞條相關位置,我難以一一查證,不過我相信當初全宋體之所以沒收,應該都有其理由。

      全宋體已經把 15 平面用罄,下一次的更新應該就會啟用 16 平面。

      不客氣,希望我提供的線索對您有用,也歡迎隨時來討論。最近把與好友整理漢字過程查得的一些資料記錄在一個新的部落格(陸續擴充中),還在調整測試沒正式發布,您對漢字有濃厚興趣,有空或許可以進來看看,歡迎指正或是提供補充材料。

      難字錄:https://rare-han.blogspot.com/

      刪除
    6. “罒革月”和“礻冉”我糾正了,別的暫時擱著。

      2B8DE,字形跟拆分不合。
      https://imgur.com/3PhVdfn

      (中華反而用舊體)

      刪除
  47. 𤪬:⺩𥈜‖⺩𥈜
    拆分有重複

    回覆刪除
  48. 𥍙:󰒤󰒤󰒤‖󰒤󰒤󰒤

    回覆刪除
  49. FSung BMP區字型有大概5,000非標準codepoint的glyph name,開頭是”_”。大概是替換字形之後,自動重新命名。除非有特別意義保留,刪掉能減體積。

    回覆刪除
    回覆
    1. 暫時還不能刪,字型還有一些屬性沒搞定,由於不影響使用,還沒空去理它,呵呵!

      刪除
    2. 原來如此。屬性怎麼說?

      刪除
    3. 最近都在衝刺《教育部異體字字典》的字頭清理,等有空再跟您細聊。

      刪除
  50. 商業字型偶爾用"_X"當做element,用在不同glyph,免得重複字形的成分,但FSung的“_”看起來不是這類的。

    回覆刪除
  51. 建議:
    󰊊:丅口丄 or 󶌽二

    回覆刪除
  52. 請問有 艸吐 這個字嗎? 檢索找不到

    回覆刪除
    回覆
    1. 目前確實沒有收錄,請問是出現在哪一本書?能否提供截圖?若是值得收入,我可以造字,在下一版提供。

      刪除
    2. https://imgur.com/wXVb7kr
      https://imgur.com/BlGawlx

      刪除
    3. 詢問了一位朋友,經他指點,我大致清理了一下聖經、聖詩的缺字。包含這個「⿱艹吐」,目前計有 75 個字「全宋體」尚未收錄。如果時間許可的話,我會試著把這些字形造出來,加進補充字。

      刪除
    4. 感謝,有幾個字在power point 下放大字體,會產生底線 https://imgur.com/w8uc0la

      刪除
    5. 看畫面感覺不像是字型的問題,而是那幾個字不知什麼原因被加上了連結。

      刪除
  53. 2FA1A鼏、鼏9F0F,字形重複。應當由區分,參照T5-5351。

    回覆刪除
    回覆
    1. 如果參照 Unicode 所列的 T5-5351 字形,又會與 2A503 字形重複。實際查 CNS 的 T5-5351 字形,與 9F0F 同,與 Unicode 所列的 T5-5351 字形有差異,我目前便是依 CNS 字形。

      刪除
  54. 回覆
    1. 簡而言之,不要用 2FA1A。應該用 9F0F 與 2A503 來區分二形。

      刪除
    2. 嗯,相容字2FA1A可以降級。

      在中華書局字型,2A503、2FA1A上的冖有不同長短。
      https://imgur.com/o9vMGGI

      刪除
    3. 呵呵!那一點點長短的差異沒什麼實質意義,若是要區分冖的長短,該以 2056A 來區別比較有實質意義。

      刪除
  55. 請問有 穴角 嗎? 在最新版沒找到。https://imgur.com/9SyWLxc

    回覆刪除