2023年10月11日 星期三

漢字使用環境的建置 —— 部件檢索重要更新暨 Unicode 15.1 全宋體更新

全新的嘗試

「部件檢索」發布於 2015 年,八年來一直穩定地擔負著檢索「難檢漢字」的工作。期間歷經多次的擴編漢字,由最早的七萬多漢字到現在的近二十萬。也做了一些小改進,但整體的運作方式基本上並未改變。這一次的改版,我大膽嘗試了一項新的——「異體檢字」功能,讓「部件檢字」與「異體檢字」得以混合使用、相互支援,這讓檢字的操作能夠更加地靈活、方便,堪稱是一項突破性的創舉。


異體檢字

其實「異體檢字」的想法我已醞釀多年。最早只是個模糊的概念,知道要往這方向努力,但說不上來該怎麼做、能做些什麼?直到完成了《教育部異體字字典》的字頭清理工作,這想法才逐漸清晰起來,但具體該怎麼做?仍是毫無頭緒。

隨著一次次的擴增漢字、更新字庫,我也不斷在思索,該怎麼把「異體檢字」功能融合進「部件檢索」裏?資料該怎麼安排、記錄?又該如何運算?

直到「漢字構形資料庫」的字頭清理完畢,能完整展現它的異體字表(以《漢語大字典》第一版的異體字表為基礎)後,一切時機似乎都成熟了。於是開始動手,花了一天的時間修改程式、調整操作介面,做出了一個雛形。又經過一段時間的試用、改進,終於實踐了我的想法,把「異體檢字」功能正式推上檯面。



回顧這一路走來,雖然並沒有明確地計劃,但無形中我的不成熟想法,卻似乎一路引領著我朝著特定的方向前進,結果卻像是個有系統的漸次推進,逐步完成了相關數據的收集,讓醞釀多年的想法,得以「一夕成形」。


介面調整

因應新的異體檢字功能,操作方式略有調整:
  1. 略微調動了畫面元素,讓垂直方向的版面更爲緊湊,以便有更多空間可以顯示查詢結果。
  2. 廢除了複製模式的切換,現在不管是「虛擬鍵盤」或是「查詢結果」統一都是點擊滑鼠右鍵可以直接複製。隨時點擊隨時複製,不再需要切換模式。
  3. 「查詢結果」的每個字塊,現在分做田字形的四個區域,左鍵點擊不同區域各有不同功能,如版面右上角的圖例所示。例如左鍵點擊字塊的左上角是查詢該字的異體字,點擊字塊的右下角預設是跳轉字統網查字。
  4. 除了原先「黑三角按鈕」的「部件查字鍵」外,新增一個「白三角按鈕」的「異體查字鍵」,可以直接在輸入框打入想查的字,再按「白三角按鈕」(或者 Shift + Enter)即可查出所有異體字。輸入框若已輸有很多字,不必消去,直接反白選擇想查的字,再按「查字鍵」即可。
  5. 異體字的查詢結果,以「正體字」領頭(橘色虛線框標示),其他異體字跟隨其後。若該字分屬於多組異體字關係,則依序折行將多組異體關係列出。
目前異體數據只是快速地粗定,《異體字字典》與《漢字構形資料庫》的異體字表有一千多組有衝突,雙方認定的正體字多有不同,必須人工一一校閱調整。尚有八百組待查,還在慢慢努力優化之中。另外簡繁漢字的異體關係也須進一步整理、增添,日後會逐步優化。


操作實例


例如要檢索「󹞍」這個字(字見於宋刊本《玉篇》):
此字右旁的部件「󲠤」略為麻煩,需拆為「⺈㔾丶」來輸入,但知道是「色」字異體,因此可以先在輸入框中輸入「弗色」兩個部件,接下來:
方法一:按一下「部件查字鍵」即可查得「艴」字。
然後左鍵點擊「艴」字字塊的左上角,即可查得「艴」字的異體字「󹞍」字。
方法二:反白選取「色」字,再按一下「異體查字鍵」即可以查得「色」字的異體「󲠤」字。

左鍵點擊「󲠤」字字塊的右上角,「󲠤」字即會替換輸入框中原先的「色」字,再按一下「部件查字鍵」即可查得「󹞍」字。
方法二的操作步驟雖然較多,但若希望能打出精確的部件時,可以用此法。只要靈活地交替使用「部件檢字」與「異體檢字」的功能,便可以快速地檢索到想要檢索的字,十方便利。


擴展  I  區

最新的 Unicode 15.1 已經於 9 月 12 日正式發布,對於漢字來說最主要的就是新增了 622 個擴展 I 區字形。這一版的全宋體與部件檢索已經完全支援新的 I 區字形,遷碼表也已完成,共計有 229 個既有的補充字被收入擴展 I 區,也就是對「全宋體」來說實際上只有 393 個字真正屬於新增。這既有的 229 個補充字已經予以註銷,遷往擴展 I 區所定義的新碼位。我花了一天的時間將我製作的四百多部詞典全部完成遷碼,如果您的文件曾使用到這些補充字,建議您儘快利用我所提供的 I 區遷碼表完成遷碼的動作,否則一旦更新了全宋體就會導致這些字無法正確顯示。


零星增字

除了擴展 I 區之外,事實上這一版的「全宋體」還增收了一些新字。

「漢字構形資料庫」裏整理有《中文大辭典》的字頭索引,但不知何因,只收錄了 47974 個字頭,與紙本實際的 49905,短少了 1931 個。這部分八月初央請了 suns99 兄幫忙,辛苦地逐一查閱紙本,歷時一個月,把近兩千個缺漏字頭補上。我再針對缺字,新造了近二十個字形,終於補全了《中文大辭典》的所有字頭。

《全唐詩》是詩詞領域裏一部重要的彙編,這次的「全宋體」也補全了《全唐詩》的所有缺字(依據中華書局本《全唐詩》,《全宋詞》則早前即已補全),讓大家在摘錄、引用這些詩詞時,不再需要忍受缺字的痛苦。

另外論壇的 klwo 兄也提供了《古白話詞語彙釋》的詞頭缺字統計,我據以新造了 18 個字形,補足了所有的詞頭用字。此外 Mastameta 兄也陸續匯報、提供了一些缺字字形,還有就是零星補造了一些整理字書時發現的缺字。相比於上次更新,總計共增添了四百六十餘字。


字形優化

上次更新時提到「漢字構形資料庫」有 10654 個字形屬於既收字,這些字形可擇其優者替換掉「全宋體」原先質量較差的字形。這項工作前次未及完成,現在已經全部完成,共優化了數千個既收字形,提供了更好的字形品質。


優化拆分

當初向國教院申請的《教育部異體字字典》拆分數據,部件殘缺的情形十分嚴重,但由於數量龐大,一直以來我僅能邊用邊小幅度地修正,抽不出時間大規模修訂。八月中旬 Walter Pai 兄終於跳進來幫忙,協助校訂這些有瑕疵的拆分數據。九月初完成了第一批三千字的校訂,經我粗略潤飾,已經加入「部件檢索」替換掉原始的瑕疵數據,讓這三千補充字能更正確地被檢索,大幅降低了漏檢的可能性。後續大約還有一萬餘字待校,Walter Pai  兄還在努力之中,只要有新的進度,我會陸續更新給大家。


未竟之工

原本預計今年的上半年要將「漢字構形資料庫」的字頭清理完畢,下半年則開始回到「CBETA 缺字資料庫」的整理工作。前一件已如期完成,但依我目前的工作量能,十月中仍未能開始,後一件應該是難以達標了。照顧家中兩老,嚴重地壓縮了我所能支配的工作時間。不過我不會放棄,慢慢做,總有一天我能把「CBETA 缺字資料庫」的整理工作完成。


鳴謝

感謝這些原字型製作單位與作者的無私奉獻。
感謝老友 suns99 兄,總是不離不棄地與我並肩作戰。
感謝老友紫雪藍海兄,提供了許多數據,供我整理之用。
感謝好友 Mastameta 兄,陸續提供了一些勘誤與優化字形供我替換。
感謝好友 Walter Pai 兄,辛苦地協助校訂拆分數據。
感謝好友 klwo 兄,提供了許多索引數據,供我增補缺字。


現將此成果無條件分享出來,樂見學術研究、教育工作、個人閱讀這方面的運用,但請勿用做任何形式的商業營利行為。希望「全宋體」這個大型字庫以及「部件檢索」這個檢字工具,能在漢字文化的整理、研究上幫上一點小忙。

下載連結:全宋體.zip
下載連結:倉頡碼表.7z (僅保留漢字部分,請自行併入您慣用的碼表)

安裝字型的方式請參閱 漢字使用環境的建置 ㈠ —— 顯示篇 的說明。






勘誤:

  • 䲢􅗪重複,後者註銷。(2024/04/23)
  • 贈󽿋重複,後者註銷,字形依後者。(2024/04/22)
  • 󾽰􁟑重複,後者註銷。(2024/04/22)
  • 㞊󿂃重複,後者註銷。(2024/04/17)
  • 󻚡󿖊重複,後者註銷。(2024/04/16)
  • 󶗆󸙣重複,後者註銷。(2024/04/08)
  • 𧞌󿙢重複,後者註銷。(2024/04/08)
  • 󶗮􄶫重複,後者註銷。(2024/04/06)
  • 驴􂚄重複,後者註銷。(2024/04/04)
  • 「󻑑」字註銷,《教育部異體字字典》第七版改作「𩱀」。(2024/04/01)
  • 「󵗒」字註銷,《教育部異體字字典》第七版改作「𦼒」。(2024/03/31)
  • 󹃵􁴦重複,後者註銷。(2024/03/20)
  • 𰛔􀞴重複,後者註銷。(2024/03/16)
  • 「󵾙」字形修正為「⿰土⿳龷亼󲖪」。(2024/03/15)
  • 󾙽􂏚重複,後者註銷。(2024/03/12)
  • 󲊁󽣌重複,後者註銷。(2024/02/19)
  • 􆥹􆾴重複,後者註銷。(2024/01/26)
  • 𦺇󵵥重複,後者註銷。(2024/01/18)
  • 𭪮􀺷重複,後者註銷。(2023/12/21)
  • 𬂞􁑓重複,後者註銷。(2023/12/19)
  • 󾞾􂉓重複,後者註銷。(2023/12/10)
  • 襁􃕲重複,後者註銷。(2023/11/29)
  • 󾩞􃳫重複,後者註銷。(2023/11/24)
  • 󰎒󽞄重複,後者註銷。(2023/11/06)
  • 𣶬􀠒重複,後者註銷。(2023/11/03)
  • 𠇎􀳆重複,後者註銷。(2023/10/20)


110 則留言:

  1. RSS竟然沒通知我,還好還是搶到頭香了~~
    非常感謝!

    回覆刪除
  2. 請問在網站上使用時, 為什麼 Ext I 區的字看不到, 但其他區的字全都看得到. 是什麼地方的設定有問題嗎?

    網址: https://homeinmists.ilotus.org/docs/WordFinder.htm

    看不到字的 I 區截圖
    https://homeinmists.ilotus.org/docs/fonts/WordFinder_unicode151_ExtI_2023-10-13.png

    看得到字的 H 區截圖
    https://homeinmists.ilotus.org/docs/fonts/WordFinder_unicode151_ExtH_2023-10-13.png

    回覆刪除
    回覆
    1. 您好!就您提供的網址來測試,我這邊都能正確顯示,網頁應該沒什麼問題。很可能是您的電腦字型沒更新成功,請確認沒有任何程式「咬住」全宋體字型,然後再裝一次最新的字型試試。

      刪除
    2. 不好意思,我看了一下,網頁修改過,不是用本地字型,而是用網頁字型,那就不是字型安裝的問題。我這邊都能顯示,但會有點慢才出來,應該跟加載網路字型的速度有關,但一切都能顯示,沒有問題。

      刪除
    3. 謝謝, 其他細節已透過電郵寄給您. 我安裝的網路版主要目的是, 讓使用者不用額外花時間去安裝字體, 就可以在線上使用而看得到最新標準所增添的新字.

      刪除
    4. 我似乎有收到一個通知訊息,但展開後一閃即逝,來不及看清,信箱裏也沒有這封信,我還以為是被回收了。麻煩您再寄一次!

      刪除
  3. 另外還有個問題請教一下
    陝西有一種寬麵叫 biang biang 麵
    那個字筆畫出奇的多, 可見於此
    https://homeinmists.ilotus.org/wp-content/uploads/2023/10/BiangBingMian_2788439.jpg

    請問可以用 部件檢索 WordFinder 查到那個字嗎?

    回覆刪除
    回覆
    1. 當然可以,這是已經被收錄的 G 區字。

      刪除
    2. 能否以那個字做為示範, 解釋一下, 如何一步一步地用 "部件檢索" 這工具查出那個字?

      刪除
    3. 「部件檢索」其實對懂中文的人來說,幾乎是個需要「零學習」的工具,只要按直覺拆字便可以直接進行檢字了。

      以這個「怪字」為例,我對它的記憶是由「辶」、「穴」、「馬」等許多部件所組成,因為太複雜了,我只記得幾個部件,其他記不清楚。不過不要緊,「部件檢索」具備模糊檢字的功能。

      1. 打開「部件檢索」,利用部件鍵盤,「辶」在「行」類、「穴」在「地理」類、「馬」在「動物」類,找到這三個部件,順序不重要,左鍵分別點擊它們以輸入到查詢框中。當然,如果您慣用的中文輸入法能直接打出這三字,直接打入查詢框即可,不需要藉助部件鍵盤。
      2. 按一下黑色三角形的「部件查字」鈕,或是實體鍵盤直接按 Enter 鍵,即可看到查詢結果。
      3. 如果字形筆畫太多看不清楚,版面右上角有個「較大字形」選項,可以切換。

      結果應該會有兩個字,一個是簡體版的「𰻝」字、一個是繁體版的「𰻞」字,取您所需,右鍵點擊它一下即已複製。若是想查詢該字的詳細資料,左鍵點擊該字的右下角,即可跳轉「字統網」的對應頁面。若想查詢該字的異體字,左鍵點擊該字的左上角,即會列出所有異體字。是不是很簡單呢!

      刪除
    4. 已實際操作過,確實很簡單,很方便,謝謝。

      刪除
  4. 感谢大佬,这次的 全宋體.zip 压缩包里的文件名在简体中文环境下,能够显示正常了,大佬费心了,敬业精神激励人心。

    回覆刪除
  5. 感謝。請問,能不能增加一個功能:按字形結構篩選?
    增加 ⿰ ⿲ ⿱ ⿳ ⿸ ⿹ ⿺ ⿵ ⿷ ⿶ ⿴ ⿻ 這幾種方式任意位置部件模糊檢索。可能要用到 IDS 數據庫。
    這樣可以把相同部件相同結構的字找出來,實現更精準的檢索。這對作大字庫很有幫助。

    回覆刪除
    回覆
    1. 只用來檢索難字有點浪費。要是能精確找出具有相同特徵的字就好了。

      刪除
    2. 我設計「部件檢索」的原意,就是要幫助大家「丟開部首認定」、「丟開筆順、筆畫數」、「丟開 IDS 構形」,用最直覺、最簡單的部件組字來輕鬆檢索漢字,所以與您提的需求幾乎是背道而馳。不論是資料結構或演算法都大不相同,因此很難幫您實現,抱歉囉!

      刪除
  6. 「𥤰」,這個是「肉」字的異體,漏掉了。

    回覆刪除
    回覆
    1. 感謝您的意見。目前的異體關係數據還只是粗定,瑕疵還很多,尚需要大家提供線索,幫忙勘誤、修訂。

      此字疑同「𥤬」字,即「肉」字異體。全字庫注音為ㄖㄡˋ、ㄖㄨˋ,似乎也符合此一說法。但目前為止我查無任何書證可以支持此一推測,故暫時持保留態度。

      刪除
    2. T源,如果注音是肉那就可以肯定了。T源太多形訛。這個字字書收了也不可能提供更多信息。

      刪除
    3. 全字庫的注音只是線索,不足以做為證據。在沒有進一步證據前,此字的異體關係暫時保留。

      刪除
  7. 中、𠃨,等字包容異體不完整。

    回覆刪除
    回覆
    1. 不知您指的「包容異體」不完整是指什麼?可否明確說明?

      「包容異體」的設計,僅是將部件常見的「變形」納入檢索,原則上儘量只含構字能力較強的部件,不會將所有的異體字都納入,包容的異體愈多,檢索的速度就愈慢。這是考量檢索速度、資料容量等因素折衷後的結果。

      當然,目前的設定都是我累積使用經驗慢慢補充而來,定還有疏漏,您若覺得何字尚需補充什麼異體變形,還請明確列舉,我好進行評估,再次感謝您!

      刪除
    2. 中、𠃨,有幾個異體字,選擇「包容異體」時不出來。

      刪除
    3. 如前所述,「包容異體」僅是將部件常見的「變形」納入檢索,不是所有異體字。要查所有異體字請用「異體檢字」功能。

      刪除
  8. 之前反饋的倉頡碼表問題居然都修復了,非常感謝你們。請問你們接受捐助嗎?

    回覆刪除
    回覆
    1. 也感謝您的反饋、指正。您的心意我們收到了,我們都是業餘的愛好者,並不需要任何捐助。如果您真的想給我們支持、鼓勵,那不妨找一個您身邊方便的管道,將這份捐助轉給弱勢兒童的教育福利單位,讓孩子們有更好的受教機會,這樣我們也會很高興的。再次感謝!

      刪除
  9. 請問,能不能在Unicode區塊選擇上採用增減兩個選項。比如,默認是全選,點擊減某一區塊,然後只顯示其餘區塊的字。用「 - 」「 + 」按鈕。

    回覆刪除
    回覆
    1. 您說的功能,「部件檢索」是以正向表列的「限定運算子」來達成(與您的負面表列想法相反),請參閱「漢字使用環境的建置 ㈡ —— 輸入篇」一篇的說明。摘要如下:

      增加了可以指定「只顯示某些字區」的「限定運算子」。如上圖的例子中,查詢「金木BCEFY」,意即查詢「同時有 "金"、"木" 這兩個部件,且落在 B、C、E、F 或補充字區的所有字」。

      操作時,直接點擊各區的圖例色塊即可添加該區的限定運算子。

      刪除
  10. 搜「严」的異體字,結果補充區的字在頁面上不換行。

    回覆刪除
    回覆
    1. 不懂您的意思,我測試一切正常。「嚴」的異體字只有一組,本來就不換行,91個異體字緊接着顯示,直到頁寬放不下則自動折行。只有多組異體關係時,才會每組強迫換行,讓正體字永遠都在行首。

      刪除
    2. 那可能是因為我改過代碼。

      刪除
  11. 「其他」可以放在「補充」前,因為只有「補充」是未編碼的。

    回覆刪除
    回覆
    1. 「其他」只是輔助之用,基本上幾乎都不成字,所以放在「補充」之後。

      刪除
  12. 搜異體時,選「限標準字」,不能排除「補充」區的異體字。

    回覆刪除
    回覆
    1. 這是刻意的安排,對查異體字而言,「限定」都無作用。因為異體字實際上不會太多(跟部件查字相比),不太需要再去限制,而且有可能要查某個補充字的異體,若是限定了標準字,反而把補充字本身濾掉,出來的查詢結果卻沒自己,會很怪異。

      刪除
    2. 如果是這樣,可以將「補充」區的異體字另起一行。因為已編碼和未編碼的字往往要分別處理,另起一行選取會方便些。

      刪除
  13. 檢索結果字與字之間有空格,處理時又要刪除這些空格,還不如一開始就不加這些空格,字間距用邊距控制。

    回覆刪除
    回覆
    1. 每個人的看法、需求都不一樣。有些人反而是需要這些空格的,因為方便後續引用時,一個搜尋取代即可替換成頓號,不用手工一個個補上。您既然有修改代碼的能力,可以自行依您的需求修改即可。

      刪除
  14. 齒的異體字漏掉一個:「𣦊」。

    回覆刪除
    回覆
    1. 感謝補充,此字確實是「齒」的異體,已補上。

      刪除
  15. 金的異體字漏掉一個:「𠈘」

    回覆刪除
    回覆
    1. 「𠈘」字,四大字典唯《漢字海》有收,謂:「𠈘,同『金』。見魏《山徽墓誌》。」然此釋義完全是錯的。查《山徽墓誌》拓本,字實作「󱺁」,《異體字字典》、《中華字海》均不誤。《漢字海》亦收「󱺁」字,釋義相同,可謂自打嘴巴。

      「𠈘」字,網路所見釋義如「字海網」、「字統網」等均不可靠。

      康熙字典(增訂版):「𠈘,同佳。《六書統》:『佳,古膎切。善也。从人圭聲。𠈘,或从人在上。』」查證欽定四庫全書《六書統・卷十三》,「佳」、「𠈘」字作篆形,然所引無誤。這是我目前可見唯一可靠的釋義,故「𠈘」字非「金」字異體,而是「佳」字異體。

      刪除
    2. 作者已經移除這則留言。

      刪除
    3. 厲害,但您「𠈘」字沒收入佳的異體。

      刪除
  16. 眬靇䮾,不應當算作龍的異體。

    回覆刪除
    回覆
    1. 感謝指正。「眬」字我查不出當初據何列入「龍」的異體,已剔除。至於「靇」、「䮾」都是依據《異體字字典》收入「龍」的異體,都有書證為據。

      刪除
    2. 《異體字字典》的「靇䮾」書證應該是把假借當異體了,雨旁馬旁應該說明本義不是龍。

      刪除
    3. 《異體字字典》:「按『䮾驤』本作『龍驤』,六朝人因類化關係增益馬旁作『䮾』,而成『䮾驤』也。」《漢語大字典》引清・桂馥《札樸・金石文字・䮾驤將軍印》:「余在洛陽得古銅印,涂金,龜鈕,文曰:『䮾驤將軍章德州。』封氏有北魏《高湛墓誌》石刻,亦作䮾驤,六朝文字好增加偏旁,無他義也。」

      「六朝文字好增加偏旁,無他義也。」故「䮾」為「龍」的「增旁類化」字,非「假借」也。

      刪除
  17. 回覆
    1. 《異體字字典》據《古文四聲韻》收「𠫕」為「目」字異體,查證《古文四聲韻》所引無誤。不知您所謂「𠫕不是目字異體」何據?

      楊寶忠《疑難字三考》:「《大字典》謂此字出《篇海》引《龍龕》,非是,今本《龍龕》無『𠫕』字。《篇海》引《川篇》『𠫕』字音巨,音巨未必即『巨』字。《古文四聲韻》屋韻引崔希裕《纂古》『𠫕』為『目』字古文,然則其字當音目,《篇海》引《川篇》『𠫕』音巨者,『巨』疑為『目』字之形誤。」

      刪除
    2. 可能是巨字的草書楷化,或者是臣字的草書楷化,不可能是目字的草書楷化。

      刪除
  18. 𦆵的異體漏掉了「𦂯」。

    回覆刪除
  19. 㾵,不是「滸」的異體。(㾵=痣)

    回覆刪除
    回覆
    1. 多謝指正。《異體字字典》、「小學堂異體字」均未收此字異體,初稿應該是據「字形維基」收入「滸」、「計」為異體。

      《漢語大字典》注音為「jì (ㄐㄧˋ)」,釋為「皮膚上生來就有的深色斑。」引《紅樓夢》第四回:「且他眉心中原有米粒大的一點胭脂㾵,從胎裏帶來的。」為證(《漢語大詞典訂補》同)。然「大字典異體字表」並未收此字與「痣」有異體關係,讀音亦有差異。

      《新華字典》:「𬏟,jì ㄐㄧˋ 皮肤上生来就有的深色斑。现多写作『记』。」《漢字海》:「𬏟,jì 皮肤上生来就有的深色斑,同『痣』。现多写作『记』。」《漢字海》是我目前查到唯一提到「痣」字的字典。

      從《漢語大字典》的注音與釋義來看,「㾵」與「痣」似乎並不存在直接的異體關係
      ,只是「義近」。《康熙字典(增訂版)》:「㾵,胎記。《甲戌本脂硯齋重評石頭記・第四回》:『他眉心中原有米粒大小的一點胭脂㾵,從胎裏帶來的,所以我𨚫認得。』」明確說明「㾵」是「胎記」,而胎記就不一定等同是「痣」。所以我暫時將「㾵」字的所有異體關係移除,有待進一步考證。

      刪除
  20. 伓肧,是「背」的異體。

    回覆刪除
    回覆
    1. 按傳統字書,「伓」是「伾」字異體(見《集韻》),《說文》:「伾,有力也。从人,丕聲。」「肧」是「胚」字異體(見《龍龕》),《說文》:「肧,婦孕一月也。从肉,不聲。」均與「背」無涉。

      您認為是「背」的異體,當是依出土文字的材料認定,這部分目前「小學堂」的異體字亦未收此關係,故暫不依。

      刪除
    2. 應該允許兩可,因爲異體字有時代性和地域性,某個時期是異體關係就算異體字,即使後來不算了。

      刪除
  21. 這應該算異體:𤉐𢋱 = 窵,形訛。「出」是「穴」之訛(寶蓋兩端出頭就成了山形),「廌」是「鳥」之訛。𢋱zhuo,窵diao,上古同音。二字同義字書註解都是:遠。其實,穴是義符,本義應該是:深。

    回覆刪除
    回覆
    1. 您的推測雖然不無道理,但似乎還是缺乏證據,暫時持保留態度。

      刪除
  22. 「嫑」不是「覓」的異體。

    回覆刪除
    回覆
    1. 多謝指正,移除「嫑」的所有異體數據。

      刪除
  23. 請問,會不會製作成mdx電子辭典格式,好在電子辭典中使用。

    回覆刪除
    回覆
    1. 應該不會了,我想做的事太多,沒有時間再維護這一塊,呵呵!FreeMdict 論壇有不少朋友轉製,您若是有這方面的需求,建議參考他們的製作。

      刪除
  24. 「鮰鲄」非異體,而「鮰𩶠」當爲異體。

    回覆刪除
    回覆
    1. 多謝指正。這組異體數據來自字形維基,或許是日本用法,對中文用法而言確實有點怪,已移除。

      刪除
  25. 「厲邁𬞒𢁭」非「萬」的異體。
    「𢁭」應該是「鬧」的異體。

    回覆刪除
    回覆
    1. 「厲邁𬞒𢁭」與「萬」的這組數據來自小學堂,雖然有點怪,但應該有其依據,暫予保留。

      「𢁭」是「萬」的古體字,各字書多有收錄,可見於朝鮮本《龍龕》、《集韻》、《類篇》、《字彙》、《康熙字典》等等,乃至於現代的《漢語大字典》,應無可議。

      《漢語大字典》另收「𠇰」字,謂同「鬧」,見《類篇》。其實《集韻》、《類篇》同「鬧」所作的字形亦作「𢁭」形,《漢語大字典》分收成「𢁭」、「𠇰」二字二義,或許有其考量。《干祿字書》:「閙𠆴,上通;下正。」或許「𠆴」字俗書錯位就成了「𠇰」。

      刪除
  26. 𮰶,當爲「樊」的異體。

    回覆刪除
  27. 這組異體似乎應該分成四組:
    替𰤚(甲骨文象二人上下站立,會意替代。)
    普𤽽暜𤾕(並聲,並普同義。)
    朁㬱(曾也。从曰:兓聲。《詩》曰:󵦣不畏朙。章太炎:曾。今作怎。)
    𭼿(與「替普朁」無關)

    回覆刪除
    回覆
    1. 除「𭼿」之外,這些異體關係都來自《異體字字典》,都有書證支持,初步檢視並無不妥之處。

      「𭼿」字為韓國提交,出自申維翰《青泉先生續集・卷之二》,字義待考。

      刪除
    2. 「𭼿」字應為「替」字俗體無誤。申維翰《青泉先生續集・卷之二・答沈佐郞》:「甚率爾。𠋣和手書以呈。󾲋鳴蚓呌。拂欝煩惱。亦其事勢然也。幸須霎面。𭼿我千里面目至仰。紙盡情溢。悵望而止。只祈餞舊娛新。萬福皆春。」又《與山人演初書》:「而百事茫然。未知何以爲也。誰知壯元及苐。𭧧得許多塵愁乎。臨發聞有便。忙草𭔃音。不能盡書於諸法𫝶。幸須遆看。以𭼿我面目。」按:「替我千里面目」是古時書信常用的語句。

      刪除
  28. https://imgur.com/a/XfPATnK 這個字有點模糊 󻤤

    回覆刪除
    回覆
    1. 多謝告知,已修整,下次更新。

      刪除
  29. 作者已經移除這則留言。

    回覆刪除
    回覆
    1. 有點不懂您的意思!「彖」與「彔」完全是兩個不同的字,如何能合併?

      刪除
    2. 抱歉。一時被「𢑗」這個字形搞糊塗了。沒細看。

      刪除
  30. 非常好用的工具,感謝無私奉獻!

    回覆刪除
    回覆
    1. 不客氣,希望對大家都有所助益。

      刪除
    2. 在其它篇的留言中,看到您有在整理 CBETA 的缺字,若您需要什麼相關資料,歡迎告知或直接留言至 CBETA 信箱。感謝您無私的整理,期待 CBETA 未來也能應用您的字型與工具。

      刪除
    3. 原來您是 CBETA 的相關負責人,失敬!失敬!

      由於雙親年邁,需要照護陪伴的時間日增,我每日能投入到漢字整理的時間受到嚴重壓縮。真是慚愧!兩年前開啓的「CBETA缺字」整理工作,只完成了第一階段,第二階段的複驗遲遲未能全面展開。不過我始終心繫於此,等我慢慢排除一些雜事,定會再奮力一搏,呵呵!

      根據第一階段的整理,31636個「CBETA缺字」(至 CB34723 為止),共有 10336 個字是「全宋體」字庫仍未收錄的,而其餘的 21300 字則已經收入。由於後續又收入了「漢字構形資料庫」的所有漢字,其中部分是據 CBETA 收字,故實際未收字的數目應該還會下降一些。

      目前能設想到的困難是,這一萬未收字字形要從何而來?單憑我一人之力,不可能逐一造字,只能用 CBETA 整理的缺字圖片直接批量轉換成字形,不過目前 GitHub 上的圖片有些解析度太低,轉出來的字形效果很差,不知 CBETA 這邊能否提供較高解析度的缺字圖片?甚至號召志工協助完善字形?

      一直以來很敬佩 CBETA 志工們無私的奉獻,將大量的佛學典籍整理成電子文檔供大眾使用,若能將「CBETA缺字」整理成實際可用的字庫,加上「部件檢索」這個幾乎零門檻的檢字工具,更將拉近大家與佛典的距離,吸引更多人投入相關經典的數位化工作。很期待與 CBETA 能有進一步的合作機會,共同來完善這個數位化的基礎工程。

      刪除
    4. 您好:

      不敢當,我只是 CBETA 相關的工作人員。 :)

      前陣子是因為 chise 網站故障了幾天,所以上網找其它查詢 unicode 的工具,意外發現您的「部件檢索」,真的是非常方便好用。

      我還利用其中的資料,寫個程式把所有文字都拆成最小的字根序,也把 CBETA 缺字拆成字根序,以便找出缺字的 Unicode,上次我們只整理到 Unicode 10.0,轉眼已經 15.1 了,藉您的程式之助,方便快速很多。

      因為 CBETA 主要作業還是在佛典數位化,所以在缺字方面,我們沒有著力太多,早期我們工作用的圖檔也都是解析度不高的黑白圖片,您看到的就是我們最原始的版本了。我們反而是等著相關的專業成果,想陸續用來提升 CBETA 整體的品質。

      我目前只能想到,可以試著把您提到一萬多字的缺字,列出相關的出處。現在網路上已經有較好品質的圖檔,如果有進一步好的因緣,也許可以利用這些資料由圖檔去取出字圖來。

      我也想到,有一些團體,在做人工智慧的 OCR 辨識,也許他們已截取了每一個字的字圖,若搭配 CBETA 缺字的出處,可能可以快速找出需要的字圖,不過這方面我接觸不多,不清楚現況如何了?要找人去打聽看看,或許您也有這方面的管道可以探聽。

      總之,若您覺得可能會有幫助,我可以列出每個缺字的出處,包括在某藏經的某冊某頁欄行,類似這樣:

      T49n2038_p0945a01║駭聞於巡按御史奏之。驛送赴京。號為老[價-貝+天]。

      未來再看如何進一步利用。

      歡迎您來信至 heaven.chou(at)gmail.com,或 service(at)cbeta.org,我們可以進一步討論。

      CBETA 目前介紹給大眾使用的字體只有到 Unicode 10.0,我也想藉此機會,下次 CBETA 更新時,可以介紹全宋體給使用者,讓 Unicode 的資源更完整,難看的組字式愈來愈少。 :)

      刪除
    5. 已經發信給您,我們進一步討論。

      刪除
  31. 烄𰞙,这兩個應該是異體。

    回覆刪除
    回覆
    1. 有可能,不過尚有待進一步考證。

      刪除
  32. 𡓓𡓵,這兩個是古文「垔」字。不是「寅」的異體。

    回覆刪除
    回覆
    1. 這兩字收為「寅」字異體都有相關書證,未見不妥。請參閱《漢語大字典》及相關字書。

      刪除
    2. 作「寅」字用時,屬於假借,不是異體。

      刪除
    3. 雖然有學者有不同看法,但《說文》:「𡓵,古文寅。」《玉篇》:「寅……。𡓵,古文。」《集韻》:「寅𡓵𦦚,東方之辰。古作𡓵、𦦚。」幾乎所有傳統字書都列為「寅」字古文,列為異體未有不妥。

      刪除
    4. 如果是這樣,建議增加爲兩可。

      刪除
  33. 回覆
    1. 感謝持續提供異體資訊,不過您均未附上立論的證據,我很難判斷是否僅是個人臆測,這讓我很難納入您的建議。

      以「𢴳」字為例,各家字書、字典均未見有列為「擋」字異體的。我能查到最早的書證是《重刊詳校篇海》:「𢴳,音湯。以手推止也。」此字與「擋」義近音略異,是否轉音所致我不敢臆斷,更不敢一口咬定二字有異體關係,沒有進一步證據前恕我無法採納您的意見。

      刪除
    2. 僅供參考。如以檢索爲目的,條件宜寬不宜嚴。漏選比誤選更不好。字書也有失誤,不必拘泥於字書。

      刪除
    3. 我的看法與您不同,我覺得「誤選」比「漏選」更糟糕。「錯的資訊」比「沒有資訊」更糟,這應該是普遍為大多數人接受的概念,您的看法似乎有點與眾不同,呵呵!

      字書當然也會有失誤,但評其非須有證據佐證,沒有證據僅止於懷疑是不能作為有效的結論的。

      刪除
    4. 我的想法是誤選可以交給檢索者作進一步分析,因爲異體的邊界存在模糊地帶,目前還沒有全都成為定論。

      刪除
  34. 𣎳,應當是「𣎵朩」的異體。

    回覆刪除
    回覆
    1. 非也!由於《說文》的小篆字形相近,很多字書均把以下二字的字形相混,我整理歸納如下:
      𣎵:艸木盛𣎵𣎵然。象形,八聲。讀若輩。
      󰏶:分枲莖皮也。从屮、八。象枲之皮莖也。讀若髕。
      由《說文》的音義可知,此二字完全是音義皆不相同的兩個字。但字形實在太接近了,故很多字書便亂成一團。

      回到異體字的關係上,「𣎳」是「󰏶」的異體,而不是「𣎵」的異體。

      至於「朩」字,各家的認定分歧。此字是大陸提交,我不知原始的書證是什麼。《漢字海》:「麻布。(日本汉字)。」這應該是「󰏶」義。「全字庫」註音為 pìn(ㄆㄧㄣˋ),同樣是「󰏶」義。《本義國標字典》:「mù(ㄇㄨˋ),同“木”,汉字部件。」而臺標字形常把位於下方的「木」部件作「朩」形(應該是承襲日式風格),應該就是視同「木」的異體。字海網:「同【𣎵】。」則又把此字混到「𣎵」義去。

      再回到古籍刻本的字形上,大徐本「󰏶」的字形接近於「朩」,右邊的點作捺筆(《說文通訓定聲》字形同)。《說文字原集註》:「𣎳,匹刃切。󰏶,說文。……隸同。亦作朩。」綜合以上書證,則「朩」是「󰏶」的異體,而不是「𣎵」的異體。

      刪除
    2. 未、巿、𣎵(𣎳朩),三字形混,但从音義可區分:

      未 mui、bui、bə(唇鼻音轉):象木重枝葉形(二橫畫象形重枝葉)。引申:繁盛、充沛、興起。「肺」「沛」二字都从「未」。「䰽𩶚」(河豚鼓氣狀)「勃」也从「未」。都是从充沛義分化而得,同源。

      巿 bi:韠也。“韍”的古字。上古衣蔽前而巳,巿以象之。從巾,象其連帶之形。「巿」的橫畫象腰帶形。如字音與 bi 無關,從巿之字往往實際從未。

      𣎵 pin:=𣎳朩。分枲莖皮也。八象枲皮。兩旁者,其皮分離之象也。枲莖皮者,卽麻之枝皮。沤其皮而剥之。「索」从「𣎵」,本義就是麻繩。(汖 pìn 字彙:汖,普夬切,音派。分枲皮也。字彙補:汖,此為𣎳字之譌。)

      「巿𣎵𣎳朩」與「未」的主要區別在上部是一橫畫還是二橫畫。

      刪除
  35. 「𨓅」不是「兒」的異體,而是「邈」的異體。

    回覆刪除
    回覆
    1. 多謝指正,這是《漢語大字典》第一版「異體字表」之誤。

      刪除
  36. 𠕓𡴊𡉉,三字當爲異體。說文:幬帳之象也。帳,張也。从𠔼,幬帳所以覆也。㞢其飾也。帳必有飾。

    回覆刪除
  37. 訋召,當爲異體。有清華簡用例:褱(懷)公自秦逃歸,秦穆公乃訋(召)文公於楚。

    回覆刪除
  38. 晉獻公之婢妾曰驪姬,欲亓(其)子奚𬁼(齊)之爲君也,乃𲁷(讒)大子龍(共)君而殺之,或𲁷(讒)惠公及文=公=奔翟(狄),惠公奔于梁……文公十又二年居翟(狄)=甚善之,而弗能內(入),乃𨒙(適)齊=人善之;𨒙(適)宋,宋人善之,亦莫之能內(入);乃𨒙(適)𱥊(衛)=人弗善;𨒙(適)奠(鄭)=人弗善;乃𨒙(適)楚。褱(懷)公自秦逃歸,秦穆公乃訋(召)文公於楚,囟(使)𲀭(襲)褱(懷)公之室。晉惠公𰠄(卒),褱(懷)公卽立(位)。秦人𨑓(起)𠂤(師)以內文公于晉。晉人殺褱(懷)公而立文公,秦晉𱙁(安)𫩞(始)會好,穆(戮)力同心。

    回覆刪除
    回覆
    1. 這一段有不少異體用例可供借鑒。

      刪除
    2. 目前的收錄還是以傳統的異體字關係為主,出土文字除非是新訂的專屬隸定字形,否則原則上暫時還是不收,以免與傳統的字義相衝突。

      刪除