2022年9月19日 星期一

漢字使用環境的建置 —— Unicode 15 全宋體更新

擴展 H 區

九月十四日,Unicode 官方一如預告,發布了最新的 Unicode 15.0 版,等待多時的擴展 H 區四千多個漢字終於到來。基於以往的經驗,九月初我就開始偷跑,投入了新增漢字的整理工作。9月5日完成了 4193 個新增字形(C區 1 字、H區 4192 字),9月6日完成了部件檢索的 H 區支援,然後與 suns99 兄就雙雙投入了補充字對 H 區字的遷碼整理。這次 Unicode 15.0 除了增添了新字之外,也改動了一些舊字的字形,例如 U+22ACF 的「𢫏」字,從「⿰扌⿱冂山」改成了「⿰扌⿱冖山」。另外也把一些兼容字扶正,重新編碼收入了 H 區之中,例如「𢛔」、「甾」、「緇」,這些都需要進行調整、處理。

遷碼對照表

初步完成了字型以及部件檢索,有了顯示及檢字的工具,我與 suns99 兄開始進行 H 區字與補充字的比對,看哪些補充字已經被收入 H 區之中。這是最花時間的工作,所以我不得不提前偷跑,希望在最短的時間內能跟上官方的發布。經過多日的比對,九月九日 suns99 兄用倉頡輸入法完成了一份對照表草稿,而我用批量部件檢索加上人工排查,在九月十一日也完成了一份對照表草稿,然後我便針對兩份草稿逐一比對、修訂,期間還不時需回頭查核、調整字形。又經過幾輪逐字、甚至幾乎是逐筆畫的仔細比對,終於在九月十六日完成了正式的遷碼對照表,H 區的 4912 字之中,有 3 字是兼容字扶正,有 2167 字是補充區已收錄字,加上 C 區 1 字也是已收錄,實際上只有 2741 字算是新增。

有了遷碼對照表,我就能以批量的方式,將我製作的數百部辭典,進行遷碼的工作。把用到這些補充字的相關文件,全部轉碼改用正式的 H 區字,然後這 2168 個補充字就可以功成身退了。四大字典中,《漢字海》有 661 個字頭、《教育部異體字字典》有 789 個字頭、《中華字海》有 472 個字頭、《漢語大字典》有 50 個字頭,由原來的補充字轉入了 H 區字。

您若曾利用全宋體的補充漢字來製作文件,可借助這個遷碼對照表,將相關的文件快速遷碼至  H 區用字。更新字型之前請務必確認您所有的文件都已遷碼完成,以避免顯示錯亂的情形發生。

p.s. 遷碼對照表中額外包含了 1 個 C 區字的遷碼對應。另外,若您的文件希望保留 3 個被扶正的兼容字的話(非補充字),請自行將此 3 字的遷碼對應刪除。

H 區優化

我逐字、甚至幾乎是逐筆畫的仔細比對遷碼對照表,除了追求完全零失誤之外,另一個重要目的就是要把與 H 區重複的補充字字形抽取出來,擇其優者取代掉質量較差的 H 區字形。過程中發現某些字形與原始的拆分資料不符,又多有考證、修訂。遇有某些太不順眼的越南提交字形,還要自行重新造字替換。就這樣忙了大半個月,偷跑變成還是落後,呵呵!至此 H 區的字型與拆分資料才算是大致完成。

修訂字庫

自從三個月前發布了十八萬漢字的全宋體與部件檢索之後,我一直在做四大字典的字頭訂正工作,期間修訂了百餘字頭,必須要新造字形與之對應,也整併了近百組重複字形,消滅了一些漏網之魚。

至於拆分資料的部分,仍是我的痛處,尚有海量的拆分資料等著我去進一步完善。只能且戰且走,先將這個尚未完全優化的版本推出,讓大家先有個工具可用,至於進一步臻至完善,只好徐徐後圖了。

p.s. 這一版開始的「部件檢索」將非複製模式下的點擊跳轉,預設改至 字統網,資訊比較豐富一些。

附記

這次的 H 區有兩個收字需要說明一下:

此字 G 源的標示是「GHC」,表示是據《漢語大詞典》收字,可是查《漢語大詞典》第 7 卷,第 828 頁示部第一字,字形卻與後者的 「UTC」字形一模一樣。此外多部辭典俱作「UTC」字形,例如:《漢字海》、《大辭海・語詞卷》、《現代漢語大詞典》、《正中形音義綜合大字典》等等,《漢語大字典》字形也與此形微異,近乎相等。至於「GHC」字形,《教育部異體字字典》有收,不過是「永」字異體,並非「示」字異體,音義俱不相同。基於以上理由,我選擇不依 Unicode 將此二形認同,而是將此  H 區字對應至「UTC」字形,「GHC」字形則仍保留於補充區以備運用。

此字 G 源的標示是「GDM」,表示是戶籍用字。查閱 IRG 的記錄是用於地名,舊時曾寫作「囊」字,故應為「囊」字省寫。而此字下半的部件,通常是「⺗(心)」的俗寫,故與字或同。不過全字庫的 T12-6441 收有字,標示注音為「ㄊㄧㄢˇ(tiǎn)」,疑為「忝」字俗省。二形音義俱不相同,故不予以認同。

字型更新

經過這些冗長繁複的整理,這次更新給大家的全宋體,除了基本字區、A 區、B 區、C 區(新增 1 字)、D 區、E 區、F 區、G 區、H 區(4192 字)的已編碼漢字共 98060 個外,再加上 85499 個 Unicode 尚未編碼的補充漢字,總計共有 183559 個漢字。除了涵蓋 Unicode 15.0 的所有漢字之外,更涵蓋了四大字典的所有字頭與台灣 CNS 標準的編碼漢字,足堪專業領域之使用。

下載連結:全宋體.zip
下載連結:倉頡碼表.7z (僅保留漢字部分,請自行併入您慣用的碼表)

安裝字型的方式請參閱 漢字使用環境的建置 ㈠ —— 顯示篇 的說明,而更新字型之前請務必確認您所有的文件都已遷碼完成,以避免顯示錯亂的情形發生。


鳴謝

感謝這些原字型製作單位的無私奉獻。
感謝老友 suns99 兄,總是不離不棄地與我並肩作戰。
感謝好友 Mastameta 兄,陸續提供了一些優化字形供我替換。
感謝新朋友 lcx 兄,陸續提供了一些古籍缺字資料供我增補。


現將此成果無條件分享出來,樂見學術研究、教育工作、個人閱讀這方面的運用,但請勿用做任何形式的商業營利行為。希望「全宋體」這個大型字庫以及「部件檢索」這個檢字工具,能在漢字文化的整理、研究上幫上一點小忙。




勘誤:


本分隔線以下已更新處理
  • 󰶣􀟩重複,後者註銷。(2022/12/21)
  • 𩨹􁕀重複,後者註銷,字形依後者。(2022/12/16)
  • 𥥆􁁷重複,後者註銷,字形依後者。(2022/12/16)
  • 󸔊󱛲重複,後者註銷。(2022/12/16)
  • 𢟍󷳢重複,後者註銷。(2022/12/12)
  • 𫙀󽵑重複,後者註銷。(2022/12/07)
  • 「𡴍」字形上半部修正作「㞢」形。台標字形過份誇張,改依陸標字形,以合於《說文解字注》的:「从㞢从𡈼,會意也。」(2022/12/06)
  • 「􀒌」字形上半部修正作正常「亡」形。據《玉篇》修正,以便用於對應更多字書。(2022/12/06)
  • 𦜩􁖖重複,後者註銷。(2022/12/06)
  • 󻽪􃍆重複,後者字形改作「⿰⺼⿱廿𠕒」。(2022/12/06)
  • 䐽􀹕重複,後者字形改作「⿰⺼⿱龷𠕒」。(2022/12/06)
  • 󳐥􁥧重複,後者註銷。《教育部異體字字典》字形作「羊頭」,應誤。(2022/12/05)
  • 󳏽􁥥重複,後者註銷。《教育部異體字字典》字形作「羊頭」,應誤。(2022/12/05)
  • 󳌨􁥦重複,後者註銷。《教育部異體字字典》字形作「羊頭」,應誤。(2022/12/05)
  • 󻶀􀸃重複,後者註銷。(2022/12/04)
  • 「䵖」字形修正作「⿱𠭃黍」。台灣 CNS 的標準字形與「䵖」字完全相同。(2022/12/04)
  • 夋󿊸重複,後者註銷。(2022/12/04)
  • 「󱋠」字形修正作「⿸󰐐𠤎」。《中華字海》、《漢字海》字形失真,據《四聲篇海》修正。(2022/12/03)
  • 「󽒨」字形改作「⿸虍󰉿」。原《漢字海》字形失真,據《四聲篇海》應同「䖈」。(2022/12/03)
  • 󲴹󵕛重複,後者註銷,字形依後者。(2022/12/03)
  • 𭽫􀶫重複,後者註銷。(2022/12/03)
  • 󰩶􁬴重複,後者註銷,字形依後者。(2022/12/03)
  • 「𠱫」、「󽀷」字形互換。(2022/12/03)
  • 𧈪󱅓重複,後者註銷。(2022/12/02)
  • 𡸁󵻞重複,後者註銷。(2022/12/01)
  • 𣵫􀠛重複,後者註銷。字形依後者。(2022/12/01)
  • 𦠛􃍤重複,後者註銷。字形依後者。(2022/11/30)
  • 󰣐󻺾重複,後者註銷。(2022/11/29)
  • 𤍒􀩫重複,後者註銷。(2022/11/28)
  • 󹞝􁠾重複,後者註銷。(2022/11/20)
  • 󾹮􅡳重複,後者註銷。(2022/11/17)
  • 󸐁􁣧重複,後者註銷。(2022/11/16)
  • 「󳲃」字形修正作「⿱山⿵󱇨⿱一灬」。《中華字海》、《漢字海》字形失真,據《碑別字新編》、魏〈韓震墓誌陰〉拓本訂正。(2022/11/15)
  • 「𢘖」字形修正作「⿱𠔼⿰心卩」。台灣 CNS 的標準字形上段从「口」,與古籍全然不符。改依大陸標準。(2022/11/12)
  • 「忹」字形修正作「⿰忄王」。台灣 CNS 的標準混亂與 Unicode 的定義不一致,「忹」、「𢗖」二字俱作「从心壬聲」,「忹」、「忹」兩字「壬聲」與「王聲」卻又視為兼容,全不合理。改依 Unicode 與大陸標準,「忹」字「从心王聲」,同「狂」;「𢗖」字「从心壬聲」,同「恁」。(2022/11/12)
  • 󰻞􁏺重複,後者註銷。(2022/11/12)
  • 𧁈􂸳重複,後者註銷。(2022/11/12)
  • 「󾮢」字形修正作「⿰章⿱夆又」。《中華字海》、《漢字海》字形失真,據《四聲篇海》訂正。(2022/10/29)
  • 「󽊵」字形修正作「⿳穴⿱吅㗊心」。《中華字海》、《漢字海》字形錯誤,據朝鮮本《龍龕》訂正。(2022/10/29)
  • 𰨁􃅓重複,後者註銷。(2022/10/23)
  • 「󽊵」字形修正作「⿰皮𡿺」。《中華字海》、《漢字海》字形失真,據《龍龕》訂正。(2022/10/22)
  • 「󱘒」字形修正作「⿱龴𣎴」。《異體字字典》、《中華字海》字形均失真,據隋〈尉氏女墓誌銘〉拓本修正。(2022/10/11)
  • 「󿇹」字形修正作「⿱推回」。《中華字海》字形失真,據《四聲篇海》訂正。(2022/10/03)
  • 「󿈟」字形修正作「⿰扌鴨」。《中華字海》字形錯誤,與筆畫數不合,據《四聲篇海》訂正。(2022/10/03)
  • 「󿉆」字形修正作「⿰扌⿱瞿夂」。《中華字海》字形錯誤,與筆畫數不合,據《集韻》潭州本、金州本訂正。(2022/10/03)
  • 𠅽􃣓重複,後者註銷。(2022/10/02)
  • 「󿆽」字形修正作「⿰扌⿳勿灬火」。《中華字海》字形錯誤,據《四聲篇海》訂正。(2022/09/25)
  • 󶄖󵕘重複,後者註銷。(2022/09/25)
  • 𲃊􁹕重複,後者註銷。(2022/09/23)
  • 𭠀􅄽重複,後者註銷。(2022/09/22)
  • 𱭇􀫊重複,後者註銷。(2022/09/22)
  • 󴳦󵅀重複,後者註銷。(2022/09/22)
  • 𱹟􀿩重複,後者註銷。(2022/09/21)



26 則留言:

  1. 回覆
    1. 多謝,這版已經先加入了「⿰魚兄」這字,兄可查用。

      刪除
    2. 感恩感恩 讚歎讚歎 南無阿彌陀佛

      WFG兄菩薩慈悲:
        遲至前幾日才在18萬字該帖下載試用,等下來以此誌所載者更新。
        目前能以一種字型顯示只今 CJK-Ext 全數漢字者,以末學所知,除了 菩薩您的「全宋體(等寬)」外,唯《國學大師》的開心宋體(KaiXinSongB),而即 HanaMinB 亦還不行,必須與 HanaMinB 共用。但「KaiXinSongB」並不等寬,故顯示時會有兩種寬度(1字元長的會較2字元長(即 以 surrogate pair 構建的字)的寬一倍。在 MS Word不會,但字距有時仍會發現頗有參差;在文字方塊中會)。
        只是如目前 Ext-H 也沒有的,如「󴕛、󰊰」等字,雖能以 我兄全宋體顯示與輸入(弟置入周永菩薩暨倉頡之友的《小小輸入法》之字表中故),然在 Ctext 網站搜尋,乃至 Google 檢索、網頁頁面以 Ctrf + F 檢視時仍是無效。不知是否現行能用,還是自己私下利用就好。因為弟目前全力專業在Ctext(《中國哲學書電子化計劃》)網站,以自製 TextforCtext 軟件整理《四部叢刊》等圖文對照文本,不知該不該利用此類字逕行輸入,只是怕日後若此類 兄全宋體有,而一旦與日後 CJK-Ext 發布的標準不一,將有礙檢索,跡近白做,故特來一問,以定日後方向。
        以弟之經驗,「󴕛、󰊰」(倉頡碼:etog、app)乃至「⿰訁兊( 兄倉頡碼表是「yrciu 󺱩」字)、『鬼』無上『丿』( 兄者乃「whui 󶓭」)……」等字在整理古籍時是非常非常常見的,幾乎可謂是到了還較正體字、規範字來得多太多的地步;而至今 CJK-Ext 都到 H 了,一些很不常見/用的僻字異體卻早已收錄(如似「󴕛」(灌)之「𫞐」字等都已收入;「灌夫罵坐」的「灌夫」乃常用典,用「󴕛」與「灌」之數量比幾乎可謂是等量齊驅,何況尚有「灌溉」之義等用途,此等卻遲遲未見採入,頗為失望,不知該機構之運作機制為何,何故至今瞠目不見如是海量的存在事實。殆所採之原料、所思之源頭必有出入之故(或但依賴字典所收,官方所定, 而忽略文書之實務;即所謂「字頻」)。故忽略此一既有存在的顯然明白之事實也。
        惟 我兄諸賢菩薩們所做之工作, 弟著實佩服!唯如吾等愚公真多,幸各安所好,各抒所長,方能亦安心各坐享其成,所謂「盍各言爾志」,庶幾乎;否則真的旁顧不暇了。再次感恩我 兄等諸賢菩薩所賜好字型便用!!典型在今,後繼有人! 感恩感恩 讚歎讚歎 南無阿彌陀佛

      刪除
    3. 守真兄:

      阿彌陀佛!

      《國學大師》的開心宋體著眼在手機上的使用,欲將所有擴充漢字擠入一個字型檔中。此一方案基本上是個死胡同,到 Ext-G 已是勉強,遑論之後。長期來看,並不建議使用。

      兄提的古籍用字問題,我深有同感,這也是為什麼我要收錄那麼多「補充字」的原因(官方十萬,我有八萬五,幾近等量),以目前官方每年約五千字的速度來推估,要收齊我的補充字至少得十七年,實在是緩不濟急。就我所知,Unicode 只是個「被動」的組織,實際上的收字仍是由各地區的相關單位提交(台灣應該是由 TCA 負責)。它們只是負責審核,如果沒人提交,自然不會主動收錄。另外就是它們有一套認定原則(雖然也會搖擺不定),某些字的異體會被認為是同一字,因此不會再被收錄,兄說的「說从公」、「鬼無上」,或許都屬這類字,基本上可能永遠都不會被收錄。

      至於「補充字」若於日後被 CJK-Ext 收錄,則碼位必定不同,這時就必須作「遷碼」處理。每次新的 CJK-Ext 字形發布後,我除了更新字型加以支援外,額外還會附上一個「遷碼對照表」,便是為此而來。不知兄所謂「自製的 TextforCtext 軟件」是否具備批量搜尋取代的功能?如果有,那就比較簡單,只要將我提供的「遷碼對照表」設法餵進去,讓軟件自動替換舊字便可。這一關若能打通,則建議可多用這些補充字,於古籍整理大有便利;反之若無法實現批量快速「遷碼」,則現階段不建議用於 Ctext 網站。

      弟所整治之「全宋體」,若要用於網站,必須於網站的 html、css 中指定完整的字型 fallback。顯示或是用 Ctrl+F 搜尋應該都沒問題,效果可參見弟整理之「難字錄https://rare-han.blogspot.com/」網誌。我不知 Ctext 網站是否可以如法炮製?

      兄之「愚行」在前,我只是緊跟在後,呵呵!惟弟之父母都已屆高齡,照護要花的時間日增,若有一人倒下失去自理的能力,我必得全力照料,屆時恐無力再如現在般投入。後繼有誰,殊難逆料。我常向菩薩默禱:「再給我多一點時間吧!」我心中還有幾個大型計畫在醞釀,只有抓緊時間,多做一點是一點。

      刪除
  2. 除了感謝還是感謝!
    (RSS沒看到這篇文章,不支援了嗎?)

    回覆刪除
    回覆
    1. 不客氣。(RSS 我不知道,或許 Google 的服務偶爾會罷工,呵呵!)

      刪除
    2. 您好:
      再次打擾,深感抱歉!有三個問題想向您請教:

      1. 在使用全宋體的過程中,一直有個問題讓我很困惑。重灌過電腦、或在新電腦上,安裝完字型、寫入登錄檔之後,Word打開檔案,用全宋體的字還是會顯示成豆腐;必須要用font substitution這個功能,重新將字型取代一次,才能正常顯示。這問題好像與字型名稱有關?因為如果顯示缺失字型時,字型的名稱顯示為「全宋体-2」(簡體)或「@fsung-2」(多了@)之類,重新取代為系統中的「fsung-2」就沒問題了。但明明是同樣的字型。其他的字型都沒遇過這樣的問題,實在不解。

      2. 如果將排版改為直行,全宋體2的字不會跟著改變,因此變成轉倒了90度,但其他如全宋體等寬、3都沒有這個問題。似乎是2的設定漏了什麼?

      3. 部件檢索將「叀」、「󰔲(補充)」兩者視為異體關係,既然如此,則兩字同級的組成部件也可以視為異體關係?也就是說
      󰔲@𤰔󰉵
      叀@𤰔厶
      部件󰉵、厶似乎應該加入包容異體?目前,從「󰔲」的字以「厶」搜不到,從「叀」的字以「󰉵」搜不到。如果這個是問題的話,可能還有其他異體關係存在類似的問題。

      問題似乎有點多,非常抱歉,並感謝提供這些好工具~

      刪除
    3. 您好:

      不好意思,目前我對全宋體的製作還側重在純文字的應用上(漢字的收集與整理),所以對像 WORD 這類軟體的實際使用,幾乎沒去測試,也沒去花時間研究如何解決使用問題。或許是我用的 Office 軟體版本太舊(2010 Starter),您遇到的問題我幾乎都無法重現。

      1. 我無法重現您遇到的問題。我遇到的問題是:一旦我將字型設成「全宋體-2」,所有字便縮成一團。

      2. 我無法確認您遇到的問題,因為我這邊會縮成一團。

      3. 異體包容的關係,我也是隨著使用逐漸在增加、調整,不完善的地方一定還很多,這需要大家提供補充。至於您提的「厶」、「󰉵」這一對部件,我是刻意沒有設成異體包容。因為對「厶」這個部件來說,幾乎絕大多數落在「上盤」的字都不能改作「󰉵」(例如:允、台、參等等),只有局部落在「下盤」的字才與「󰉵」等義。若是兩者設成異體包容,會出現大量「意料之外」的字,所以並不合適。這也就是說:上層的某一對部件可設成異體,不代表下一層的部件就適合設成異體。

      我不是字型設計方面的專家,可能在字型的某些屬性細節上確實還存在瑕疵,這方面還需要有高手幫忙完善。等我比較有空時,或許再來多做一點測試,感謝您讓我知道這些問題。

      刪除
    4. 您好:
      關於第一點,似乎確實與名稱有關。
      原字型檔TTF Names設定了English US、Chinese HongKong、Chinese PRC、Chinese Taiwan四國語言名稱,由於我的Win 11/10系統語言為English US,地區Taiwan,並將Languige for non-Unicode programs設定為Chinese Simplified,大概因此造成系統無法正確辨識名稱。
      所我徹底將三種Chinese names刪除,只使用英文名。則不僅Win Word可以正確辨識,原本iOS Word從來都是顯示豆腐,現在也正確顯示了。原本GoldenDict中選擇預設字型為Fsung(無論哪個),也是無法顯示,現在也可以了。
      造成這個問題大概是我自己Win系統語言設定的關係,與字型檔無關;也不確定我的解決辦法是否是正確的,只能說是堪用的吧,供您參考。
      再次感謝您提供如此方便的工具!

      刪除
    5. 感謝您提供了這些寶貴經驗。如果系統核心的語系不同確實會影響到字形名稱的取用關係,沒想到您的語系環境如此複雜啊,呵呵!

      當初設定了四區的字形名稱,也就是考慮到會使用中文的人,大概就落在這四區,沒想到在您的系統下會呈現如此的結果,真是始料未及。

      您目前的解法應該不是很正統的方法,不過我也想不出什麼更好的法子,如您所說至少堪用吧!先求能用,其餘就慢慢再研究了。

      刪除
  3. 下載了「補充字對H區字遷碼對照表.7z」之後,解壓「.7z」文件之後,得到「H區遷碼表.lst」。「H區遷碼表.lst」的具體使用方法是什麼呢?需要進行哪些步驟可以實現你所說的「所有的文件都已遷碼完成,以避免顯示錯亂的情形發生。」?

    回覆刪除
    回覆
    1. 這個「H區遷碼表.lst」是一個純文字檔,每行是一組字的對照。先列出舊的補充字,然後跟著一個跳欄符號(tab),接著就是新的 H 區字。整個的意思就是希望將第一欄的舊字全部取代為第二欄對應的新字。

      至於具體的使用方法,我之沒有進一步說明,是因為每個人使用的工具不同,我難以遍知並詳述實際的操作步驟。簡單說,您必須找到一個具有批量取代功能的軟體,然後將這個對照表轉換成它所需要的格式,然後用這個軟體對您的文件進行批量取代,如此,文件中的所有舊字便會被替換成對應的新字,這樣作業就完成了。

      刪除
    2. 首先,進行誤區辨析。
      通過閱覽答覆,我認為你存在一個誤區:你認為你需要知道所有人的使用工具,所以難以詳述具體操作步驟。我細讀之後,發現這裡隱含了一個假設:你們都知道如何操作,而且存在多種方法來實現。我不知道你們會使用哪種方法來實現,所以我就不寫我的方法了。我覺得寫上「遷碼」二字就能把我的方法寫完了。
      然而,真實情況可能是這樣的。我尋找漢字字型的時候,發現了「WFG的網誌」。通過閱覽「WFG的網誌」,獲得幾個印象:第一、系統性。顯示漢字需要漢字字型,所以有了「全宋體字型」。查詢漢字需要一個查詢方法,所以有了「部件檢索」。在計算機鍵盤上鍵入漢字需要輸入法編輯器,所以有了「倉頡碼表」。我不認識「WFG」,但是我依照善良的心靈獲得的直覺認為,這個「WFG」的成果,理論完備,互相輔助,能解決漢字的重大問題。他的成績不亞於倉頡造字。第二、持續性。他不是葉公好龍,而是滴水穿石。從根據《漢字海》、《教育部異體字字典》、《中華字海》、《漢語大字典》整理字頭,到製作《學生字典》等皇皇巨著。從過去到現在,他和夥計們一直在前進。第三、可信任。每次發佈「全宋體字型」的更新,都會進行勘誤。與網民就某個漢字進行爭論時,都會進行一番詳實地調查。
      根據「系統性」、「持續性」、「可信任」這三個印象,我選擇信任WFG、suns99、Mastameta、lcx等人,因此選擇使用「全宋體字型」、「部件檢索」、「倉頡碼表」。可能是因為WFG、suns99、Mastameta、lcx等人是專家,平時和他們來往的人大多也是專家。所以習慣性的假設看他網誌的都是專家,所以寫上「遷碼」二字就行了。但是我這種市井走卒也在看他網誌,但我不是專家。我看了「遷碼」二字,依然不會操作。
      其次,討論具體操作步驟。
      我使用「全宋體字型」在微軟辦公軟件中撰寫文件。以文字文件「.docx」為例,如何使用「H區遷碼表.lst」進行「遷碼」?煩請專家為像我這樣的市井走卒撰寫一份操作指南。

      刪除
    3. 「子非魚,焉知魚之樂;子非我,焉知我之不知魚!」同樣的,咱們也來進行誤區辨析。

      通過留言,我認為您存在一個誤區:您認為我們都是「專家」,必定知道如何操作。而您是「市井走卒」,「專家」必須提供詳細的操作指南,否則「市井走卒」就不會,呵呵!

      首先我不是什麼「專家」,甚至連個相關科系的文科生都不是,工作更是與此領域八竿子打不著。只因喜好閱讀,而真正的「專家」們,至今也沒能端出個具體能用的解決方案,逼得我這個「市井走卒」只好自己動手,邊走邊學,整出了這個「全宋體」字庫。正因我了解「市井走卒」之痛,所以才野人獻曝,撰寫了一系列介紹,把這些成果無條件分享給大家。

      回到遷碼的問題上。大多數的人可能並不需要關注這個問題,因為用到補充字(官方尚未編碼收錄的字)的機會不大;如果確認製作文件時曾使用了補充字,才需要關心這個問題。

      如果文件中只是少量的使用,建議查閱「H區遷碼表.lst」直接用手工的方式逐一搜尋取代即可,硬要用批量的方式反而折騰。

      如果如我一般,文件的數量多,使用的量又大,純手工自然不可行,必須要用批量的方式。但這批量的方式,隨著工具的不同,步驟差異可能很大,我不可能花時間去逐一尋找、嘗試,然後長篇大論鉅細靡遺地去介紹。全數的時間、精力都貫注在漢字的整理上,早已透支,要再兼顧這些問題,實有難處。

      您使用微軟辦公軟件撰寫文件,問題又更複雜一些。微軟辦公軟件有它自己調用字型的規則,並不依循作業系統的機制。到目前為止,我仍未找到方式讓「全宋體」能在微軟辦公軟件中「順暢」使用,不同擴展區的字,必須分開挑選字型(例如全宋體(調和)、全宋體-2、全宋體-3、全宋體-F等等),無法只選用全宋體(調和)或全宋體(等寬)就能顯示全部漢字。您未提及此一問題,因此我不禁懷疑您或許根本沒用到補充字,沒用到自然就不須遷碼。

      如果真的用到了而要處理 docx 文件的遷碼,就我所知,目前並無直接的工具可以利用,必須先將 docx 文件轉換成純文字(但排版格式就喪失了),再用其他軟件批量處理。簡而言之就是尚無完善的方法,除非您懂編程,用它的 VBA 撰寫程序來搜索轉換,或許能行。

      您若問:那我是用什麼工具遷碼?我的文件都是純文字,因此是自行撰寫程式來進行遷碼,所以別人是用什麼工具,我是真不知道,呵呵!

      刪除
  4. 感覺感謝大佬不辭辛苦,精益求精的完善這套大型字體,我已經在打包的黄狗五筆超大字符集版裏將“全宋體”列爲推薦字體了,特此匯報。另外建議每個月能夠更新下google云盤裏的字體文件,這樣我們才能享受到你最新的勞動成果。哈哈哈。🤣

    回覆刪除
    回覆
    1. 感謝您進行推薦。我通常是累積到一段程度才作更新,否則幾乎天天都在修訂,大家會被我煩死,呵呵!

      刪除
  5. 您好:
    儘管不想老是打擾您,但每次提問都得到您相當用心的回答,忍不住又想來問您問題,實在深感抱歉!

    1.我將部件檢索檔案加上首行字頭、末行結束符號,轉成MDX,在GoldenDict上使用,功能上沒有問題。唯一無法適應的是,滑鼠點擊時的結果,單擊會打開網頁,雙擊移到暫存區。由於查詢與複製是我最需要的功能,因此希望能修改為單擊查詢GD,雙擊複製,或類似的結果。記得部件檢索好像幾年前曾提供過MDX,我曾經下載過,本想從中看看能不能找到提示,但我找不到檔案了……。我在網上翻查了許多文章,關鍵好像是var h這行,只是不知如何修改了。若您有現成的程式碼,或知道如何修改,不知道能否告知?若因修改太麻煩等問題,就算了也無妨。

    2.我自己造過幾十個古文字隸定字形,未來打算繼續擴充。不知道像這類私區字有沒有什麼辦法加入現有的部件檢索程式之中?應如何提供程式拆分資訊?當然,因為我只是個徹底外行人,如果需要太困難的知識,也就沒辦法了。

    希望沒有打擾您工作,感謝您總是耐心解惑!

    回覆刪除
    回覆
    1. 您好:

      雖然我確實被整理工作壓得喘不過氣來,但我能力所及的還是會盡力替您解答,呵呵!

      1. 我的好友 M 兄,一直有將部件檢索改作成 mdx。或許您可以參考看看:https://forum.freemdict.com/t/topic/10387。

      2. 不知您造的字形可有依據?譬如是根據什麼書籍而來。如若方便的話,可以將字形與拆分數據提供給我,並註明字形出處、附上書籍出處的截圖,我會做初步的判斷,只要不是明顯的訛誤字形、重複字形,大致就可以編碼收入字庫,加入部件檢索之中,供大家使用。

      刪除
  6. 感謝回覆!
    我將想造的字作到一段落時,將相關資料一併給您,屆時再麻煩您了。感謝!

    回覆刪除
  7. notpad的確可以全部顯示,但去到網頁瀏覽器如Firefox者,去到H區字就無法顯示。委實不知何故也。

    回覆刪除
    回覆
    1. 您好!網頁瀏覽器,不管哪家,應該都不遵循作業系統的這套 Surrogate Fallback 機制,所以要完整顯示全部漢字,還是得在網頁的內容裡用 css 的字形屬性指定完整的 Fallback 字型才行。例如「部件檢索」,基本上就是一個網頁,不管您是用哪家的瀏覽器開啟,應該都能正確地顯示全部漢字,原因就是指定了完整的 Fallback 字型。

      刪除
    2. 原來如此。在下一直以為只要有安裝該字體(例如花園明朝),就算Firefox並未設定專用花園明朝字,就可以自動顯示

      刪除
  8. 你好,好像倉頡碼表裡面這個字沒有收錄:“𮗙”,我就不放圖片連結了,可以把這個字複製到其它地方,全宋體是可以顯示出來的。希望可以收錄這個字。

    回覆刪除
    回覆
    1. 您好!有的,倉頡碼表裡有這個字。我剛剛又特別下載檢查一次,確定有,倉頡碼是「bunnm 𮗙」。

      刪除
  9. U+31350 的G源字形變更,在 https://hc.jsecs.org/irg/ws2017/app/?id=00002 有詳盡的討論。G源的形原本與UTC形一致,後來G的專家們討論後認爲現在的形更加正確,也確實有許多古籍證據支持(見討論頁),因此G源更新了字形,UTC的字形仍遵循漢大。

    回覆刪除
    回覆
    1. 感謝提供資訊,這裏的討論我是看過的。

      刪除