2020年7月3日 星期五

《全字庫》字典

☆ 2023/10/13 累積訂正更新,原連結請重新下載。

我將製作新版全宋體與部件檢索過程所整理的數據,做成了一部《全字庫》字典,雖然沒有實際的釋義,用處也不大,但完整收錄了全字庫的字頭數據,也記錄了比官方數據更為完整的 Unicode  對應關係。透過部件檢索檢字,查詢這部《全字庫》字典,可以查得該字的 CNS 編碼,並可直接點擊跳轉官方的對應頁面,這實際上要比官網的查詢功能還要來得方便而精確了。




本字典以全字庫公開的  2018-10-02 版數據製作,收錄我所關注的一些數據,一些不常用的拼音碼、地政相關數據,因與我的製作主題無關,故未予收錄。

字頭的右上方以紅色小字標註該字的 Unicode 碼,其後方框中的編號,即是 CNS 編碼,直接點擊這個方框可以跳轉到官方網頁,查看全部相關數據。若是該 Unicode 編碼字 CNS 並未收錄,則 CNS 編碼全部以 0 表示,當然也就沒有全字庫的數據了。


分享這部字典,主要是它記錄了我所整理的 Unicode vs. CNS 對應關係。透過部件檢索檢字(Unicode),查詢《全字庫》字典(得到 CNS),可以取得這個對應關係。


以上面這個例子來說,我們利用部件檢索輸入「不整」,可以檢索到這個 G 區新字(U+3001F),然後就可以得知,事實上 CNS 19-233F 已經收錄了這個字。點擊 CNS 編號跳轉官方網頁:


從官網的 Unicode 欄位可以看到,官方尚未將這字與實際的 Unicode 關聯起來,只把它當外字處理。

是不是 G 區字太新了,官方還來不及處理?想當然是,不過事實上,包含 E 區、F 區,還有蠻大量的字,官方都尚未與 Unicode 聯繫起來。

雖然不敢說一定毫無遺漏,但經過兩年冗長的整理,我把官方沒完成的這個部分補起來了,把 CNS 與 Unicode 完整勾稽起來,讓兩者得以交互對應。

感謝 suns99 兄倉頡輸入的火力支援,沒有他,我的許多整理工作都不可能順利進行。他也總像個樹醫生般的,隨時幫我逮出樹幹裡的臭蟲。徵得了他的同意,一併把他整理的倉頡碼表(涵蓋全宋體的所有漢字)分享出來,希望讓會倉頡輸入的朋友也能快速上手,瞬間提升十二萬漢字的功力,呵呵!

詞條總數:111760
單字數目:96378
連結數目:5
下載連結:全字庫.zip

下載連結:倉頡碼表.7z (由於每個人的習慣不同,僅保留漢字部分,請自行併入您慣用的碼表)

歷經兩年時間的艱苦奮鬥,現將製作新版全宋體與部件檢索產生的副產品——《全字庫》字典,無條件地公開分享出來,樂見學術研究、教育工作、個人閱讀這方面的運用,但請勿用做任何形式的商業營利行為。希望這些寶貴的資料能更方便地被大家運用,也請有使用的朋友能將發現的瑕疵、錯誤反應給我知道,以利我後續的修正。




26 則留言:

  1. ■《漢語大詞典》
    立國
      (3)即位。六,通蒞。 →立,通蒞。
     
      《全字庫》
      誤      正
    󸳋 女甩󰐬匕  →女而比 女而󰐬匕
     
    ============
    ■《武崙國小成語詞典》
    重修舊好
      重新恢復往日的友好。重新恢復往日的友好。  ●註解重複

    ============
    ■字形錯誤
    𦨷 U+26A37,全宋體等寬、調和……字形皆誤,右當為伐(同筏)。
        U+26A2E,才是𦨮,右為代。
     
    ============
    ■懇請
      請至少將《全宋體等寬》字型內,三個注音符號的調符:
       ˊ ˇ ˋ
    修改為「標楷體」般的「大形符號」,蓋太小,實與注音符號不搭,難看又看不清楚(老花嘛)!
     
      好些國際音標的符,如‥
        əɔŋɤɑɻɿʅʂɲƐ……
    是否能改為「半形」的字型,好能與其它半形的字母,協調搭配,才會好看!
    至少改一套《全宋體等寬》的。 
      想推展台語使用「臺灣方音符號、國際音標」,但拼音字形不搭調,於是凡遇拼音,就得一一標記,改選其它字型,實在多浪費工夫。
     

    回覆刪除
    回覆
    1. 阿文兄,感謝您的反饋,該訂正的都已訂正。至於字形修改的部分,可能有些困難。

      注音符號的調符,其實在 Unicode 中並沒有專屬的碼位(我也不知道為什麼?),而是借用了西文符號 Spacing Modifier Letters 區塊的三個符號,也就是說這三個調符,也可能被非注音符號的西文使用,若是改成「標楷體」般的「大形符號」,反而就破壞了原來西文的協調,我想這也是為什麼細明體、全字庫宋體都不敢這樣改的原因。那為什麼標楷體改了?我猜是因為楷體是中文特有,老外應該也不會用,所以它敢不照標準來。

      至於半形的問題,我也一直想改,不過西文的符號太多,要一一去過濾哪些該改,哪些不該改,然後一一調整,我實在心有餘而力不足。

      趁機反過來向阿文兄求援一下,呵呵!不知阿文兄是否有空,全字庫的拆分優化我一直分身乏術,遲遲沒法真正完成(您反饋的拆分錯誤便在這個部分),您若有空是否能支援這部分的優化工作?

      刪除
  2. WFG‥
      阿文這幾個月來,正努力地,整編《臺語詞海》——將詞條,全都加上註解。
    整編了五萬多筆之後,本想休息一段時間再說。
      結果,休息沒一天,就忍不住地,動手整合《台華對應綜合大辭典》的詞條。
    至今,尚餘一萬四千多筆(未重復),有待收錄,加上註解哩!
    等完成後,想必又會接著整編《台日大辭典》(近七萬筆,未重複者,還不知會有多少)——繼續傻下去!
      每天,都眼油直流、昏昏沉沉的,真是「入迷」來的!一面想休息,卻又想要給它「早日完成」——真是受不了自己的傻!(這種心情,想必你是能體會的!)
      所以,還是別答應你的好!
     
      《全字庫》的字形連結,好像全都「失連」啦!(也許是其網站的關係!)
      看不到字形,也就沒能「校正」,想來,校正一事,你也只能「且先按下」了!
      若有字形可看,還能每天校正一些,當作「換口味、吃點心」一下哩!
      阿文整編《臺語詞海》,累了,就換一下工作,泡一下茠,
    每天輸入一個「臺創漢字」(楊青矗、吳守禮的造字)的字義,舖到臉書《臺語學院》去;如是持之以𢗝,日積月累,總也有完成的一日啦!
     
          *      *      *      *
     
      原來,有注音符號的專碼,而無注音調符的專屬字碼呀!
      台語注音的調符,也少了六個全形的專屬字碼呢!
      Unicode,真是永遠也趕不上「需求」的速度呀!
      
      你上次提供的造字程式,沒中文版的,對阿文而言,實在很難使用。
      感覺上,自由造字軟體FontForge,應該是比較好用!
    字碼可以成批複製、搬移、清除,挺方便的。
    但很多功能,沒人教,還真很難摸熟——太過「專業」啦!
    台灣好像也沒幾個在用吧!
      還有,看得須有「繪畫、美工」的才能,方能將字形給造得好看——
    若非靠「剪貼拼湊」,就能完成的字,就得自行動手繪製,
    如要加長、加粗筆畫等,就有得磨啦!
    尤其是「楷體」,太活了!可得會寫毛筆的人,才能造得協調好看。
                      阿文
                        
     
    ◇維基百科。FontForge
     https://zh.wikipedia.org/wiki/FontForge
    ◇FontForge 英文版:https://fontforge.org/en-US/
    【FontForge教學】Part1: FontForge 的安裝及更改介面語言
     https://home.gamer.com.tw/creationDetail.php?sn=4117676
    ★學著換中文界面,結果也沒成功——好像沒「中文語言包」的樣子!
     
    ◇Fontforge 非官方 Windows版本
     https://web.archive.org/web/20140605140631/http://www.geocities.jp/meir000/fontforge/
    ▲阿文一直用這個版本的,
     但換了新電腦,居然打不開程式……也不知哪裡有問題,
     暫時不管造字,也就「且先按下」啦!
     
    ◇Fontforge Windows(字体编辑软件)下载 中文版
     http://www.townwu.com/xiazai/29759.html

    回覆刪除
    回覆
    1. 阿文兄,咱們真是一對傻人啊,哈哈!其實我也知道您一定也忙著,所以一直沒有吵您,只是藉著回應隨口問問,別放心上,就繼續傻下去吧,呵呵!加油!

      刪除
  3. WFG‥
      說不想碰的……早上,一不小心,卻碰了「部件檢索」,結果……也就停不下來啦!
    就這麼地,坐在電腦前一整天,一直努力地「折分」著。
      真是累到不行,如何沒錢賺,還這麼拚命幹嘛咧?真是服了!
      除了那些,須連到「全字庫」,而看不到字形的,明天,至少可以將那些畫「╳」的,而看得到字形的,給拆分完。
      好吧!躺床休息去了。

    回覆刪除
    回覆
    1. 阿文兄還是禁不起誘惑啊,呵呵!

      有些不明白,為什麼需要連到「全字庫」去?阿文兄若真的願意幫忙,我把我的工作檔發給您,只要有裝全宋體,直接用純文字編輯軟體在本地端看著字形,檢查、修正拆分即可呀!以您的打字速度,剩下的一萬多個拆分,應該很快可以優化完(至少比我快上好幾倍)。

      兄若真的可以幫忙,留個訊給我,我再提供工作檔,並進一部說明作業方式。

      刪除
  4. WFG‥
      原來是之前,更新全宋體時,竟將 FSung-F給漏了安裝啦!所以,還是看到「□」字,得利用 MDict 裡,連結到「全字庫」去的按鈕,連去全字庫看字形啦!
      看來,昨天是拆分到舊的啦!嗚……看來是白忙了一天啦!
    (之前的「部件檢索」,還有一堆沒拆分的字,阿文有整理到Excel裡,昨日努力拆分的,就是那些也!)

      好吧!請將檔案寄至: a_vun@yanoo.com.tw

      以後,詞典編累了,就換一下「工作內容‥整修折分表」——
    急也急不得,每天做一些,總有完成的時候也!

          *      *      *      *

      閞於注音符號的調符,那應是為注音符號,專門設置的——而非供英文使用!
    看以前big-5 內碼表的排列:
        A3B8 ㄧ A3B9 ㄨ A3BA ㄩ
        A3BB ˙ A3BC ˉ A3BD ˊ A3BE ˇ A3BF ˋ
    可知是連續的,且又是「全形」,故不可能為「半形」的英文所用。
      記得以前,Win的「細明體、標楷體」(等寬),都是「大的」;「新細明體」,才是「小的」。(「新細明體」為調和字。國語注音一聲的調符,原是空格,有些字型,還改為加上一橫。)
      至於,為何會被「造小」了呢?
      想來,是因為「注音二式」的關係!早期還是在拼音後加調符,如朱邦復《漢字基因字典》的拼音,就是在拼音後,加上調符。
      為了配合拼音字母,沒另造「半形」的,卻「改小了全形的符號」。
      後來,注音二式,也改成像「漢語拼音」的調符標示方法——
    而今,「注音二式」,已被《教育部重編國語辭典》,給扔進垃圾桶,直接改用「漢語拼音」啦!
      所以呢!那些個注音調符,改回大的,當不會影響到「英文」也!
                      阿文
                        
     
    ◇注音符號二式
     https://language.moe.gov.tw/001/Upload/files/site_content/M0001/er/p2.htm
    ◇朱邦復漢字基因字典
     http://www.cbflabs.com/book/dic/hanzijiyin/e1.htm
    【水】 水 ㄕㄨㄟˇ Shoeiˇ    ˊˇˋ˫˪

    回覆刪除
    回覆
    1. 稍後會將相關檔案及說明寄上,一切就拜託阿文兄了。

      非也!兄看的是 big-5 內碼,這可以說只是已被淘汰的台灣特有編碼,就現行世界通用的標準 Unicode 碼來說,這三個調符確實是寄人籬下。想當初提交符號時,或許是未經深思;或許是未被採納(沒辦法,台灣在漢字文化上幾乎已經快沒聲音了。早前,Unicode 組織幾乎都由日人把持,近期,大陸的影響力則愈來愈大),總之這三個調符寄居在人家家裡已是既成的事實。

      刪除
  5.   所附的《新增字拆分》檔,其拆分,似乎都是「最多拆分」(細分),
    你要的,是「最多拆分」(細分),還是「最少拆分」(粗分)?
      如‥
        原 󹤒 ⺊⺳人口又土 細分(最多拆分)
        改 󹤒 󸬷土     粗分(最少拆分)
      已經改一堆了,才想到這間題。
      再者,如‥
        原 󺃾 ⺩白女
        改 󺃾 珀女
      是否需要再加一拆分?應該不用吧?如下‥
          󺃾 珀女;𤣩白女

    回覆刪除
    回覆
    1. 部件檢索要的是「最少拆分」(粗分),「󺃾 珀女」即可,不用再加一拆分。感謝!

      刪除
    2. 全字庫的原始拆分都是「最多拆分」(細分),所以需要勞煩您幫忙優化成「最少拆分」(粗分),同時加以訂正,因為全字庫的拆分錯誤很多。

      刪除
  6.   修正拆分:
    󸺒  ㇋㇏東
    󺪯  ㇋㇏白
    󸬰  𠤕㇋㇏

    回覆刪除
  7. ■須增造字。
    {魚本} ⊕龍文鯊。別名‥{魚本}仔(澎湖)。 此字有簡體(𫚏),而無繁體。

    ■字詞典校正
     《漢語大詞典》龜裂
    ⑶手足皮膚因寒冷或乾燥而坼裂。 重複⑴,當刪除。

    回覆刪除
    回覆
    1. 依據《康熙字典》的說法,䱁([⿰魚夲])是正字而[⿰魚本]是俗譌字,這應該是為何繁體未收[⿰魚本]的原因。事實上根據 Unicode 的標準,U+4C41 䱁([⿰魚夲])的字形,大陸作[⿰魚本];台灣作[⿰魚夲],二形是被認同的。不過,為了方便忠實呈現古籍的內容,我還是會按照阿文兄的建議,把[⿰魚本]這個字形加入補充漢字之中,日後更新即有此字。感謝您的反饋!

      刪除
  8. 請參閱之前的「漢字使用環境的建置 ㈠㈡㈢㈣ 」介紹,特別是第㈢篇「辭典篇」的說明。

    回覆刪除
  9. 你太厲害了
    感謝你的發心整理
    另外
    想請問全字庫的筆劃數能在Excel檔內拉出來嗎?
    因為我有好幾千字需要把個別筆畫拉出來
    一直苦惱該怎麼做
    若您知道方法,也在麻煩告知我
    感謝

    回覆刪除
    回覆
    1. 能清楚描述一下您的需要與用途嗎?如無涉及商業營利用途,或許我能在能力範圍內幫一點忙。

      刪除
  10. 我有比對您的版本(全字庫2018-10-02數據)與最新版本(2021-07-05)的差異,共新增30字如下:
    CNS 17-215B U+FFB39
    CNS 17-215A U+FFB3A
    CNS 12-4A4A U+FFB3B
    CNS 13-6360 U+FFB3C
    CNS 17-2159 U+FFB3D
    CNS 17-2158 U+FFB3E
    CNS 12-477D U+FFB3F
    CNS 7-6662 U+FFB40
    CNS 17-2157 U+FFB41
    CNS 7-6661 U+FFB42
    CNS 7-6660 U+FFB43
    CNS 17-2156 U+FFB44
    CNS 17-2155 U+FFB45
    CNS 13-4725 U+FFB46
    CNS 17-2154 U+FFB47
    CNS 17-2153 U+FFB48
    CNS 17-2152 U+FFB49
    CNS 17-2151 U+FFB4A
    CNS 17-2150 U+FFB4B
    CNS 17-214F U+FFB4C
    CNS 12-3B34 U+FFB4D
    CNS 17-214E U+FFB4E
    CNS 17-214D U+FFB4F
    CNS 7-6659 U+FFB50
    CNS 17-214C U+FFB51
    CNS 12-2921 U+FFB52
    CNS 17-214B U+FFB53
    CNS 14-2670 U+FFB54
    CNS 17-214A U+FFB55
    CNS 17-2149 U+FFB56

    回覆刪除
    回覆
    1. 我記得去年還是什麼時候我曾比對過一次,印象中是新增了28字,數量不多,所以我就沒有急著處理,想說累積到一個程度再來處理。您真有心,感謝您提供了比對結果,我若有空會看看是否該把這些字加進來,多謝!

      刪除
  11. WFG‥
      下載「全字庫.mdx」,更新日期為「2021.06.30」的。
      以MDX詞典,查其內容,「部件拆分」,看來並無更新。
      請寄其源文件(未轉成.mdx)給阿文!
      (GetDict失效,無法轉回.txt。)
      阿文可以幫忙更新、修正,再寄給你轉囉!
                      阿文
     
    潘文良:a_vun@yahoo.com.tw

    回覆刪除
    回覆
    1. 這部「全字庫.mdx」我儘量保持官方數據原狀不予訂正,「部件拆分」並無更新是我刻意為之,這在必要時可做為溯源之用。要查更新更正確的拆分直接用「部件檢索」就好,因此沒必要花時間修正這個「全字庫.mdx」的拆分數據。

      這部字典我的使用定位主要是做為由 Unicode 字(或者更廣義地說是由全宋體字庫)查 CNS 字,並直接跳轉官方頁面看字形圖片之用。因為各方的標準字形多有不同,我經常得查證 CNS 的字形與其他字形的差異。

      阿文兄最近沒有在忙著校編資料?我手邊其實有眾多整理工作等著要處理:異體字字典的字頭整理已經全面展開,至少有三萬五千多個字頭等著 suns99 兄用倉頡幫我輸入,後續還要編寫拆分(我有去函國教院索取拆分資料,還沒得到回覆,也不知道要不要得到)。另外有一部《紹興重雕大藏音》(萬曆嘉興藏),七千多個字頭,在等待 suns99 兄工作的同時我也同步在持續整理,這些後續都需倉頡好手幫忙(我有試著學倉頡,可惜沒有成功,呵呵)。

      阿文兄若有空,別管全字庫了,歡迎加入現代愚公的行列,趕緊來幫忙,呵呵!

      刪除
  12. WFG‥
      看來,㑑們都走上一條「不歸路」啦!(大概這輩子,都要陷在裡頭,至死方休……)
      編撰、整修《臺語字詞海》(現在,又加上《臺語諺海》)——
    《臺日大詞典》,還有二萬三千六百多筆;臺灣俗語,一萬多筆;俏皮話、謎語、銘言……想來,也是一條,看不到盡頭的路哪!
      想修校《全字庫》,也只是想‥既然在「拆分」上,已幫了忙,那就幫忙修校好了——整天編撰字詞典,累的時候,就「換個口味」一下,當作休息也好——
    反正也沒在「趕進度」,可以慢慢做。(留言之後,也有想到‥應該你是想「保持原狀——以備查照」,所以才沒改——加上「全字庫」,也沒啥字義解釋,想來,也無須太在意,那些「拆分」的正確與否啦!)
      所以呢!可不敢冒然地答應你啦!
      如果答應了,那可就得「全力以赴」才行呀!
      倘若有人,除了上班之外,願意付出時間、心力,專責、專工地去做的,當是較適合的人選!
      有時,還真希望,能獲得〈孫悟空〉的「分身術」能力‥拔猴毛一吹——
    變出好些個小猴兒來「幫忙」哩!
                      阿文
                        
     
    ◇阿文的臉書「臺語學院」
     https://www.facebook.com/groups/978821105480673/

    回覆刪除
    回覆
    1. 阿文兄的整編工作我怎會不知?否則怎會放著這樣的倉頡高手在那邊而不去吵您!也只有在累得快「挺不住」時才會找阿文兄「哭訴」一番,多少要點糖果吃吃,呵呵!

      做一點對自己有意義,對別人也有些意義的事,縱使「不歸」也沒什麼不好,至少沒有白來了一遭。人生但求「無悔」,阿文兄當也如是,一起繼續加油!

      刪除
  13. https://imgur.com/GF6vf0H

    這個字,CNS同時編碼在9和15平面?
    UniHan說2F9BC來自CNS 15平面,不知跟9平面的字有何關係。

    回覆刪除
    回覆
    1. 原本在 CNS 中,15平面的字右邊中間部件作「⺕」,中間橫筆有貫穿出頭;而9平面的字右邊中間部件作「󰐷」,中間橫筆不貫穿。但在 Unicode 中,這兩形均歸於 2F9BC,分屬台源及港源。

      這兩形差距極小,只差在中間橫筆有無貫穿,在古籍中均屬常見,只是書寫筆勢的收放,於字無有差別。故我不再區分二形(徒增紛擾),不另立補充字,遂將 CNS 的二形均對應給 2F9BC。

      刪除