WFG: 《全字庫》字典

2020年7月3日星期五

《全字庫》字典

☆ 2023/10/13 累積訂正更新，原連結請重新下載。

我將製作新版全宋體與部件檢索過程所整理的數據，做成了一部《全字庫》字典，雖然沒有實際的釋義，用處也不大，但完整收錄了全字庫的字頭數據，也記錄了比官方數據更為完整的 Unicode 對應關係。透過部件檢索檢字，查詢這部《全字庫》字典，可以查得該字的 CNS 編碼，並可直接點擊跳轉官方的對應頁面，這實際上要比官網的查詢功能還要來得方便而精確了。

本字典以全字庫公開的 2018-10-02 版數據製作，收錄我所關注的一些數據，一些不常用的拼音碼、地政相關數據，因與我的製作主題無關，故未予收錄。

字頭的右上方以紅色小字標註該字的 Unicode 碼，其後方框中的編號，即是 CNS 編碼，直接點擊這個方框可以跳轉到官方網頁，查看全部相關數據。若是該 Unicode 編碼字 CNS 並未收錄，則 CNS 編碼全部以 0 表示，當然也就沒有全字庫的數據了。

分享這部字典，主要是它記錄了我所整理的 Unicode vs. CNS 對應關係。透過部件檢索檢字(Unicode)，查詢《全字庫》字典(得到 CNS)，可以取得這個對應關係。

以上面這個例子來說，我們利用部件檢索輸入「不整」，可以檢索到這個 G 區新字(U+3001F)，然後就可以得知，事實上 CNS 19-233F 已經收錄了這個字。點擊 CNS 編號跳轉官方網頁：

從官網的 Unicode 欄位可以看到，官方尚未將這字與實際的 Unicode 關聯起來，只把它當外字處理。

是不是 G 區字太新了，官方還來不及處理？想當然是，不過事實上，包含 E 區、F 區，還有蠻大量的字，官方都尚未與 Unicode 聯繫起來。

雖然不敢說一定毫無遺漏，但經過兩年冗長的整理，我把官方沒完成的這個部分補起來了，把 CNS 與 Unicode 完整勾稽起來，讓兩者得以交互對應。

感謝 suns99 兄倉頡輸入的火力支援，沒有他，我的許多整理工作都不可能順利進行。他也總像個樹醫生般的，隨時幫我逮出樹幹裡的臭蟲。徵得了他的同意，一併把他整理的倉頡碼表(涵蓋全宋體的所有漢字)分享出來，希望讓會倉頡輸入的朋友也能快速上手，瞬間提升十二萬漢字的功力，呵呵！

詞條總數：111760
單字數目：96378
連結數目：5
下載連結：全字庫.zip

下載連結：倉頡碼表.7z (由於每個人的習慣不同，僅保留漢字部分，請自行併入您慣用的碼表)

歷經兩年時間的艱苦奮鬥，現將製作新版全宋體與部件檢索產生的副產品——《全字庫》字典，無條件地公開分享出來，樂見學術研究、教育工作、個人閱讀這方面的運用，但請勿用做任何形式的商業營利行為。希望這些寶貴的資料能更方便地被大家運用，也請有使用的朋友能將發現的瑕疵、錯誤反應給我知道，以利我後續的修正。

26 則留言:

阿文2020年9月21日晚上7:08
■《漢語大詞典》
立國
　　(3)即位。六，通蒞。　→立，通蒞。
　
　　《全字庫》
　　誤　　　　　　正
󸳋　女甩󰐬匕　　→女而比　女而󰐬匕
　
============
■《武崙國小成語詞典》
重修舊好
　　重新恢復往日的友好。重新恢復往日的友好。　　●註解重複

============
■字形錯誤
𦨷 U+26A37，全宋體等寬、調和……字形皆誤，右當為伐（同筏）。
　　　　U+26A2E，才是𦨮，右為代。
　
============
■懇請
　　請至少將《全宋體等寬》字型內，三個注音符號的調符：
　　　ˊ　ˇ　ˋ
修改為「標楷體」般的「大形符號」，蓋太小，實與注音符號不搭，難看又看不清楚（老花嘛）！
　
　　好些國際音標的符，如‥
　　　　əɔŋɤɑɻɿʅʂɲƐ……
是否能改為「半形」的字型，好能與其它半形的字母，協調搭配，才會好看！
至少改一套《全宋體等寬》的。　
　　想推展台語使用「臺灣方音符號、國際音標」，但拼音字形不搭調，於是凡遇拼音，就得一一標記，改選其它字型，實在多浪費工夫。
　
回覆刪除
回覆
阿文2020年9月22日凌晨3:25
WFG‥
　　阿文這幾個月來，正努力地，整編《臺語詞海》——將詞條，全都加上註解。
整編了五萬多筆之後，本想休息一段時間再說。
　　結果，休息沒一天，就忍不住地，動手整合《台華對應綜合大辭典》的詞條。
至今，尚餘一萬四千多筆（未重復），有待收錄，加上註解哩！
等完成後，想必又會接著整編《台日大辭典》（近七萬筆，未重複者，還不知會有多少）——繼續傻下去！
　　每天，都眼油直流、昏昏沉沉的，真是「入迷」來的！一面想休息，卻又想要給它「早日完成」——真是受不了自己的傻！（這種心情，想必你是能體會的！）
　　所以，還是別答應你的好！
　
　　《全字庫》的字形連結，好像全都「失連」啦！（也許是其網站的關係！）
　　看不到字形，也就沒能「校正」，想來，校正一事，你也只能「且先按下」了！
　　若有字形可看，還能每天校正一些，當作「換口味、吃點心」一下哩！
　　阿文整編《臺語詞海》，累了，就換一下工作，泡一下茠，
每天輸入一個「臺創漢字」（楊青矗、吳守禮的造字）的字義，舖到臉書《臺語學院》去；如是持之以𢗝，日積月累，總也有完成的一日啦！
　
　　　　　　＊　　　　　　＊　　　　　　＊　　　　　　＊
　
　　原來，有注音符號的專碼，而無注音調符的專屬字碼呀！
　　台語注音的調符，也少了六個全形的專屬字碼呢！
　　Unicode，真是永遠也趕不上「需求」的速度呀！
　　
　　你上次提供的造字程式，沒中文版的，對阿文而言，實在很難使用。
　　感覺上，自由造字軟體FontForge，應該是比較好用！
字碼可以成批複製、搬移、清除，挺方便的。
但很多功能，沒人教，還真很難摸熟——太過「專業」啦！
台灣好像也沒幾個在用吧！
　　還有，看得須有「繪畫、美工」的才能，方能將字形給造得好看——
若非靠「剪貼拼湊」，就能完成的字，就得自行動手繪製，
如要加長、加粗筆畫等，就有得磨啦！
尤其是「楷體」，太活了！可得會寫毛筆的人，才能造得協調好看。
　　　　　　　　　　　　　　　　　　阿文
　　　　　　　　　　　　　　　　　　　　
　
◇維基百科。FontForge
　https://zh.wikipedia.org/wiki/FontForge
◇FontForge　英文版：https://fontforge.org/en-US/
【FontForge教學】Part1: FontForge 的安裝及更改介面語言
　https://home.gamer.com.tw/creationDetail.php?sn=4117676
★學著換中文界面，結果也沒成功——好像沒「中文語言包」的樣子！
　
◇Fontforge 非官方 Windows版本
　https://web.archive.org/web/20140605140631/http://www.geocities.jp/meir000/fontforge/
▲阿文一直用這個版本的，
　但換了新電腦，居然打不開程式……也不知哪裡有問題，
　暫時不管造字，也就「且先按下」啦！
　
◇Fontforge Windows(字体编辑软件)下载中文版
　http://www.townwu.com/xiazai/29759.html
回覆刪除
回覆
阿文2020年9月22日晚上10:05
WFG‥
　　說不想碰的……早上，一不小心，卻碰了「部件檢索」，結果……也就停不下來啦！
就這麼地，坐在電腦前一整天，一直努力地「折分」著。
　　真是累到不行，如何沒錢賺，還這麼拚命幹嘛咧？真是服了！
　　除了那些，須連到「全字庫」，而看不到字形的，明天，至少可以將那些畫「╳」的，而看得到字形的，給拆分完。
　　好吧！躺床休息去了。
回覆刪除
回覆
阿文2020年9月23日凌晨4:45
WFG‥
　　原來是之前，更新全宋體時，竟將 FSung-F給漏了安裝啦！所以，還是看到「□」字，得利用　MDict 裡，連結到「全字庫」去的按鈕，連去全字庫看字形啦！
　　看來，昨天是拆分到舊的啦！嗚……看來是白忙了一天啦！
（之前的「部件檢索」，還有一堆沒拆分的字，阿文有整理到Excel裡，昨日努力拆分的，就是那些也！）

　　好吧！請將檔案寄至：　a_vun@yanoo.com.tw

　　以後，詞典編累了，就換一下「工作內容‥整修折分表」——
急也急不得，每天做一些，總有完成的時候也!

　　　　　　＊　　　　　　＊　　　　　　＊　　　　　　＊

　　閞於注音符號的調符，那應是為注音符號，專門設置的——而非供英文使用！
看以前big-5 內碼表的排列：
　　　　A3B8 ㄧ　A3B9 ㄨ　A3BA ㄩ
　　　　A3BB ˙　A3BC ˉ　A3BD ˊ　A3BE ˇ　A3BF ˋ
可知是連續的，且又是「全形」，故不可能為「半形」的英文所用。
　　記得以前，Win的「細明體、標楷體」（等寬），都是「大的」；「新細明體」，才是「小的」。（「新細明體」為調和字。國語注音一聲的調符，原是空格，有些字型，還改為加上一橫。）
　　至於，為何會被「造小」了呢？
　　想來，是因為「注音二式」的關係！早期還是在拼音後加調符，如朱邦復《漢字基因字典》的拼音，就是在拼音後，加上調符。
　　為了配合拼音字母，沒另造「半形」的，卻「改小了全形的符號」。
　　後來，注音二式，也改成像「漢語拼音」的調符標示方法——
而今，「注音二式」，已被《教育部重編國語辭典》，給扔進垃圾桶，直接改用「漢語拼音」啦！
　　所以呢！那些個注音調符，改回大的，當不會影響到「英文」也！
　　　　　　　　　　　　　　　　　　阿文
　　　　　　　　　　　　　　　　　　　　
　
◇注音符號二式
　https://language.moe.gov.tw/001/Upload/files/site_content/M0001/er/p2.htm
◇朱邦復漢字基因字典
　http://www.cbflabs.com/book/dic/hanzijiyin/e1.htm
【水】　水　ㄕㄨㄟˇ　Shoeiˇ　　　　ˊˇˋ˫˪
回覆刪除
回覆
阿文2020年9月23日下午3:03
　　所附的《新增字拆分》檔，其拆分，似乎都是「最多拆分」（細分），
你要的，是「最多拆分」（細分），還是「最少拆分」（粗分）？
　　如‥
　　　　原　󹤒　⺊⺳人口又土　細分（最多拆分）
　　　　改　󹤒　󸬷土　　　　　粗分（最少拆分）
　　已經改一堆了，才想到這間題。
　　再者，如‥
　　　　原　󺃾　⺩白女
　　　　改　󺃾　珀女
　　是否需要再加一拆分？應該不用吧？如下‥
　　　　　　󺃾　珀女；𤣩白女
回覆刪除
回覆
阿文2020年10月3日凌晨12:42
　　修正拆分：
󸺒　　㇋㇏東
󺪯　　㇋㇏白
󸬰　　𠤕㇋㇏
回覆刪除
回覆
阿文2020年10月8日上午10:24
■須增造字。
｛魚本｝　⊕龍文鯊。別名‥｛魚本｝仔（澎湖）。　此字有簡體（𫚏），而無繁體。

■字詞典校正
　《漢語大詞典》龜裂
⑶手足皮膚因寒冷或乾燥而坼裂。　重複⑴，當刪除。
回覆刪除
回覆
WFG2020年12月23日上午10:32
請參閱之前的「漢字使用環境的建置㈠㈡㈢㈣」介紹，特別是第㈢篇「辭典篇」的說明。
回覆刪除
回覆
哩2021年2月16日晚上7:04
你太厲害了
感謝你的發心整理
另外
想請問全字庫的筆劃數能在Excel檔內拉出來嗎?
因為我有好幾千字需要把個別筆畫拉出來
一直苦惱該怎麼做
若您知道方法,也在麻煩告知我
感謝
回覆刪除
回覆
Hsien2021年7月14日下午1:33
我有比對您的版本(全字庫2018-10-02數據)與最新版本(2021-07-05)的差異，共新增30字如下：
CNS 17-215B U+FFB39
CNS 17-215A U+FFB3A
CNS 12-4A4A U+FFB3B
CNS 13-6360 U+FFB3C
CNS 17-2159 U+FFB3D
CNS 17-2158 U+FFB3E
CNS 12-477D U+FFB3F
CNS 7-6662 U+FFB40
CNS 17-2157 U+FFB41
CNS 7-6661 U+FFB42
CNS 7-6660 U+FFB43
CNS 17-2156 U+FFB44
CNS 17-2155 U+FFB45
CNS 13-4725 U+FFB46
CNS 17-2154 U+FFB47
CNS 17-2153 U+FFB48
CNS 17-2152 U+FFB49
CNS 17-2151 U+FFB4A
CNS 17-2150 U+FFB4B
CNS 17-214F U+FFB4C
CNS 12-3B34 U+FFB4D
CNS 17-214E U+FFB4E
CNS 17-214D U+FFB4F
CNS 7-6659 U+FFB50
CNS 17-214C U+FFB51
CNS 12-2921 U+FFB52
CNS 17-214B U+FFB53
CNS 14-2670 U+FFB54
CNS 17-214A U+FFB55
CNS 17-2149 U+FFB56
回覆刪除
回覆
阿文2021年7月27日凌晨1:58
WFG‥
　　下載「全字庫.mdx」，更新日期為「2021.06.30」的。
　　以MDX詞典，查其內容，「部件拆分」，看來並無更新。
　　請寄其源文件（未轉成.mdx）給阿文！
　　（GetDict失效，無法轉回.txt。）
　　阿文可以幫忙更新、修正，再寄給你轉囉！
　　　　　　　　　　　　　　　　　　阿文
　
潘文良：a_vun@yahoo.com.tw
回覆刪除
回覆
阿文2021年7月27日下午6:29
WFG‥
　　看來，㑑們都走上一條「不歸路」啦！（大概這輩子，都要陷在裡頭，至死方休……）
　　編撰、整修《臺語字詞海》（現在，又加上《臺語諺海》）——
《臺日大詞典》，還有二萬三千六百多筆；臺灣俗語，一萬多筆；俏皮話、謎語、銘言……想來，也是一條，看不到盡頭的路哪！
　　想修校《全字庫》，也只是想‥既然在「拆分」上，已幫了忙，那就幫忙修校好了——整天編撰字詞典，累的時候，就「換個口味」一下，當作休息也好——
反正也沒在「趕進度」，可以慢慢做。（留言之後，也有想到‥應該你是想「保持原狀——以備查照」，所以才沒改——加上「全字庫」，也沒啥字義解釋，想來，也無須太在意，那些「拆分」的正確與否啦！）
　　所以呢！可不敢冒然地答應你啦！
　　如果答應了，那可就得「全力以赴」才行呀！
　　倘若有人，除了上班之外，願意付出時間、心力，專責、專工地去做的，當是較適合的人選！
　　有時，還真希望，能獲得〈孫悟空〉的「分身術」能力‥拔猴毛一吹——
變出好些個小猴兒來「幫忙」哩！
　　　　　　　　　　　　　　　　　　阿文
　　　　　　　　　　　　　　　　　　　　
　
◇阿文的臉書「臺語學院」
　https://www.facebook.com/groups/978821105480673/
回覆刪除
回覆
Mastameta2021年9月5日中午12:14
https://imgur.com/GF6vf0H

這個字，CNS同時編碼在9和15平面？
UniHan說2F9BC來自CNS 15平面，不知跟9平面的字有何關係。
回覆刪除
回覆

新增留言

訂閱：張貼留言 (Atom)

2020年7月3日 星期五

《全字庫》字典

26 則留言:

2020年7月3日星期五