☆ 2023/10/13 累積訂正更新,原連結請重新下載。
我將製作新版全宋體與部件檢索過程所整理的數據,做成了一部《全字庫》字典,雖然沒有實際的釋義,用處也不大,但完整收錄了全字庫的字頭數據,也記錄了比官方數據更為完整的 Unicode 對應關係。透過部件檢索檢字,查詢這部《全字庫》字典,可以查得該字的 CNS 編碼,並可直接點擊跳轉官方的對應頁面,這實際上要比官網的查詢功能還要來得方便而精確了。
本字典以全字庫公開的 2018-10-02 版數據製作,收錄我所關注的一些數據,一些不常用的拼音碼、地政相關數據,因與我的製作主題無關,故未予收錄。
字頭的右上方以紅色小字標註該字的 Unicode 碼,其後方框中的編號,即是 CNS 編碼,直接點擊這個方框可以跳轉到官方網頁,查看全部相關數據。若是該 Unicode 編碼字 CNS 並未收錄,則 CNS 編碼全部以 0 表示,當然也就沒有全字庫的數據了。
分享這部字典,主要是它記錄了我所整理的 Unicode vs. CNS 對應關係。透過部件檢索檢字(Unicode),查詢《全字庫》字典(得到 CNS),可以取得這個對應關係。
以上面這個例子來說,我們利用部件檢索輸入「不整」,可以檢索到這個 G 區新字(U+3001F),然後就可以得知,事實上 CNS 19-233F 已經收錄了這個字。點擊 CNS 編號跳轉官方網頁:
從官網的 Unicode 欄位可以看到,官方尚未將這字與實際的 Unicode 關聯起來,只把它當外字處理。
是不是 G 區字太新了,官方還來不及處理?想當然是,不過事實上,包含 E 區、F 區,還有蠻大量的字,官方都尚未與 Unicode 聯繫起來。
雖然不敢說一定毫無遺漏,但經過兩年冗長的整理,我把官方沒完成的這個部分補起來了,把 CNS 與 Unicode 完整勾稽起來,讓兩者得以交互對應。
感謝 suns99 兄倉頡輸入的火力支援,沒有他,我的許多整理工作都不可能順利進行。他也總像個樹醫生般的,隨時幫我逮出樹幹裡的臭蟲。徵得了他的同意,一併把他整理的倉頡碼表(涵蓋全宋體的所有漢字)分享出來,希望讓會倉頡輸入的朋友也能快速上手,瞬間提升十二萬漢字的功力,呵呵!
詞條總數:111760
單字數目:96378
連結數目:5
下載連結:全字庫.zip
下載連結:倉頡碼表.7z (由於每個人的習慣不同,僅保留漢字部分,請自行併入您慣用的碼表)
歷經兩年時間的艱苦奮鬥,現將製作新版全宋體與部件檢索產生的副產品——《全字庫》字典,無條件地公開分享出來,樂見學術研究、教育工作、個人閱讀這方面的運用,但請勿用做任何形式的商業營利行為。希望這些寶貴的資料能更方便地被大家運用,也請有使用的朋友能將發現的瑕疵、錯誤反應給我知道,以利我後續的修正。
■《漢語大詞典》
回覆刪除立國
(3)即位。六,通蒞。 →立,通蒞。
《全字庫》
誤 正
女甩匕 →女而比 女而匕
============
■《武崙國小成語詞典》
重修舊好
重新恢復往日的友好。重新恢復往日的友好。 ●註解重複
============
■字形錯誤
𦨷 U+26A37,全宋體等寬、調和……字形皆誤,右當為伐(同筏)。
U+26A2E,才是𦨮,右為代。
============
■懇請
請至少將《全宋體等寬》字型內,三個注音符號的調符:
ˊ ˇ ˋ
修改為「標楷體」般的「大形符號」,蓋太小,實與注音符號不搭,難看又看不清楚(老花嘛)!
好些國際音標的符,如‥
əɔŋɤɑɻɿʅʂɲƐ……
是否能改為「半形」的字型,好能與其它半形的字母,協調搭配,才會好看!
至少改一套《全宋體等寬》的。
想推展台語使用「臺灣方音符號、國際音標」,但拼音字形不搭調,於是凡遇拼音,就得一一標記,改選其它字型,實在多浪費工夫。
阿文兄,感謝您的反饋,該訂正的都已訂正。至於字形修改的部分,可能有些困難。
刪除注音符號的調符,其實在 Unicode 中並沒有專屬的碼位(我也不知道為什麼?),而是借用了西文符號 Spacing Modifier Letters 區塊的三個符號,也就是說這三個調符,也可能被非注音符號的西文使用,若是改成「標楷體」般的「大形符號」,反而就破壞了原來西文的協調,我想這也是為什麼細明體、全字庫宋體都不敢這樣改的原因。那為什麼標楷體改了?我猜是因為楷體是中文特有,老外應該也不會用,所以它敢不照標準來。
至於半形的問題,我也一直想改,不過西文的符號太多,要一一去過濾哪些該改,哪些不該改,然後一一調整,我實在心有餘而力不足。
趁機反過來向阿文兄求援一下,呵呵!不知阿文兄是否有空,全字庫的拆分優化我一直分身乏術,遲遲沒法真正完成(您反饋的拆分錯誤便在這個部分),您若有空是否能支援這部分的優化工作?
WFG‥
回覆刪除阿文這幾個月來,正努力地,整編《臺語詞海》——將詞條,全都加上註解。
整編了五萬多筆之後,本想休息一段時間再說。
結果,休息沒一天,就忍不住地,動手整合《台華對應綜合大辭典》的詞條。
至今,尚餘一萬四千多筆(未重復),有待收錄,加上註解哩!
等完成後,想必又會接著整編《台日大辭典》(近七萬筆,未重複者,還不知會有多少)——繼續傻下去!
每天,都眼油直流、昏昏沉沉的,真是「入迷」來的!一面想休息,卻又想要給它「早日完成」——真是受不了自己的傻!(這種心情,想必你是能體會的!)
所以,還是別答應你的好!
《全字庫》的字形連結,好像全都「失連」啦!(也許是其網站的關係!)
看不到字形,也就沒能「校正」,想來,校正一事,你也只能「且先按下」了!
若有字形可看,還能每天校正一些,當作「換口味、吃點心」一下哩!
阿文整編《臺語詞海》,累了,就換一下工作,泡一下茠,
每天輸入一個「臺創漢字」(楊青矗、吳守禮的造字)的字義,舖到臉書《臺語學院》去;如是持之以𢗝,日積月累,總也有完成的一日啦!
* * * *
原來,有注音符號的專碼,而無注音調符的專屬字碼呀!
台語注音的調符,也少了六個全形的專屬字碼呢!
Unicode,真是永遠也趕不上「需求」的速度呀!
你上次提供的造字程式,沒中文版的,對阿文而言,實在很難使用。
感覺上,自由造字軟體FontForge,應該是比較好用!
字碼可以成批複製、搬移、清除,挺方便的。
但很多功能,沒人教,還真很難摸熟——太過「專業」啦!
台灣好像也沒幾個在用吧!
還有,看得須有「繪畫、美工」的才能,方能將字形給造得好看——
若非靠「剪貼拼湊」,就能完成的字,就得自行動手繪製,
如要加長、加粗筆畫等,就有得磨啦!
尤其是「楷體」,太活了!可得會寫毛筆的人,才能造得協調好看。
阿文
◇維基百科。FontForge
https://zh.wikipedia.org/wiki/FontForge
◇FontForge 英文版:https://fontforge.org/en-US/
【FontForge教學】Part1: FontForge 的安裝及更改介面語言
https://home.gamer.com.tw/creationDetail.php?sn=4117676
★學著換中文界面,結果也沒成功——好像沒「中文語言包」的樣子!
◇Fontforge 非官方 Windows版本
https://web.archive.org/web/20140605140631/http://www.geocities.jp/meir000/fontforge/
▲阿文一直用這個版本的,
但換了新電腦,居然打不開程式……也不知哪裡有問題,
暫時不管造字,也就「且先按下」啦!
◇Fontforge Windows(字体编辑软件)下载 中文版
http://www.townwu.com/xiazai/29759.html
阿文兄,咱們真是一對傻人啊,哈哈!其實我也知道您一定也忙著,所以一直沒有吵您,只是藉著回應隨口問問,別放心上,就繼續傻下去吧,呵呵!加油!
刪除WFG‥
回覆刪除說不想碰的……早上,一不小心,卻碰了「部件檢索」,結果……也就停不下來啦!
就這麼地,坐在電腦前一整天,一直努力地「折分」著。
真是累到不行,如何沒錢賺,還這麼拚命幹嘛咧?真是服了!
除了那些,須連到「全字庫」,而看不到字形的,明天,至少可以將那些畫「╳」的,而看得到字形的,給拆分完。
好吧!躺床休息去了。
阿文兄還是禁不起誘惑啊,呵呵!
刪除有些不明白,為什麼需要連到「全字庫」去?阿文兄若真的願意幫忙,我把我的工作檔發給您,只要有裝全宋體,直接用純文字編輯軟體在本地端看著字形,檢查、修正拆分即可呀!以您的打字速度,剩下的一萬多個拆分,應該很快可以優化完(至少比我快上好幾倍)。
兄若真的可以幫忙,留個訊給我,我再提供工作檔,並進一部說明作業方式。
WFG‥
回覆刪除原來是之前,更新全宋體時,竟將 FSung-F給漏了安裝啦!所以,還是看到「□」字,得利用 MDict 裡,連結到「全字庫」去的按鈕,連去全字庫看字形啦!
看來,昨天是拆分到舊的啦!嗚……看來是白忙了一天啦!
(之前的「部件檢索」,還有一堆沒拆分的字,阿文有整理到Excel裡,昨日努力拆分的,就是那些也!)
好吧!請將檔案寄至: a_vun@yanoo.com.tw
以後,詞典編累了,就換一下「工作內容‥整修折分表」——
急也急不得,每天做一些,總有完成的時候也!
* * * *
閞於注音符號的調符,那應是為注音符號,專門設置的——而非供英文使用!
看以前big-5 內碼表的排列:
A3B8 ㄧ A3B9 ㄨ A3BA ㄩ
A3BB ˙ A3BC ˉ A3BD ˊ A3BE ˇ A3BF ˋ
可知是連續的,且又是「全形」,故不可能為「半形」的英文所用。
記得以前,Win的「細明體、標楷體」(等寬),都是「大的」;「新細明體」,才是「小的」。(「新細明體」為調和字。國語注音一聲的調符,原是空格,有些字型,還改為加上一橫。)
至於,為何會被「造小」了呢?
想來,是因為「注音二式」的關係!早期還是在拼音後加調符,如朱邦復《漢字基因字典》的拼音,就是在拼音後,加上調符。
為了配合拼音字母,沒另造「半形」的,卻「改小了全形的符號」。
後來,注音二式,也改成像「漢語拼音」的調符標示方法——
而今,「注音二式」,已被《教育部重編國語辭典》,給扔進垃圾桶,直接改用「漢語拼音」啦!
所以呢!那些個注音調符,改回大的,當不會影響到「英文」也!
阿文
◇注音符號二式
https://language.moe.gov.tw/001/Upload/files/site_content/M0001/er/p2.htm
◇朱邦復漢字基因字典
http://www.cbflabs.com/book/dic/hanzijiyin/e1.htm
【水】 水 ㄕㄨㄟˇ Shoeiˇ ˊˇˋ˫˪
稍後會將相關檔案及說明寄上,一切就拜託阿文兄了。
刪除非也!兄看的是 big-5 內碼,這可以說只是已被淘汰的台灣特有編碼,就現行世界通用的標準 Unicode 碼來說,這三個調符確實是寄人籬下。想當初提交符號時,或許是未經深思;或許是未被採納(沒辦法,台灣在漢字文化上幾乎已經快沒聲音了。早前,Unicode 組織幾乎都由日人把持,近期,大陸的影響力則愈來愈大),總之這三個調符寄居在人家家裡已是既成的事實。
所附的《新增字拆分》檔,其拆分,似乎都是「最多拆分」(細分),
回覆刪除你要的,是「最多拆分」(細分),還是「最少拆分」(粗分)?
如‥
原 ⺊⺳人口又土 細分(最多拆分)
改 土 粗分(最少拆分)
已經改一堆了,才想到這間題。
再者,如‥
原 ⺩白女
改 珀女
是否需要再加一拆分?應該不用吧?如下‥
珀女;𤣩白女
部件檢索要的是「最少拆分」(粗分),「 珀女」即可,不用再加一拆分。感謝!
刪除全字庫的原始拆分都是「最多拆分」(細分),所以需要勞煩您幫忙優化成「最少拆分」(粗分),同時加以訂正,因為全字庫的拆分錯誤很多。
刪除修正拆分:
回覆刪除 ㇋㇏東
㇋㇏白
𠤕㇋㇏
感謝,已修正。
刪除■須增造字。
回覆刪除{魚本} ⊕龍文鯊。別名‥{魚本}仔(澎湖)。 此字有簡體(𫚏),而無繁體。
■字詞典校正
《漢語大詞典》龜裂
⑶手足皮膚因寒冷或乾燥而坼裂。 重複⑴,當刪除。
依據《康熙字典》的說法,䱁([⿰魚夲])是正字而[⿰魚本]是俗譌字,這應該是為何繁體未收[⿰魚本]的原因。事實上根據 Unicode 的標準,U+4C41 䱁([⿰魚夲])的字形,大陸作[⿰魚本];台灣作[⿰魚夲],二形是被認同的。不過,為了方便忠實呈現古籍的內容,我還是會按照阿文兄的建議,把[⿰魚本]這個字形加入補充漢字之中,日後更新即有此字。感謝您的反饋!
刪除請參閱之前的「漢字使用環境的建置 ㈠㈡㈢㈣ 」介紹,特別是第㈢篇「辭典篇」的說明。
回覆刪除你太厲害了
回覆刪除感謝你的發心整理
另外
想請問全字庫的筆劃數能在Excel檔內拉出來嗎?
因為我有好幾千字需要把個別筆畫拉出來
一直苦惱該怎麼做
若您知道方法,也在麻煩告知我
感謝
能清楚描述一下您的需要與用途嗎?如無涉及商業營利用途,或許我能在能力範圍內幫一點忙。
刪除我有比對您的版本(全字庫2018-10-02數據)與最新版本(2021-07-05)的差異,共新增30字如下:
回覆刪除CNS 17-215B U+FFB39
CNS 17-215A U+FFB3A
CNS 12-4A4A U+FFB3B
CNS 13-6360 U+FFB3C
CNS 17-2159 U+FFB3D
CNS 17-2158 U+FFB3E
CNS 12-477D U+FFB3F
CNS 7-6662 U+FFB40
CNS 17-2157 U+FFB41
CNS 7-6661 U+FFB42
CNS 7-6660 U+FFB43
CNS 17-2156 U+FFB44
CNS 17-2155 U+FFB45
CNS 13-4725 U+FFB46
CNS 17-2154 U+FFB47
CNS 17-2153 U+FFB48
CNS 17-2152 U+FFB49
CNS 17-2151 U+FFB4A
CNS 17-2150 U+FFB4B
CNS 17-214F U+FFB4C
CNS 12-3B34 U+FFB4D
CNS 17-214E U+FFB4E
CNS 17-214D U+FFB4F
CNS 7-6659 U+FFB50
CNS 17-214C U+FFB51
CNS 12-2921 U+FFB52
CNS 17-214B U+FFB53
CNS 14-2670 U+FFB54
CNS 17-214A U+FFB55
CNS 17-2149 U+FFB56
我記得去年還是什麼時候我曾比對過一次,印象中是新增了28字,數量不多,所以我就沒有急著處理,想說累積到一個程度再來處理。您真有心,感謝您提供了比對結果,我若有空會看看是否該把這些字加進來,多謝!
刪除WFG‥
回覆刪除下載「全字庫.mdx」,更新日期為「2021.06.30」的。
以MDX詞典,查其內容,「部件拆分」,看來並無更新。
請寄其源文件(未轉成.mdx)給阿文!
(GetDict失效,無法轉回.txt。)
阿文可以幫忙更新、修正,再寄給你轉囉!
阿文
潘文良:a_vun@yahoo.com.tw
這部「全字庫.mdx」我儘量保持官方數據原狀不予訂正,「部件拆分」並無更新是我刻意為之,這在必要時可做為溯源之用。要查更新更正確的拆分直接用「部件檢索」就好,因此沒必要花時間修正這個「全字庫.mdx」的拆分數據。
刪除這部字典我的使用定位主要是做為由 Unicode 字(或者更廣義地說是由全宋體字庫)查 CNS 字,並直接跳轉官方頁面看字形圖片之用。因為各方的標準字形多有不同,我經常得查證 CNS 的字形與其他字形的差異。
阿文兄最近沒有在忙著校編資料?我手邊其實有眾多整理工作等著要處理:異體字字典的字頭整理已經全面展開,至少有三萬五千多個字頭等著 suns99 兄用倉頡幫我輸入,後續還要編寫拆分(我有去函國教院索取拆分資料,還沒得到回覆,也不知道要不要得到)。另外有一部《紹興重雕大藏音》(萬曆嘉興藏),七千多個字頭,在等待 suns99 兄工作的同時我也同步在持續整理,這些後續都需倉頡好手幫忙(我有試著學倉頡,可惜沒有成功,呵呵)。
阿文兄若有空,別管全字庫了,歡迎加入現代愚公的行列,趕緊來幫忙,呵呵!
WFG‥
回覆刪除看來,㑑們都走上一條「不歸路」啦!(大概這輩子,都要陷在裡頭,至死方休……)
編撰、整修《臺語字詞海》(現在,又加上《臺語諺海》)——
《臺日大詞典》,還有二萬三千六百多筆;臺灣俗語,一萬多筆;俏皮話、謎語、銘言……想來,也是一條,看不到盡頭的路哪!
想修校《全字庫》,也只是想‥既然在「拆分」上,已幫了忙,那就幫忙修校好了——整天編撰字詞典,累的時候,就「換個口味」一下,當作休息也好——
反正也沒在「趕進度」,可以慢慢做。(留言之後,也有想到‥應該你是想「保持原狀——以備查照」,所以才沒改——加上「全字庫」,也沒啥字義解釋,想來,也無須太在意,那些「拆分」的正確與否啦!)
所以呢!可不敢冒然地答應你啦!
如果答應了,那可就得「全力以赴」才行呀!
倘若有人,除了上班之外,願意付出時間、心力,專責、專工地去做的,當是較適合的人選!
有時,還真希望,能獲得〈孫悟空〉的「分身術」能力‥拔猴毛一吹——
變出好些個小猴兒來「幫忙」哩!
阿文
◇阿文的臉書「臺語學院」
https://www.facebook.com/groups/978821105480673/
阿文兄的整編工作我怎會不知?否則怎會放著這樣的倉頡高手在那邊而不去吵您!也只有在累得快「挺不住」時才會找阿文兄「哭訴」一番,多少要點糖果吃吃,呵呵!
刪除做一點對自己有意義,對別人也有些意義的事,縱使「不歸」也沒什麼不好,至少沒有白來了一遭。人生但求「無悔」,阿文兄當也如是,一起繼續加油!
https://imgur.com/GF6vf0H
回覆刪除這個字,CNS同時編碼在9和15平面?
UniHan說2F9BC來自CNS 15平面,不知跟9平面的字有何關係。
原本在 CNS 中,15平面的字右邊中間部件作「⺕」,中間橫筆有貫穿出頭;而9平面的字右邊中間部件作「」,中間橫筆不貫穿。但在 Unicode 中,這兩形均歸於 2F9BC,分屬台源及港源。
刪除這兩形差距極小,只差在中間橫筆有無貫穿,在古籍中均屬常見,只是書寫筆勢的收放,於字無有差別。故我不再區分二形(徒增紛擾),不另立補充字,遂將 CNS 的二形均對應給 2F9BC。