☆ 2022/09/29 因應 Unicode 15 發布,同步更新《電腦漢字字典(精簡版)》字典,原連結請重新下載。
☆ 2022/01/04 為了避免違反 Unicode 官方 "Terms of Use" 的宣告,特將 Unicode Character Code Charts 的數據移除,並更名為「精簡版」以資區別,重新開放分享。
☆ 2021/10/19 經網友提醒,可能會有違反 Unicode 官方 "Terms of Use" 宣告的疑慮,即刻起停止這個字典的分享,以示對版權方的尊重。
這是一部意外的字典。怎麼說呢?當初一直想做一部含有所有 Unicode 漢字的字典以供查閱,試著從 UniHan 的數據整理,結果不是很理想。試著從「國際電腦漢字及異體字知識庫」、「字海網」等網站蒐集,結果都跟我的期待有所落差。後來從 字形維基(GlyphWiki) 蒐集了相關數據,在整理的過程中覺得數據很是龐雜,於是下了幾個正則刪除了一些數據,沒想到結果卻異常的好,分享給一些好友,大家都覺得真是個好工具。於是這部字典就被我留了下來,成了重要的工具。但我總覺得還是不夠完整,所以一直沒有正式分享出來。這次隨著 Unicode 14.0 的發布,我終於利用新的製作技術完成了最後一塊拼圖,完整了這部——《電腦漢字字典》。
這是一部沒有釋義的字典,但不要因為沒有釋義就忽略了它的價值。
有瀏覽過 字形維基(GlyphWiki) 網站的朋友應該都知道,它其實是個大型的字形資料庫,並不具備什麼字典的特性。我原先也這麼認為,直到我運用了減法的概念刪除了大量的數據,脈絡卻意外地清晰起來。
我的定位很清楚,就是只把焦點放在 Unicode 上,其餘的我都不要。經過了這道過濾,原本捲軸要捲很久、令人眼花撩亂的網頁內容,頓時像被清澈的生命之泉洗滌過一般,整個又活了過來。
沒錯,它的內容清楚地展示了 Unicode 漢字間的字際關係,更白話一點說,這就是一部「異體字字典」,而且是一部很完整的「異體字字典」。
我利用這份數據,再將長期以來整理的部首、筆畫、大型字典的索引頁碼整合進來,便成了一部極實用的工具。
不過還是缺了一塊。字形維基(GlyphWiki) 畢竟是日本人建立的網站,字形圖片的標示基本上都偏向日本標準。跟 Unicode 漢字打過交道的朋友應該會有體會,各地區的 Unicode 標準漢字其實長得並不太一樣。如果能把各地區的 Unicode 標準字形列出來,對字形的掌握就更有幫助了。
可是 Unicode 有近十萬漢字,如果再加上大陸、香港、台灣、日本、韓國、越南等各分區,光是這些字形圖片就有幾十萬幅,根本不可能用純人工來截圖製作。於是這次我嘗試了一項新的製作技術,把數據、字形從 Unicode 官方發布的 Unicode Character Code Charts PDF 中萃取出來,整合進離線辭典裡,完美複刻了各地區的 Unicode 標準字形,終於把多年來少掉的那塊拼圖給拼上了。
從 2016 初次製作以來,到現在也已經五個年頭了(歷經了多次 Unicode 更新),這部字典也伴我走過一次又一次的漢字整理查閱。資料的來源方都是非營利的組織單位,因此可以合理而自由地運用這些數據,現在無條件地公開分享出來,樂見學術研究、教育工作、個人閱讀這方面的運用,但請勿用做任何形式的商業營利行為。希望這些寶貴的資料能更方便地被大家運用,也請有使用的朋友能將發現的瑕疵、錯誤反應給我知道,以利我後續的修正。
詞條總數:93867
圖片數目:93867
字型數目:113下載連結:電腦漢字字典.zip
下載連結:電腦漢字字典(精簡版).zip
請參閱一系列四篇「漢字使用環境的建置 ㈠ —— 顯示篇」、「漢字使用環境的建置 ㈡ —— 輸入篇」、「漢字使用環境的建置 ㈢ —— 辭典篇」、「漢字使用環境的建置 ㈣ —— 開卷篇」的說明安裝字型與相關工具,以利完整顯示和輸入查詢。
Unicode 的每一個 code chart 之 pdf 檔的第一頁,都有 "Terms of Use"。
回覆刪除請留意,其中有關字型 (內嵌在 pdf 中) 的使用,有明文的版權要求。
感謝您的提醒,老實說我從來沒去細看 "Terms of Use",呵呵!
刪除剛剛細看了一下,雖然覺得跟一般常見的宣告差不多,而且我的原始用意是希望幫助大眾更方便地查閱 Unicode 的 code chart(不用在一頁頁密密麻麻的字海中苦苦搜索),不過未取得官方的許可確實是會有違反其宣告的疑慮。
即刻起停止這個字典的分享,以示對版權方的尊重,也再次感謝您的善意提醒。
目前我在 GlyphWiki 中,是看到了該網站也進行各國不同的寫法的 glyph 製作。
刪除只是並不完整,需要有人依照 Unicode Code Charts 來製作。
是的,GlyphWiki 也有不同寫法的 glyph 製作,甚至更多元(某些特定字典的寫法),不過畢竟不能代表 Unicode 官方的立場,用它來替代官方的標準來參考可能並不適合。
刪除補充:
回覆刪除由於 GlyphWiki 的 glyph 製作方式,是用 人工手寫 (描寫),再修正筆畫的首尾與形式,所以並不會違反該宣告。
因此連 Unicode 也連結 GlyphWiki 的網頁。
或許,可以先找出 GlyphWiki 缺字的數量,再想辦法手寫補上。
因為,目前實在是無法簡單地從 GlyphWiki 網站上得知,到底某個字是缺哪一種寫法。
我覺得從 GlyphWiki 來整理出類似 Unicode Code Charts 的參考資料並不可行,一方面無法保證百分之百與官方資料一致,二來 Unicode 官方的更新算是頻繁的,如果每年都得清查一次 GlyphWiki,我想這有點不太實際。
刪除我整理漢字、製作辭典分享給大家的初心是很單純的,只是希望我吃過的「苦」(種種的不方便),不必要讓每個喜歡閱讀、研究的人都重頭浪費時間再經歷一遍。利用我提供的工具,大家能更加專注於閱讀、研究本身所帶來的樂趣,創造更大的價值(不管是對自己或是對眾人)。原本只是直覺地想 Unicode Code Charts 是公開可以取得的文件(不涉及任何商業行為),應該是沒什麼問題,既然有疑慮,只能說是機緣未到吧!
比較正式的解決方案,當然是嘗試去取得官方的認可授權。不過我這個人不太喜歡跟任何官方打交道,因為以往的經驗總是讓人不太舒服,呵呵!隨緣吧!或許哪天有什麼機緣巧合,這字典能再跟大家見面。
我找到了 GlyphWiki 製作 花園 的資料,約有 418 萬個字。
回覆刪除與 UniHan 比比,查查還缺多少寫法。
我每年要檢查 Unicode 新版,看看 CJK 有沒有更新。
目前有 100 多個造字維護中。
至於,字型授權,我寫信去問問看。
聽您的描述,您似乎是從事跟字型相關的工作。如果是,以後很多字型方面的問題就可以向您請教了,呵呵!
刪除作者已經移除這則留言。
回覆刪除感謝您願意花時間協助聯繫授權事宜。很抱歉,我是個手機的低度使用者,所以各種社群軟體幾乎都沒有使用。麻煩您在這裡留個言,留下您的 e-mail,然後立刻刪除該則留言,我仍會收到通知信,便可以用 e-mail 與您聯繫。
刪除事因我而起,所以應該要幫這個忙。
刪除呵呵!您是善意提醒,讓我避免了可能的侵權疑慮,應當向您致謝,何來「因起」之責!不必放在心上。
刪除感謝 WFG 大大提供這麼好用的 諸多字詞典。
回覆刪除請問 有沒有計劃,一個字典檔獨立 提供 讀音的功能?
或是網上有看過,離線的單字讀注音字的功能?
這對外國人很有用,即便是國人,
雖然可以自己拼讀音,但聽別人說,和自己說還是不同的。
自己拼一遍,女聲讀一遍,男聲讀一遍,老先覺聲讀一遍,童聲讀一遍。
遇到新生字,若是也能聽電腦讀一遍,才合讀書五到(耳到)。
正如學英文,聽電腦人聲,和自己拼,還是差很多的。
您好!離線的讀音,我並沒有計畫製作。通常只要有注音就能讀出來,自己很少有這樣的需求,呵呵!
刪除另外是否可以考慮加註,常用字,次常用字,古籍常用字(如康熙字典有收錄)。
回覆刪除中國大陸:通用規範漢字表常用字集:3500字
台灣:常用國字標準字體表:4808字
香港:常用字字形表:4759字
加註這些資訊技術上並無困難,只是我個人認為幫助不是很大。各地區對常用字的認定標準並不一致,知道了這些,對漢字的學習似乎也並沒有什麼直接幫助。我目前的工作重點還是放在漢字的收集與整理,負擔沉重,短時間內可能沒辦法去兼顧這些,還請見諒。
刪除因为懒惰,有些时日未登录,错过了这么好的词典,痛心疾首。愿有合适的时机博主能再放出此宝物(有点贪婪)。
回覆刪除多謝關注!透過簡兄的幫忙,曾去函給 UniHan 的負責人 Dr. Ken Lunde 尋求授權的協助,無奈他表示這部份並非他的權限,所以幫不上忙。
刪除既然無法取得官方的授權,等有空我可能會退回原點,把 Unicode 的樣字移除,再重新發布此字典,請屆時再下載使用。
激动得无以言表,感谢先生百忙之中回复。只是恐怕会给先生徒增些劳苦。深表歉意。
回覆刪除您客氣了,請靜候我的更新。
刪除没想到先生这么快就制作好了简化版。谢谢!
回覆刪除不客氣,希望這部字典對您有所幫助。
刪除WFG先生,今天查字發現一個很奇怪的現象。查了很多字都正常顯示搜尋結果,唯獨查“制”這個字的時候,顯示出來的結果是不正常的,就是“第”和“頁”之間的頁碼錯位到前面去了。比如說,正常應該是:第100頁 但是,實際上變成了:100 第 頁 當然,我用的是GD,可能是GD的問題,不是您的字典的問題。這裏提出來,供您參考。
回覆刪除感謝您的反饋!不過實際查證,我這裡用 MDict PC 一切正常,看來還是 GD 的問題。這字典我與好友使用多年了,應該沒有問題。
刪除應該是被詞典分組裡的其他詞典干擾了排版,我這邊用GD查“制”字,也是出現頁碼錯位的問題,但如果把這本詞典單獨放在一個分組裡,卻一切顯示正常。不過確實很奇怪的是,和其他詞典放一起時查其他字都沒有問題,只有查“制”字時就會有問題。
刪除嗯,應該是GD的老問題,沒有把辭典隔離好,導致相互干擾。發現問題,可先用 MDict PC 複驗測試一下,若 MD 正常而 GD 有問題,我就愛莫能助了,呵呵!
刪除總覺得應該快更新了吧,果然等到了,太感謝了!
回覆刪除呵呵!不客氣,讓您久等了。
刪除