2021年10月12日 星期二

《電腦漢字字典》

☆ 2022/09/29 因應 Unicode 15 發布,同步更新《電腦漢字字典(精簡版)》字典,原連結請重新下載。
☆ 2022/01/04 為了避免違反 Unicode 官方 "Terms of Use" 的宣告,特將 Unicode Character Code Charts 的數據移除,並更名為「精簡版」以資區別,重新開放分享。
☆ 2021/10/19 經網友提醒,可能會有違反 Unicode 官方 "Terms of Use" 宣告的疑慮,即刻起停止這個字典的分享,以示對版權方的尊重。

這是一部意外的字典。怎麼說呢?當初一直想做一部含有所有 Unicode 漢字的字典以供查閱,試著從 UniHan 的數據整理,結果不是很理想。試著從「國際電腦漢字及異體字知識庫」、「字海網」等網站蒐集,結果都跟我的期待有所落差。後來從 字形維基(GlyphWiki) 蒐集了相關數據,在整理的過程中覺得數據很是龐雜,於是下了幾個正則刪除了一些數據,沒想到結果卻異常的好,分享給一些好友,大家都覺得真是個好工具。於是這部字典就被我留了下來,成了重要的工具。但我總覺得還是不夠完整,所以一直沒有正式分享出來。這次隨著 Unicode 14.0 的發布,我終於利用新的製作技術完成了最後一塊拼圖,完整了這部——《電腦漢字字典》。

這是一部沒有釋義的字典,但不要因為沒有釋義就忽略了它的價值。

有瀏覽過 字形維基(GlyphWiki) 網站的朋友應該都知道,它其實是個大型的字形資料庫,並不具備什麼字典的特性。我原先也這麼認為,直到我運用了減法的概念刪除了大量的數據,脈絡卻意外地清晰起來。

我的定位很清楚,就是只把焦點放在 Unicode 上,其餘的我都不要。經過了這道過濾,原本捲軸要捲很久、令人眼花撩亂的網頁內容,頓時像被清澈的生命之泉洗滌過一般,整個又活了過來。

沒錯,它的內容清楚地展示了 Unicode 漢字間的字際關係,更白話一點說,這就是一部「異體字字典」,而且是一部很完整的「異體字字典」。

我利用這份數據,再將長期以來整理的部首、筆畫、大型字典的索引頁碼整合進來,便成了一部極實用的工具。

不過還是缺了一塊。字形維基(GlyphWiki) 畢竟是日本人建立的網站,字形圖片的標示基本上都偏向日本標準。跟 Unicode 漢字打過交道的朋友應該會有體會,各地區的 Unicode 標準漢字其實長得並不太一樣。如果能把各地區的 Unicode 標準字形列出來,對字形的掌握就更有幫助了。


(各地區的 Unicode 標準漢字長得並不太一樣)

可是 Unicode 有近十萬漢字,如果再加上大陸、香港、台灣、日本、韓國、越南等各分區,光是這些字形圖片就有幾十萬幅,根本不可能用純人工來截圖製作。於是這次我嘗試了一項新的製作技術,把數據、字形從 Unicode 官方發布的 Unicode Character Code Charts  PDF 中萃取出來,整合進離線辭典裡,完美複刻了各地區的 Unicode 標準字形,終於把多年來少掉的那塊拼圖給拼上了。

從 2016 初次製作以來,到現在也已經五個年頭了(歷經了多次 Unicode 更新),這部字典也伴我走過一次又一次的漢字整理查閱。資料的來源方都是非營利的組織單位,因此可以合理而自由地運用這些數據,現在無條件地公開分享出來,樂見學術研究、教育工作、個人閱讀這方面的運用,但請勿用做任何形式的商業營利行為。希望這些寶貴的資料能更方便地被大家運用,也請有使用的朋友能將發現的瑕疵、錯誤反應給我知道,以利我後續的修正。


詞條總數:93867
圖片數目:93867
字型數目:113
下載連結:電腦漢字字典.zip
下載連結:電腦漢字字典(精簡版).zip

請參閱一系列四篇「漢字使用環境的建置 ㈠ —— 顯示篇」、「漢字使用環境的建置 ㈡ —— 輸入篇」、「漢字使用環境的建置 ㈢ —— 辭典篇」、「漢字使用環境的建置 ㈣ —— 開卷篇」的說明安裝字型與相關工具,以利完整顯示和輸入查詢。




28 則留言:

  1. Unicode 的每一個 code chart 之 pdf 檔的第一頁,都有 "Terms of Use"。

    請留意,其中有關字型 (內嵌在 pdf 中) 的使用,有明文的版權要求。

    回覆刪除
    回覆
    1. 感謝您的提醒,老實說我從來沒去細看 "Terms of Use",呵呵!

      剛剛細看了一下,雖然覺得跟一般常見的宣告差不多,而且我的原始用意是希望幫助大眾更方便地查閱 Unicode 的 code chart(不用在一頁頁密密麻麻的字海中苦苦搜索),不過未取得官方的許可確實是會有違反其宣告的疑慮。

      即刻起停止這個字典的分享,以示對版權方的尊重,也再次感謝您的善意提醒。

      刪除
    2. 目前我在 GlyphWiki 中,是看到了該網站也進行各國不同的寫法的 glyph 製作。
      只是並不完整,需要有人依照 Unicode Code Charts 來製作。

      刪除
    3. 是的,GlyphWiki 也有不同寫法的 glyph 製作,甚至更多元(某些特定字典的寫法),不過畢竟不能代表 Unicode 官方的立場,用它來替代官方的標準來參考可能並不適合。

      刪除
  2. 補充:

    由於 GlyphWiki 的 glyph 製作方式,是用 人工手寫 (描寫),再修正筆畫的首尾與形式,所以並不會違反該宣告。
    因此連 Unicode 也連結 GlyphWiki 的網頁。

    或許,可以先找出 GlyphWiki 缺字的數量,再想辦法手寫補上。
    因為,目前實在是無法簡單地從 GlyphWiki 網站上得知,到底某個字是缺哪一種寫法。

    回覆刪除
    回覆
    1. 我覺得從 GlyphWiki 來整理出類似 Unicode Code Charts 的參考資料並不可行,一方面無法保證百分之百與官方資料一致,二來 Unicode 官方的更新算是頻繁的,如果每年都得清查一次 GlyphWiki,我想這有點不太實際。

      我整理漢字、製作辭典分享給大家的初心是很單純的,只是希望我吃過的「苦」(種種的不方便),不必要讓每個喜歡閱讀、研究的人都重頭浪費時間再經歷一遍。利用我提供的工具,大家能更加專注於閱讀、研究本身所帶來的樂趣,創造更大的價值(不管是對自己或是對眾人)。原本只是直覺地想 Unicode Code Charts 是公開可以取得的文件(不涉及任何商業行為),應該是沒什麼問題,既然有疑慮,只能說是機緣未到吧!

      比較正式的解決方案,當然是嘗試去取得官方的認可授權。不過我這個人不太喜歡跟任何官方打交道,因為以往的經驗總是讓人不太舒服,呵呵!隨緣吧!或許哪天有什麼機緣巧合,這字典能再跟大家見面。

      刪除
  3. 我找到了 GlyphWiki 製作 花園 的資料,約有 418 萬個字。
    與 UniHan 比比,查查還缺多少寫法。

    我每年要檢查 Unicode 新版,看看 CJK 有沒有更新。
    目前有 100 多個造字維護中。

    至於,字型授權,我寫信去問問看。

    回覆刪除
    回覆
    1. 聽您的描述,您似乎是從事跟字型相關的工作。如果是,以後很多字型方面的問題就可以向您請教了,呵呵!

      刪除
  4. 回覆
    1. 感謝您願意花時間協助聯繫授權事宜。很抱歉,我是個手機的低度使用者,所以各種社群軟體幾乎都沒有使用。麻煩您在這裡留個言,留下您的 e-mail,然後立刻刪除該則留言,我仍會收到通知信,便可以用 e-mail 與您聯繫。

      刪除
    2. 事因我而起,所以應該要幫這個忙。

      刪除
    3. 呵呵!您是善意提醒,讓我避免了可能的侵權疑慮,應當向您致謝,何來「因起」之責!不必放在心上。

      刪除
  5. 感謝 WFG 大大提供這麼好用的 諸多字詞典。
    請問 有沒有計劃,一個字典檔獨立 提供 讀音的功能?
    或是網上有看過,離線的單字讀注音字的功能?
    這對外國人很有用,即便是國人,
    雖然可以自己拼讀音,但聽別人說,和自己說還是不同的。
    自己拼一遍,女聲讀一遍,男聲讀一遍,老先覺聲讀一遍,童聲讀一遍。
    遇到新生字,若是也能聽電腦讀一遍,才合讀書五到(耳到)。
    正如學英文,聽電腦人聲,和自己拼,還是差很多的。

    回覆刪除
    回覆
    1. 您好!離線的讀音,我並沒有計畫製作。通常只要有注音就能讀出來,自己很少有這樣的需求,呵呵!

      刪除
  6. 另外是否可以考慮加註,常用字,次常用字,古籍常用字(如康熙字典有收錄)。 
    中國大陸:通用規範漢字表常用字集:3500字
    台灣:常用國字標準字體表:4808字
    香港:常用字字形表:4759字

    回覆刪除
    回覆
    1. 加註這些資訊技術上並無困難,只是我個人認為幫助不是很大。各地區對常用字的認定標準並不一致,知道了這些,對漢字的學習似乎也並沒有什麼直接幫助。我目前的工作重點還是放在漢字的收集與整理,負擔沉重,短時間內可能沒辦法去兼顧這些,還請見諒。

      刪除
  7. 因为懒惰,有些时日未登录,错过了这么好的词典,痛心疾首。愿有合适的时机博主能再放出此宝物(有点贪婪)。

    回覆刪除
    回覆
    1. 多謝關注!透過簡兄的幫忙,曾去函給 UniHan 的負責人 Dr. Ken Lunde 尋求授權的協助,無奈他表示這部份並非他的權限,所以幫不上忙。

      既然無法取得官方的授權,等有空我可能會退回原點,把 Unicode 的樣字移除,再重新發布此字典,請屆時再下載使用。

      刪除
  8. 激动得无以言表,感谢先生百忙之中回复。只是恐怕会给先生徒增些劳苦。深表歉意。

    回覆刪除
  9. 没想到先生这么快就制作好了简化版。谢谢!

    回覆刪除
    回覆
    1. 不客氣,希望這部字典對您有所幫助。

      刪除
  10. WFG先生,今天查字發現一個很奇怪的現象。查了很多字都正常顯示搜尋結果,唯獨查“制”這個字的時候,顯示出來的結果是不正常的,就是“第”和“頁”之間的頁碼錯位到前面去了。比如說,正常應該是:第100頁 但是,實際上變成了:100 第 頁 當然,我用的是GD,可能是GD的問題,不是您的字典的問題。這裏提出來,供您參考。

    回覆刪除
    回覆
    1. 感謝您的反饋!不過實際查證,我這裡用 MDict PC 一切正常,看來還是 GD 的問題。這字典我與好友使用多年了,應該沒有問題。

      刪除
    2. 應該是被詞典分組裡的其他詞典干擾了排版,我這邊用GD查“制”字,也是出現頁碼錯位的問題,但如果把這本詞典單獨放在一個分組裡,卻一切顯示正常。不過確實很奇怪的是,和其他詞典放一起時查其他字都沒有問題,只有查“制”字時就會有問題。

      刪除
    3. 嗯,應該是GD的老問題,沒有把辭典隔離好,導致相互干擾。發現問題,可先用 MDict PC 複驗測試一下,若 MD 正常而 GD 有問題,我就愛莫能助了,呵呵!

      刪除
  11. 總覺得應該快更新了吧,果然等到了,太感謝了!

    回覆刪除