2021年12月28日 星期二

漢字使用環境的建置 ——十七萬漢字初稿登場

☆ 2023/10/11 更新,詳情請見 漢字使用環境的建置 —— 部件檢索重要更新暨 Unicode 15.1 全宋體更新

七月初我與 suns99 兄完成了《中華字海》字頭的清理工作後,略事休息,接著又投入了《教育部異體字字典》的字頭清理工作。由於《教育部異體字字典》的字頭清理工作難度更高,我估計憑我二人之力難以在短時間完成,於是便在7月19日去函《教育部異體字字典》的維護單位——國教院,申請《異體字字典》字頭的構形數據。7月30日收到回函,國教院同意提供《異體字字典》字頭的構形數據供我整理之用,實際收到數據已是在10月15日。與此同時,我將尚未還原的《異體字字典》字頭摘錄出來做成工作檔(先前已斷續整理還原了六萬多字,再扣除掉 13830 個手寫字形後,還有 35046 字待清理),每五千字一包,切分成七個包,suns99 兄用倉頡輸入法逐字核對清理(每包平均約花兩週時間,平均還原率略低於 50%),每完成一包發回給我,我再針對可還原的字頭覆核一遍,確保還原的正確性。花了三個月的時間,十月中完成了初步的清理工作。經過統計,利用既有全宋體字庫可檢索的字頭計有 73803 字,需新增至字庫的未收字頭共有 18366 字。然後我將國教院提供的構形數據略事整理,吻合進我的字表,最後提取 18366 個未收字頭數據,加進「部件檢索」裡,至此「全宋體」這個大型字庫,收字正式突破了十七萬漢字,應該足供大多數的漢字應用。


有不少朋友一直奇怪我為何要花那麼多時間去整理這些「幾乎用不到的」生僻漢字,甚至很多朋友很排斥使用這些「Unicode 官方沒有收錄」的私造字。我一直執著地要清理《異體字字典》的字頭,一個很主要的原因便是這項工作的邊際效益其實很高:
  • 可以還原《異體字字典》的圖片字頭,成為純文字的可檢索字頭。這可以大大提昇這些異體字的檢索、利用效率。
  • 可以建立起十萬漢字的橫向聯繫關係。一旦圖片字頭還原成可檢索的純文字字頭,利用《異體字字典》的異體表列,便可以將這十萬漢字的橫向關係聯繫起來,有助於字典查詢時的橫向擴展。
  • 可以利用可還原的字頭(表示既有字庫有收)來優化既有字庫的字形。目前字庫的字形來源多元,有些質量很差,《異體字字典》的字形質量較高,可以進行替代優化。
  • 可以將不可還原的字頭(表示既有字庫沒收)補進字庫,擴增補充字的數量。《異體字字典》的字頭多半來自歷代字書,有完整書證,有了這些補充字,便能更精確地數位化歷代字書、文獻。
要等待 Unicode 官方收錄大量古籍用字,緩不濟急,況且若是沒人整理提交,Unicode 官方也無從收錄起。所以這一年來我大量整理幾本收字量最大的漢字字典,就是希望在最短時間內,吸納這些前人的成果,將它們匯總轉化成可再利用的資源,建立一個方便使用、容易檢索的大型免費漢字平台,方便讓一般大眾、業餘愛好者、學術研究者都能快速地加以利用。

昔日日本的AINet開發了一款商業販售的東亞文字檢索軟體名為「今昔文字鏡」,從 1985 年至 2019 為止,最後的版本收錄文字達十七萬以上(據維基百科的記錄,2018年社長古家時雄病逝,改由石川忠久接手,於次年散會,「今昔文字鏡」正式落幕)。不過它的收字包含了甲骨文、篆體字、楷體字、喃字、水族文字、悉曇文字、西夏文字、變體假名等等,不純粹都是漢字,若是以不重複的純粹漢字而言,應該不到十七萬之數。現下我這個完全免費開放的「全宋體」字庫,漢字的收字規模實際上應該已經超越了「今昔文字鏡」,希望能成為對大家更為有用的漢字平台。

由於國教院提供的《異體字字典》構形數據並不完整,很多無法輸入、顯示的部件都被直接略去,導致大部分的構形數據都是「缺了胳膊,少了腿」(我去函國教院確認,確實如此)。這也印證了為什麼我利用官網的構形檢字來查字,經常會有查不到的情形。為求快速可用,我只能大致先修補一些較嚴重的缺失,然後就硬套入這些帶有瑕疵的拆分數據,先求讓這 18366 個新增字有被檢索的機會(檢索結果可能暫時跟官網一樣會有不正確的情形),之後再慢慢逐字檢查、修正數據,邊用邊改。從十月中到現在,花了兩個月的時間,我獨力檢查、修正了兩千多個新增字的拆分數據,後續尚有一萬六千字待檢,估計要完善全部的新增字拆分數據,起碼還要一年多的時間,只能再一次地發揮「愚公移山」的精神,長期抗戰了。

國教院提供的構形數據經常「缺了胳膊,少了腿」

期間有網友問起了台語版聖詩的一個缺字「⿱艹吐」,經過簡兄的指點,我到台灣聖經公會聖經網站找來了「臺客語漢字字型3.1版」作為參考,將它的 123 個外字,扣除 17 個台語注音字符外的 106 字清理一遍,加上「⿱艹吐」計有 75 個缺字,全部以宋體風格重新造字補入字庫,讓字庫也能涵蓋臺、客語的一些特用漢字。特別附上對照表,讓有使用這些字的朋友可以在兩種字庫之間快速地轉換。

值此歲末年終,我先將這「並不完善」的「全宋體」字庫初稿發布出來,讓大家能先行使用,也為今年一年我與 suns99 兄連續挑戰了《漢字海》、《中華字海》、《教育部異體字字典》三部收字最多字典的清理工作做一個 Ending。這一年,幾乎馬不停蹄,總計清理了三大字典的 96175 個字頭,為字庫新增了 54620 字,涵蓋了《漢字海》、《中華字海》所有字頭,以及《教育部異體字字典》的九成字頭(還有一成是手寫字形字頭,尚未處理),成績可謂豐碩。在此也要再次向 suns99 兄致謝,感謝他這一年來沒有二話的義氣相挺,陪著我這個「傻子」衝鋒陷陣,完成了一項項的「不可能任務」,呵呵!

未來一年,我應該會將重點放在繼續完善字庫的拆分數據上,至於尚未處理的 13830 個《異體字字典》手寫字形,雖然我已經做好了工作用的臨時字型,可能還是會暫時予以擱置。畢竟經此一年,我與 suns99 兄已經「兵困馬疲」,就算 suns99 兄還願意再繼續幫忙,若是前債未清後債又疊加上來,我也負荷不了。所以未來一年先以「還債」為主,至於「未竟之功」只好「且看且走」了。

(暫時擱置的《異體字字典》手寫字形

由於《教育部異體字字典》尚未像《國語辭典》一樣開放授權,我無法將其製作成離線辭典開放給大家使用(會涉及侵權)。折衷的辦法是我捨去所有釋義的內容,只留下字頭,做成一部《教育部異體字索引字典》,方便大家以「部件檢索」檢字之後,利用這個索引字典來查字,查得後點擊字號連結便能自動跳轉至官方頁面(我曾去函向國教院請教,以連結的方式跳轉至官方頁面,應該沒有侵權的問題)。雖然不是最完美,但還是能達到比官網查字更好、更便利的使用體驗,希望這部《教育部異體字索引字典》能幫助大家更方便地利用《教育部異體字字典》這個專業級的漢字資源(《教育部異體字索引字典》將另文發布)。

樂見學術研究、教育工作、個人閱讀這方面的運用,但請勿用做任何形式的商業營利行為。希望「全宋體」這個大型字庫以及「部件檢索」這個檢字工具,能在漢字文化的整理、研究上幫上一點小忙。

下載連結:全宋體.zip
下載連結:倉頡碼表.7z (由於每個人的習慣不同,僅保留漢字部分,請自行併入您慣用的碼表)

最後,將一些整理過程中記錄的工作日誌附在這裡,做為一個回憶與紀念:
  • 2021/07/19 將欲清理的 35046 字製成一個臨時性的工作字型檔,並將尚未還原的字頭摘錄出來做成工作檔,每五千字一包,切分成七包,發給 suns99 兄,正式啟動作業。晚上去函國教院,申請《異體字字典》字頭的構形數據。
  • 2021/07/20 收到了國教院的罐頭回信,表示收到申請,要等待他們研議後處理。
  • 2021/07/30 收到國教院回函,同意提供數據。
  • 2021/08/01 第1包核對完成,累計清理五千字。
  • 2021/08/13 第2包核對完成,累計清理了一萬字,還原率約四成八。
  • 2021/08/24 第3包核對完成,累計清理一萬五千字。
  • 2021/09/05 第4包核對完成,累計清理兩萬字。
  • 2021/09/17 第5包核對完成,累計清理兩萬五千字。
  • 2021/09/29 第6包核對完成,累計清理三萬字。
  • 2021/10/04 遲遲未收到國教院的構形數據,再度去函詢問。
  • 2021/10/11 第7包核對完成,累計清理三萬五千字。
  • 2021/10/15 終於收到國教院的構形數據。回函致謝。
  • 2021/10/18 初步完成新增字的字形編碼及部件檢索,還原九成的《異體字字典》字頭。
  • 2021/11/12 完成一千多字拆分清理。去函國教院請教數據瑕疵及授權問題。
  • 2021/11/20 網友問起台語版聖詩的一個缺字「⿱艹吐」,去信向簡兄請教。
  • 2021/11/22 國教院回覆數據瑕疵及授權問題。
  • 2021/12/13 完成75個臺、客語特用漢字的造字。
  • 2021/12/24 完成兩千多字拆分清理。


p.s. 由於收字量龐大,第 15 字面(FSung-F.ttf)的空間已經完全用罄,因此這一版字型開始啟用第 16 字面(FSung-X.ttf),接續存放補充字字形。



勘誤:

本分隔線以下已更新處理


  • 󿉫󳴵重複,後者註銷(2022/06/07)
  • 「󿭃」字形修正作「⿱尸丗」。《異體字字典》字形失真,據《四聲篇海》改。(2022/06/06)
  • 𦹬󾽹重複,後者註銷(2022/06/06)
  • 「󴮛」字形修正作「⿺辶⿱覀㠯」。《中華字海》、《漢字海》字形訛誤。(2022/06/03)
  • 𣗪􁝫重複,後者註銷。《異體字字典》字形訛誤。(2022/05/31)
  • 𭅃󾽈予以認同,後者註銷(2022/05/31)
  • 裗󰳳重複,後者註銷(2022/05/31)
  • 󷊗􁌁重複,後者註銷(2022/05/27)
  • 􀼑󿘧重複,後者註銷(2022/05/26)
  • 󻝺󿗁重複,後者註銷(2022/05/24)
  • 盛􀷈重複,後者註銷(2022/05/24)
  • 𣧇󻒀重複,後者註銷(2022/05/16)
  • 󷱤󿔺重複,後者註銷(2022/05/15)
  • 󱢩󾻢重複,後者註銷(2022/05/14)
  • 󻴍􂴽重複,後者註銷(2022/05/09)
  • 「󽃞」為《中華字海》、《漢字海》的訛誤字形(據《龍龕手鏡》當作「𥦇」),予以註銷(2022/05/05)
  • 𥨟􁁪重複,後者註銷(2022/05/05)
  • 「㮂󼥳」兩字字形互換(2022/05/04)
  • 󰗆󱧨重複,後者註銷(2022/05/03)
  • 「󴁺」字形修正作「⿰犭⿸󰐐󰓠」(2022/05/03)
  • 󶪫􀧕重複,後者註銷(2022/05/02)
  • 「㣣㣣」兩字字形互換。Unicode 做了調整,全字庫的 CNS 尚未相應更新。(2022/04/24)
  • 「󲧑」字形修正作「⿰⿱非⿸厂慮力」。(2022/04/29)
  • 「华」字形修正作「⿱󵔻十」,也就是 U+534E 改依陸標。此字既然古籍、俗體未見,僅做為簡體字,改依大陸字形比較合理。(2022/04/26)
  • 华􁞦重複,後者註銷(2022/04/26)
  • 糭􁆼重複,後者註銷(2022/04/26)
  • 「􀌪」字形修正作「⿰󳁐⿱人又」。《異體字字典》字形失真,據《類篇》改。(2022/04/25)
  • 「𤯳」字形修正作「⿺㪅生」,也就是 U+24BF3 改依陸標。全字庫的 CNS 台標字形,應誤。《中華大字典》作此訛形,《大漢和辭典》、《中文大辭典》則筆劃曖昧近於訛形,三者均引《字彙》為字源,然《字彙》實作「⿺㪅生」,可能是將「攴」捺筆的起筆裝飾性頓折誤為短撇,變成了「⿱⺊夂」,導致訛誤。(2022/04/24)
  • 「𤿖󽊖」兩字字形互換。(2022/04/24)
  • 𫞹􁁨重複,後者註銷(2022/04/23)
  • 「󲏈」字形修正作「⿱亠⿳󷲏回皿」(2022/04/23)
  • 𥺠􀸕重複,後者註銷(2022/04/21)
  • 𬚰􃊵重複,後者註銷(2022/04/21)
  • 綠􁈰重複,後者註銷(2022/04/20)
  • 「𧟿􁑺」兩字字形互換。U+277FF Unicode 字形失真,此字是依《康熙字典》收字,而《康熙》是引《字彙補》,兩者字形下半俱作「王」,不作「𡈼」。《大漢和辭典》則作「𡈼」。(2022/04/19)
  • 「𧡠󾀟」兩字字形互換,也就是 U+27860 改依陸標。全字庫的 CNS 台標字形愈改愈糟,嚴重錯誤。(2022/04/19)
  • 𤉷􀧞重複,後者註銷(2022/04/17)
  • 󼍉􀧝重複,後者註銷(2022/04/17)
  • 「𰶫」字形修正作「⿰豕苓」(2022/04/14)
  • 󰏈􀲵重複收錄,後者註銷(2022/04/13)
  • 「󼶈」字形據〈魏李挺墓誌〉拓本修正作「⿰禾⿱㒵彡」,《廣碑別字》、《中華字海》、《漢字海》字形均失真。(2022/04/13)
  • 「󵄫」字形據《龍龕手鑑》修正作「⿰⿱㒵彡攵」,《漢語大字典》、《中華字海》、《漢字海》字形均失真。(2022/04/13)
  • 「󰺿」字形據《龍龕手鑑》略作修整。(2022/04/12)
  • 「󼸟」字形據《直音篇》修正作「⿱㒵彡」,《中華字海》、《漢字海》字形均失真。(2022/04/12)
  • 「󰛂」字形據《龍龕手鑑》修正作「⿳少㒵彡」,《漢語大字典》、《漢字海》字形均失真,《中華字海》正確。(2022/04/12)
  • 󰥢󼦟重複,後者註銷(2022/04/12)
  • 「󰬅」字形據《直音篇》修正作「⿺走⿸厂⿱䒑巿」,《漢語大字典》、《中華字海》、《漢字海》字形均誤。(2022/04/12)
  • 「󱾌」字形修正作「⿱𠂉𭘧」(2022/04/11)
  • 󱟧󵕟重複,後者註銷,字形依後者(2022/04/11)
  • 「󲥗」字形修正作「⿱󱗴力」(2022/04/11)
  • 「𦕥」字形修正作「⿱󲥁耳」(2022/04/11)
  • 「󲮓」字形修正作「⿱󼃅⿳一⺌󰒈」(2022/04/10)
  • 「󳅩」字形修正作「⿱艹⿸㇒⿺󰐾厶」(2022/04/10)
  • 󳲱󵑓重複收錄,後者註銷(2022/04/10)
  • 「󳲱」字形修正作「⿰豈󰍗」(2022/04/10)
  • 󶰸󴎹重複收錄,後者註銷(2022/04/10)
  • 「󴛴」字形修正作「⿲忄弓󰒂」(2022/04/10)
  • 「󴾸」字形修正作「⿰女⿱令用」(2022/04/09)
  • 「󻁯」字形修正作「⿲⺩⿱白万攴」(2022/04/06)
  • 「󻋴」字形修正作「⿱殻木」(2022/04/06)

本分隔線以下已更新處理


  • 「󻕬」字形修正作「⿰𦈢𢦙」(2022/04/05)
  • 「󻝹」字形修正作「⿰⿳正𠃊⿶𠕀厶攴」(2022/04/05)
  • 「󻬔」字形修正作「⿰牜⿳󰒾此夂」(2022/04/05)
  • 󻻜􁕗重複收錄,後者註銷,字形依後者(2022/04/05)
  • 󻺋􃌪重複收錄,後者註銷,字形依後者(2022/04/05)
  • 󽘥􁔲重複收錄,後者註銷(2022/04/05)
  • 「󼨂」字形修正作「⿰目􂔝」(2022/04/04)
  • 「󽏨」字形修正作「⿱𡔷耳」(2022/04/04)
  • 「󾨐」字形修正作「⿰⿱炎冋頁」(2022/04/04)
  • 「󾬷」字形修正作「⿰口𮓜⿱食」(2022/04/04)
  • 󵧊󿿜重複收錄,後者註銷,字形依後者(2022/04/04)
  • 󽬓􁏱重複收錄,後者註銷,字形依後者(2022/04/03)
  • 󻇦􀔝重複收錄,後者註銷(2022/04/03)
  • 󱇠􀁑重複收錄,後者註銷,字形依後者(2022/04/03)
  • 󻕂􀀛重複收錄,後者註銷,字形依後者(2022/04/03)
  • 󽫨􀀕重複收錄,後者註銷,字形依後者(2022/04/03)
  • 󻓔􀀒重複收錄,後者註銷,字形依後者(2022/04/03)
  • 󼎢􀀆重複收錄,後者註銷,字形依後者(2022/04/03)
  • 󱫸􀀄重複收錄,後者註銷(2022/04/03)
  • 󳖱󿿾重複收錄,後者註銷(2022/04/02)
  • 󻕄󿿽重複收錄,後者註銷(2022/04/02)
  • 󻔊󿿸重複收錄,後者註銷,字形依後者(2022/04/02)
  • 󳖴󿿰重複收錄,後者註銷,字形依後者(2022/04/02)
  • 󻤣󿿫重複收錄,後者註銷(2022/04/02)
  • 󻔨󿿪重複收錄,後者註銷(2022/04/02)
  • 𫀄󿿩重複收錄,後者註銷(2022/04/02)
  • 󲺶󿿖重複收錄,後者註銷(2022/04/02)
  • 󼚗󿿑重複收錄,後者註銷,字形依後者(2022/04/02)
  • 󲻍󿿍重複收錄,後者註銷,字形依後者(2022/04/02)
  • 󼚘󿿇重複收錄,後者註銷,字形依後者(2022/04/02)
  • 󰣘􁉽重複收錄,後者註銷(2022/04/01)
  • 󺸳󿾝重複收錄,後者註銷(2022/04/01)
  • 󴟨󿾓重複收錄,後者註銷(2022/04/01)
  • 󶄿󿾌重複收錄,後者註銷(2022/04/01)
  • 󾉸􁯩重複收錄,後者註銷(2022/04/01)
  • 󴝖󿽱重複收錄,後者註銷(2022/04/01)
  • 󴠫󿽬重複收錄,後者註銷(2022/04/01)
  • 󴠪󿽫重複收錄,後者註銷(2022/04/01)
  • 󴠚󿽪重複收錄,後者註銷(2022/04/01)
  • 懔󿽨重複收錄,後者註銷(2022/04/01)
  • 󽅪󿽑重複收錄,後者註銷(2022/03/31)
  • 𢠢󿼿重複收錄,後者註銷(2022/03/31)
  • 󻖼󿼾重複收錄,後者註銷(2022/03/31)
  • 𬿲󵌽重複收錄,後者註銷(2022/03/31)
  • 󴉎󿼗重複收錄,後者註銷(2022/03/30)
  • 󴊃󿼖重複收錄,後者註銷(2022/03/30)
  • 󴊩󿼔重複收錄,後者註銷(2022/03/30)
  • 󴊮󿼐重複收錄,後者註銷(2022/03/30)
  • 󴌺󿼏重複收錄,後者註銷(2022/03/30)
  • 󴝇󿼀重複收錄,後者註銷(2022/03/30)
  • 󴟲󿻿重複收錄,後者註銷(2022/03/30)
  • 󰤚󿻸重複收錄,後者註銷(2022/03/30)
  • 󴟣󿻷重複收錄,後者註銷(2022/03/29)
  • 󶄈󿻴重複收錄,後者註銷(2022/03/29)
  • 󴜞󿻨重複收錄,後者註銷(2022/03/29)
  • 󻶓󿻕重複收錄,後者註銷(2022/03/29)
  • 󽋈󿻒重複收錄,後者註銷(2022/03/29)
  • 󺃝󳰼重複收錄,後者註銷(2022/03/29)
  • 󲹗󿻑重複收錄,後者註銷(2022/03/26)
  • 󼕫󿻈重複收錄,後者註銷(2022/03/26)
  • 󳗢󿻄重複收錄,後者註銷(2022/03/26)
  • 󹤯󿺸重複收錄,後者註銷,字形依後者(2022/03/26)
  • 󳋽󿺶重複收錄,後者註銷(2022/03/26)
  • 𣏹􀦀重複收錄,後者註銷(2022/03/26)
  • 󴟁󿺮重複收錄,後者註銷(2022/03/26)
  • 󼙾󿺥重複收錄,後者註銷(2022/03/26)
  • 󴟏󿺢重複收錄,後者註銷(2022/03/23)
  • 󴠤󿺡重複收錄,後者註銷(2022/03/23)
  • 󳦋󿺍重複收錄,後者註銷(2022/03/23)
  • 「󴞆」為《中華字海》錯誤字形,予以註銷(2022/03/22)
  • 󺌍󿹽重複收錄,後者註銷(2022/03/22)
  • 󴼖󶒒重複收錄,後者註銷(2022/03/22)
  • 󴞦󿹻重複收錄,後者註銷(2022/03/22)
  • 󴞥󿹺重複收錄,後者註銷(2022/03/22)
  • 󼗪󿹭重複收錄,後者註銷(2022/03/22)
  • 󼗃󿹨重複收錄,後者註銷(2022/03/22)
  • 󼖨󿹦重複收錄,後者註銷(2022/03/22)
  • 𢟥󿹣重複收錄,後者註銷(2022/03/22)
  • 󴜼󿹞重複收錄,後者註銷(2022/03/21)
  • 󳅱󿹗重複收錄,後者註銷(2022/03/21)
  • 𢚩󿸺重複收錄,後者註銷,字形依後者(2022/03/20)
  • 𥥁󿸸重複收錄,後者註銷(2022/03/20)
  • 󸭺󿸳重複收錄,後者註銷(2022/03/20)
  • 𪫟󿸫重複收錄,後者註銷(2022/03/20)
  • 志󿸤重複收錄,後者註銷,字形依後者(2022/03/20)
  • 󱯞󿸗重複收錄,後者註銷(2022/03/20)
  • 𫧇􁕤重複收錄,後者註銷(2022/03/19)
  • 󳽷󿸃重複收錄,後者註銷(2022/03/19)
  • 󵥎󿷺重複收錄,後者註銷,字形依後者(2022/03/18)
  • 󳾏󿷸重複收錄,後者註銷,字形依後者(2022/03/18)
  • 󳼖󿷵重複收錄,後者註銷(2022/03/18)
  • 󰿧󿷥重複收錄,後者註銷(2022/03/17)
  • 𭾜􀸇重複收錄,後者註銷,字形依後者(2022/03/17)
  • 复󿊺重複收錄,後者註銷(2022/03/17)
  • 𣸪󿷐重複收錄,後者註銷(2022/03/17)
  • 󳻓󿶽重複收錄,後者註銷(2022/03/16)
  • 󸉉󿶬重複收錄,後者註銷(2022/03/16)
  • 󱪺󿶫重複收錄,後者註銷(2022/03/16)
  • 󱪉󿶨重複收錄,後者註銷(2022/03/16)
  • 󳺄󿶖重複收錄,後者註銷(2022/03/16)
  • 𢕊󿶑重複收錄,後者註銷(2022/03/16)
  • 𭸎􁶣重複收錄,後者註銷(2022/02/26)
  • 󴪄􁿘重複收錄,後者註銷(2022/02/19)
  • 𬞞􁡺重複收錄,後者註銷(2022/02/14)
  • 𫴂󴧤重複收錄,後者註銷,字形依後者(2022/02/10)
  • 󳿝󿵷重複收錄,後者註銷(2022/02/01)
  • 彩󿵱重複收錄,後者註銷(2022/02/01)
  • 󲭼󿵰重複收錄,後者註銷(2022/02/01)
  • 「󿵤」字形修正作「⿱彐⿰米系」(2022/02/01)
  • 𢑴󿵢重複收錄,後者註銷(2022/02/01)
  • 󴰾󿵠重複收錄,後者註銷(2022/02/01)
  • 󴱩󿵜重複收錄,後者註銷(2022/02/01)
  • 󴱈󿵒重複收錄,後者註銷,字形依後者(2022/01/31)
  • 󺻱󿵑重複收錄,後者註銷,字形依前者(2022/01/31)
  • 󴱞󿵐重複收錄,後者註銷(2022/01/31)
  • 󷗓󿵏重複收錄,後者註銷,字形依後者(2022/01/31)
  • 󴱣󿵎重複收錄,後者註銷,字形依後者(2022/01/31)
  • 󴯢󿵍重複收錄,後者註銷,字形依後者(2022/01/31)
  • 󳁪󿴛重複收錄,後者註銷,字形依前者(2022/01/30)
  • 󴷸󿴙重複收錄,後者註銷,字形依後者(2022/01/29)
  • 󼜑󿳳重複收錄,後者註銷(2022/01/28)
  • 󶯫󿳰重複收錄,後者註銷(2022/01/28)
  • 󲬤󿳯重複收錄,後者註銷(2022/01/28)
  • 𤎉󿲵重複收錄,後者註銷(2022/01/25)
  • 󴋋󿲳重複收錄,後者註銷(2022/01/25)
  • 󴋌󿲭重複收錄,後者註銷(2022/01/25)
  • 󼍧󵏌重複收錄,後者註銷(2022/01/25)
  • 󱳻󵏒重複收錄,後者註銷(2022/01/25)
  • 󰖛󿲠重複收錄,後者註銷(2022/01/24)
  • 󴉤󿲟重複收錄,後者註銷,字形依後者(2022/01/24)
  • 𰆨󿲞重複收錄,後者註銷(2022/01/22)
  • 󽑚󿲜重複收錄,後者註銷(2022/01/22)
  • 󱏟󿲛重複收錄,後者註銷(2022/01/22)
  • 󲌤󿲔重複收錄,後者註銷(2022/01/21)
  • 󴪷󿲈重複收錄,後者註銷(2022/01/20)
  • 𮞔󴪴󿲆重複收錄,後二者註銷(2022/01/20)
  • 󴈊󿱼重複收錄,後者註銷(2022/01/20)
  • 󴇡󿱸重複收錄,後者註銷(2022/01/20)
  • 󾿪󿱞重複收錄,後者註銷,字形依後者(2022/01/20)
  • 󻴾󿰽重複收錄,後者註銷(2022/01/20)
  • 󳇉󿰸重複收錄,後者註銷(2022/01/20)
  • 󳷥󿰫重複收錄,後者註銷(2022/01/19)
  • 󴶵󿰀重複收錄,後者註銷(2022/01/19)
  • 𮎨󿯻重複收錄,後者註銷(2022/01/18)
  • 󲭥󿯯重複收錄,後者註銷(2022/01/17)
  • 𢀌󿯬重複收錄,後者註銷(2022/01/17)
  • 󱠶󿯥重複收錄,後者註銷(2022/01/17)
  • 「􂛿」字形修正作「⿱田⿲丿山巳」(2022/01/17)
  • 𡹝󿯅重複收錄,後者註銷(2022/01/16)
  • 󼝽󿯃重複收錄,後者註銷(2022/01/16)
  • 󳰣󿯁重複收錄,後者註銷(2022/01/16)
  • 󻙳󿮾重複收錄,後者註銷(2022/01/16)
  • 󴬋󿮹重複收錄,後者註銷(2022/01/11)
  • 󳰔󿮶重複收錄,後者註銷(2022/01/10)
  • 󳱰󿮱重複收錄,後者註銷(2022/01/10)
  • 󺢴󿮰重複收錄,後者註銷,字形依後者(2022/01/10)
  • 𱀓󿮮重複收錄,後者註銷(2022/01/10)
  • 󻙛󿮬重複收錄,後者註銷(2022/01/10)
  • 󳭒󿮪重複收錄,後者註銷,字形依後者(2022/01/10)
  • 󳮕󿮩重複收錄,後者註銷(2022/01/10)
  • 󲰲󿮨重複收錄,後者註銷,字形依後者(2022/01/09)
  • 󳰄󿮤重複收錄,後者註銷(2022/01/09)
  • 󳮾󿮣重複收錄,後者註銷(2022/01/09)
  • 󳯣󿮗重複收錄,後者註銷(2022/01/09)
  • 𪨦󿮑重複收錄,後者註銷(2022/01/09)
  • 󰏣󿮋重複收錄,後者註銷,字形依後者(2022/01/09)
  • 󴳹󿮆重複收錄,後者註銷(2022/01/09)
  • 󴵞󿭥重複收錄,後者註銷(2022/01/07)
  • 󴵓󿭢重複收錄,後者註銷(2022/01/07)
  • 󴵳󿭡重複收錄,後者註銷(2022/01/07)
  • 󴴱󿭠重複收錄,後者註銷(2022/01/07)
  • 󴵀󿭓重複收錄,後者註銷(2022/01/06)
  • 󴳂󿓲󿭍重複收錄,後者註銷(2022/01/06)
  • 󴳬󿭂重複收錄,後者註銷(2022/01/06)
  • 󴴁󿬺重複收錄,後者註銷(2022/01/06)
  • 󰜋󿬸重複收錄,後者註銷(2022/01/06)
  • 󴳟󿬱重複收錄,後者註銷(2022/01/06)
  • 𰍾󿬭重複收錄,後者註銷(2022/01/06)
  • 󴱴󿬤重複收錄,後者註銷(2022/01/06)
  • 󴳇󿬘重複收錄,後者註銷(2022/01/06)
  • 𩴁󿬐重複收錄,後者註銷(2022/01/06)
  • 尲󿬌重複收錄,後者註銷(2022/01/06)
  • 󲌨󿬇重複收錄,後者註銷(2022/01/06)
  • 󲋚󿬆重複收錄,後者註銷(2022/01/06)
  • 𭕐󿬅重複收錄,後者註銷(2022/01/06)
  • 󼏒󿀞重複收錄,後者註銷(2022/01/06)
  • 󼞒󾻮重複收錄,後者註銷(2022/01/06)
  • 𢒫󿊝重複收錄,後者註銷(2022/01/05)
  • 󴯟󺞃重複收錄,後者註銷(2022/01/05)
  • 󴰎󺙬重複收錄,後者註銷(2022/01/05)
  • 󴯪󺕃重複收錄,後者註銷(2022/01/05)
  • 󳒈󸻄重複收錄,後者註銷(2022/01/04)
  • 𤥯󸄎重複收錄,後者註銷(2022/01/04)
  • 󺽾󷱟重複收錄,後者註銷,字形依後者(2022/01/04)
  • 󴨭󷦪重複收錄,後者註銷(2022/01/04)
  • 󽆁󷚠重複收錄,後者註銷(2022/01/04)
  • 󰛧󷈢重複收錄,後者註銷(2022/01/04)
  • 󵶏󶽧重複收錄,後者註銷(2022/01/04)
  • 󲕙󶯭重複收錄,後者註銷(2022/01/04)
  • 𰩐󶯜重複收錄,後者註銷(2022/01/03)
  • 𥨤󶯛重複收錄,後者註銷(2022/01/03)
  • 󴦦󶯔重複收錄,後者註銷(2022/01/03)
  • 󴦇󶯏重複收錄,後者註銷(2022/01/03)
  • 󽅉󶯎重複收錄,後者註銷(2022/01/03)
  • 󴦞󶯉重複收錄,後者註銷(2022/01/03)
  • 󽅇󶯇重複收錄,後者註銷(2022/01/03)
  • 󽆊󶯁重複收錄,後者註銷(2022/01/03)
  • 󽅷󶮾重複收錄,後者註銷(2022/01/03)
  • 󽅛󶮳重複收錄,後者註銷(2022/01/03)
  • 󴦝󶮱重複收錄,後者註銷(2022/01/03)
  • 󽄠󶮯重複收錄,後者註銷(2022/01/03)
  • 󽅽󶮬重複收錄,後者註銷(2022/01/02)
  • 󽄢󶮫重複收錄,後者註銷(2022/01/02)
  • 󽃈󶮩重複收錄,後者註銷(2022/01/02)
  • 󽅆󶮨重複收錄,後者註銷(2022/01/02)
  • 󽅴󶮧重複收錄,後者註銷(2022/01/02)
  • 󽅣󶮡重複收錄,後者註銷(2022/01/02)
  • 󽅜󶮠重複收錄,後者註銷(2022/01/02)
  • 󽅳󶮟重複收錄,後者註銷(2022/01/02)
  • 󽅎󶮜重複收錄,後者註銷(2022/01/02)
  • 󴥴󶮙重複收錄,後者註銷(2022/01/02)
  • 󳴇󶮈重複收錄,後者註銷(2022/01/02)
  • 󽅧󶮂重複收錄,後者註銷(2022/01/02)
  • 󽄉󶭝重複收錄,後者註銷(2022/01/02)
  • 󽄷󶭑重複收錄,後者註銷(2022/01/01)
  • 󽄁󶭎重複收錄,後者註銷,字形依後者(2022/01/01)
  • 󽄚󶭌重複收錄,後者註銷(2022/01/01)
  • 󲕠󶭇重複收錄,後者註銷(2022/01/01)
  • 𥥘󶬬重複收錄,後者註銷(2022/01/01)
  • 𡪌󶬥重複收錄,後者註銷(2022/01/01)
  • 𥤲󶬤重複收錄,後者註銷(2022/01/01)
  • 𥨅󶬣重複收錄,後者註銷(2022/01/01)
  • 󽄬󶬠重複收錄,後者註銷(2022/01/01)
  • 𡨒󶬝重複收錄,後者註銷(2022/01/01)
  • 󽃇󶬗重複收錄,後者註銷(2022/01/01)
  • 󲕲󶬌重複收錄,後者註銷(2022/01/01)
  • 󽄤󶬉重複收錄,後者註銷(2022/01/01)



130 則留言:

  1. 我是一位先天盲視障者,目前正在研究漢字,好希望有個適合盲人操作的頁面?讓視障者也可研究中文字形!謝謝!

    回覆刪除
    回覆
    1. 您好!很抱歉,我對於適合視障朋友的操作方式完全沒有概念。您可以說說您心目中的操作頁面是什麼樣子嗎?或是聊聊您平常是怎麼進行學習的?您是如何閱讀我的發文,又是如何寫下這則留言的?或許透過這些敘述,能讓我多了解一些。即使我沒能力幫忙,或許會有剛好具備這類經驗的網友看見,說不定有人可以幫忙。

      刪除

  2. 求教,我下载在链接里面下载了仓颉的码表,并且安装了全宋体字体,当用全宋体—F字体的时候,是显示字最多的,但是依然还是有个别字无法显示出来,请问这个是字体还没有完善还是我设置有问题呢?感谢!

    回覆刪除
    回覆
    1. 您好!您能具體說明一下是哪些字無法顯示出來嗎?最好有實際的截圖,這樣比較能幫忙判定問題。

      刪除
    2. C码的第6个和U码的第五个,显示是一个小黑块,还有其它4-5码的,有几十个显示是的两个问号。该论坛好像是无法上传图片。

      刪除
    3. 真抱歉!我實在猜不出來您說的「C碼」、「U碼」是什麼?聽您的描述,似乎不像是字型安裝的問題,比較像是個別軟件的顯示問題,您是在什麼軟件裏顯示這些字?

      這裡的留言沒辦法直接貼圖,您能傳到別的圖床再把連結貼到這裡嗎?

      刪除
  3. 不好意思,是字体安装的问题,有一个人把您的字体改了下,说里面有问题,现把改过的字体连接放到这里:https://drive.google.com/file/d/1yobqT027lTL5DTEEIf_RPV0A2zyEwj_4/view?usp=sharing。另外,我发现博客下载的仓颉码表里面有的拆分好像是有问题的,比如“id”出来应该是术,而“ijc”出来的应该是朮,但是目前码表里面“id”出来的有术和朮,这个拆分感觉不是很合理啊。

    回覆刪除
    回覆
    1. 很抱歉!我不知道這位仁兄改動了些什麼,所以無法幫您解決問題。如果用我原始的版本會有問題嗎?

      刪除
    2. 目前是没有什么问题的,对于字体库我也不懂,以后有问题,再另行请教。

      刪除
    3. 这是修改您的字体的仁兄的转录:“我改了全宋体调和的字体库名,同时删了全宋体等宽的字体库,因为这个字体库有问题。其次,我用脚本改写安装字体,以替换他的批处理。”

      刪除
    4. 等寬字型跟調和字型的差異只在於西文符號的寬度,一個是固定等寬,一個是隨字符而變。我不理解他為何說等寬字型有問題,具體又是什麼問題呢?

      刪除
    5. 这个我不甚了解,可以他自己的要求不同吧。

      刪除
  4. 另外,仓颉码表里面,还有一些目前看到的错误,截图一并附上链接:https://drive.google.com/file/d/1SMgsZhlV4kOAaMT66-bNYyFtI-S1mY6x/view?usp=sharing

    回覆刪除
    回覆
    1. 倉頡其實我不懂,明日我再將您的問題問問 suns99 兄,看是不是有誤。

      刪除
    2. suns99 兄的倉頡表,有些字會增加一些比較寬容的拆字組合,所以或許會有些您認為不合理的拆字,每個人的拆法不同,您可以直接刪除即可。qkmkp[ 󸢴 為手誤,更正為 qkmkp 󸢴。

      刪除
    3. 好的,非常感谢回复。

      刪除
  5. https://twblg.dict.edu.tw/holodict_new/index.html
    「發穎」([⿱艹吐]芛)

    回覆刪除
  6. Windows11下面G区的汉字显示不出来。

    回覆刪除
    回覆
    1. 很抱歉!我手邊的電腦都太老了,都無法升級到 Windows 11,所以暫時沒辦法測試這個環境的情況。可能要麻煩有 Windows 11 的朋友多幫忙測試一下,看是否都會遇到相同問題。

      刪除
    2. 我对字体这方面不是很了解,原来我安装那个开珩全字库也是,在win10上,G区汉字是可以显示的(比如biáng字,𰻝),但是到win11上就显示不了,我自己也不清楚这是什么原因。

      刪除
    3. 不好意思,打错字了,是天珩全字库。

      刪除
  7. 另,该仓颉码表里面的辅助字根要比常见码表详尽很多,但是在使用当中也发现仓颉码表里面有的辅助字根是没有,希望suns99兄可以完善一下,方便有的拆分字体的输入,例如“斗”字,左上角的两点没有在码表中找到。非常感谢!!!

    回覆刪除
    回覆
    1. 這份碼表僅是做為「全宋體」的一個附件用途,由於每個人的習慣不同,所以僅保留正常漢字部分,實用上還請自行加入您慣用的輔助字根。

      刪除
  8. WFG‥
      原《部件檢索》,內設開啟頁面,為「限標準字、鍵盤展開」——
    要改哪裡,才能內設開啟頁面,為「不限標準字、鍵盤收起」?
    (用「倉頡輸入法」的人,不太需要用到「類聚鍵盤」也!)
      蓋本人都用「隱私視窗」(無痕視窗)開啟使用,所以頁面無「記憶」,每次開啟,都得重設。
      之所以用「無痕視窗」,因時常會開很多頁面,這樣就不會有瀏覽記錄——
    關了網頁,也就「船過水無痕」啦!(需要登入的,才不用無痕視窗。)
          *      *      *      *
      今天一早起來,將早先的「構想」,給付諸行動——
    把「部件檢索」,修改為《倉頡碼檢索》與《漢文注音檢索》——
    一個輸入倉頡碼,即可檢索字。(將「類聚鍵盤」,修改為倉碼碼。)
    一個輸入注音、拼音,即可檢索字。(將「類聚鍵盤」,修改為注音、拼音,方便輸入,即可檢索有注音的漢字——台客國語皆可。)
      呵呵!真的可行也!
      (所以‥其它任何輸入法,其實都可以自行修改。)
      改天,搞好一點,再寄給你,修改美觀、實用一點。
      (遇到編寫程式,也就沒轍啦!)
     
      還有一個構想是‥利用「部首、筆畫」檢索!譬如‥
    按一下木部,會檢出所有木字的字。
    按一下木部、外畫三畫,即檢出所有木部外畫三畫的字。
    按一下木部、總畫十畫,即檢出所有木部總畫十畫的字。
      你有空的話,就研究研究吧!
      蓋「部件檢索」,拆分字,真是拆分得頭昏腦脹——
    有的字,真的是很難「拆」呀!
    用「部首、筆畫」檢索,反而便利。
      未來,這《部件檢索》,要改為《多功能漢字檢系統》——
    才能方便快速地,在十七萬字中暢遊——
    想要找哪個字,都能「信手拈來、手到擒來」。

    回覆刪除
    回覆
    1. 兄修改 492 行及 536 行的 GetCookie() 括號裡面的數字(1改0,)即可。

      阿文兄改改「部件檢索」,玩玩無妨,真要較真,十七萬字得要標上注音、拼音、部首、筆畫等等資訊才行。況且兄是倉頡高手,直接用倉頡打出來是最快的,根本輪不到「部件檢索」出場啊,呵呵!

      當初「剎那字引」是有加入筆畫檢字的,可是我做「部件檢索」時,幾經考慮後卻放棄了,原因無他,因為我覺得對使用者而言並不友善。我自認從小是個「好學生」,呵呵!部首啦、筆順啦、筆畫啦也算是學得不錯,但很多字要正確算出筆畫還是有困難(各地區的定義也不一樣),可想見其他人一定也有困難,況且檢個字還要一筆一筆算筆畫(算還算不清),太麻煩也太慢了。對部首的認定,每本字典的分類也可能不同,要使用者猜出「正確的」部首,也真是強人所難。所以利用「部首、筆畫」檢索,不是我沒想過,而是經過考慮後才決定放棄。

      刪除
  9. WFG‥
      《手寫字形》,目前進度,已輸入五千個「倉頡碼」。
      新版的《部件檢索》,使用查詢,其反應速度,變得很慢,不知是啥問題?
    (前一版的,雖然慢了些,但還算可以接受。)
      回去找最初的《部件檢索(完拆比對)》來用——
    哇勢……在「即時查詢」的狀態下,速度真的是飛快呀!
    實在不禁要問‥怎麼新版的,就不行了呢?
      或許你當試試看,把「資料檔」的部分另存,用呼叫的方式帶入,如檔案‥
         decompose_完拆.js    1,710 KB
         部件檢索(完拆比對).htm    4 KB
       《部件檢索(完拆比對)》網頁檔,僅有4 KB,
    今之《部件檢索》(含資料),有 3,046 KB,
    連用“EmEditor”開啟,都不是很暢快哩!(電腦8GB記憶體。)
    前一版的(155070字, 2,687 KB),開啟就很暢快。
      資料檔外帶,修改資料時,是比較方便的呀!
      
      今天,想了個法子,寫了個「上下分割」的網頁,將《部件檢索》與《倉頡碼檢索》,給放在同一視窗中——呵呵!真是超級便利呀!
      就算不會倉頡輸入法的,只要將「倉頡碼」給「複製~貼上」,也就能很快地,查看有無字啦!
            *      *      *      *
      若你工作累了,想換個「姿勢」的話——需要你幫忙,將《倉頡碼檢索》,改成「資料檔外帶」的形式(一筆一行),以後整修,會比較方便。(如附錄。)
      中間用「taB」隔開。
      再者,同一字,不同的倉頡碼,是否能放在一起,中間用「;」號隔開?
    可以的話,就不用列那麼多行。
      以後要編「注音、拼音檢索」,也就可以將同音的注音、拼音,擺在一起——方便對照。
      注音與拼音,可以檢索國台客語字,反向查詢其讀音。
      蓋台客語用字很「多樣」——未知「正字」者,每每會以「同音字」替代,
    用注音、拼音查詢出同音字,再去判斷,用哪個字才正確、才適合。
      
                      阿文
                        
    ■附錄
    一 M
    乙 NU
    丁 MN
    七 JU;p
    乂 K
    乃 NHS
    乜 PN
    九 KN
    �� hmvi;hmvk;hmvo;hmvp;hmvq;hqi;hqj;hqk;hqo
     
    人 ㄖㄣˊ
    人 ㆢㄧㄣˊ;jin5
    人 ㄌㄧㄣˊ;lin5
    人 ㄌㄤˊ;lang5
    人 ㄌㄤ˙;lang0

    ◇附圖片
     https://www.facebook.com/groups/978821105480673/posts/5348597165169690/

    回覆刪除
    回覆
    1. 阿文兄,您想想,檢索七萬字跟十七萬字,速度會一樣嗎?呵呵!資料檔另存,方便的是我這個編修者,對使用者而言反而是個麻煩,多一個「拖油瓶」,還要擔心版本有沒有弄混,所以我「刻意」將所有東西都收在一個 html 裡,連 css 也不分檔出來,就是站在使用者的角度思考,讓他們能有最簡單的使用體驗。

      EmEditor 的開啟速度跟是否「按視窗換行」有很大關係,如果不換行,即使開啟很大的檔案也幾乎是瞬開(但是開始長行橫向捲動時還是會頓,事情就是這麼多,不過是朝三暮四、朝四暮三的差別),反之,速度會慢上幾十倍。

      刪除
  10. WFG‥
      使用者嘛!快速方便第一,一般人,哪會去理會「幕後」的……苦辛呢?
      下載《部件檢索》解壓縮,就是個「資料夾」,沒另存的話,就會教人「選擇」是否覆蓋——都是在一個資料夾裡。(大概也沒幾個,會像阿文,會喜歡保留「舊版本」的。)
      一般使用者,也不會去管那個資料檔啦!
      到網上搜尋引用《部件檢索》者‥好市得、漢典……
    使用起來,都是「頓頓」的,果真要使用「即時查詢」,那更是「自苦討吃」。
      這十七萬字版的,輸入部件,按下「Enter」之,可以數個七、八、九秒,才會顯示查詢結果。(阿文以為是自己電腦的關係,還去朋友那裡,用較新的電腦、較大記憶體的,去試試看……也快不了多少,使用起來,就是會有「延遲感」,慢了好幾拍。)
      阿文是不懂得,其中的「運作原理」啦!
    只是想‥一個網頁裡,基本就十七萬三、四千字……
    每次查詢,等於重新刷新頁面——十七萬多字,重新刷一次,不慢也得慢。
    若是資料檔「外帶」的話,程式是跑到資料檔裡去,找到符合的,才叫出來,顯示在頁面——感覺這樣子,應該會比較順暢吧?
      阿文每言‥「動動腦,萬事好;不動腦,費手腳。」
      凡事「不會死人」的話——何妨嘗「嘗試」一下呢?
      或許會更好呀——就算沒有更好,也只是浪費一些時間,換取一些「行不通、不成功的經驗」罷啦!
      果真當使用者是「傻瓜」(只會使用傻瓜相機)的話,就用一個「單一網頁版」的;另一個,則是資料檔外帶的「專業版」好啦!
          *      *      *      *
      《手寫字形》,輸入倉頡碼,已八千筆。
      另外,今天,想法設法,將十七萬字的「倉頡碼」與「拆分碼」,整合為一,置於Excel中,一字一列,如是,可以利用倉頡、拆分來「排序」,查看字形是否重複,也可用「過濾」去查看——更便利大批新增字之拆分輸入作業。
      改天,檢查無誤後,再寄給你——在Excel中整修,很方便的啦!
                      阿文
                        
     
      如何判斷「@」有理拆分、「!」無理拆分?
      
    序 倉頡碼  字 拆分
    94 c;ih 丷 !丶㇒
    95 kni 丸 !九丶
    96 by;bim 丹 @冂亠@󺪜丶!󰖶一
    97 iksi 为 !𬼀𠃌丶!丶力丶
    98 yg 主 @丶󵣀!丶王!亠土
    99 tti 丼 @井丶
    100 mbmbi;mmbib 丽 @󰊅󰖶󰖶
    101 fcq 举 @兴𰀁
     
      ※保留@!,方便複製到“EmEditor”中,取代為所需形式。
        "丹@󺪜丶!󰖶一",

    回覆刪除
    回覆
    1. 簡單說,不是把資料拆開不在同一個網頁裡速度就會變快,如果是這樣我早把它拆成100個檔案,豈不會快100倍?阿文兄這是「鴕鳥」式的思考,凡是看不見的就不存在,呵呵!

      要處理的資料就是那麼多,不管你拆成多少個檔案,運算就是要花那麼多的時間,這是「袜走閃ㄟ」,不會因為把資料拆出去就會變快,天下沒有那麼「好康的代誌」。我自己使用的開發測試版本,一直就是拆開來的,從來沒有變快過,呵呵!

      阿文兄的體驗也太慢了吧,我之前用了十多年的老電腦應該也沒那麼慢。這反應速度跟瀏覽器有很大關係,我用目前的很低階的電腦測試了一下(勾選包容異體與無理拆分),用 IE 跑反應最慢,一個查詢約 5.7 秒;Firefox 約 4 秒;Edge 約 3 秒;Chrome 約 2.6 秒。也就是說快與慢會差到一倍的速度。

      「部件檢索」的程式我幾乎已經最佳化到極致了,也就是說要再更快,網頁版大概不太可能了,除非用 C/C++ 改寫成原生的桌機版本程式,或許能再快上一些。

      有理拆分、無理拆分,我在以前的發文裡提過,目前僅是把這個概念實踐出來,不保證我目前的區分是正確的。如何判定有理與無理,這需要有精通字理的專家,根據字學研究的成果來認定,我不具備如此的學養,只是把架構先做出來,期待有一天能有專家幫忙完善。

      刪除
    2. 當程式無法再最佳化時,就要回頭考慮資料結構。八萬字的複合部件檢索可以做到亞秒級的。參考看看 https://hanziku.github.io/hanziyin/index.html 。

      刪除
    3. 久聞葉兄大名,始終未有機會當面請益,頗有遺憾。不想葉兄今日留言,正好前幾日阿良兄即給了葉兄新作的網址,我稍微玩了一下,由於不了解您的運作邏輯,有很多疑問,藉機請教。

      例如我輸入「日月」,只能檢得3字。根據說明,反序會有不同結果,故我再輸入「月日」,也僅能再檢得8字。根據我的檢字,若剔除私造字,同時包含「日月」部件的漢字至少超過百字,何以會有如此大的差距?是否我使用的方式不對?

      葉兄謂「八萬字的複合部件檢索可以做到亞秒級的」,這我極有興趣,若真能實現,對中文檢字幫助極大。由於不了解您的檢字方法,我還抓不到方向,兄可否略述您的實踐邏輯,我才能思考如何改進資料結構,希望兄有以教我。

      刪除
    4. 因為目前不做遞迴檢索。就是用「日」是檢不出以「明」為構件的字。
      我主要是考慮手機用戶不必輸入任何部件(用選筆劃的方式),輸出結果越少越好。
      像「口」「木」這樣的部件,如果允許遞迴的話,會找到成千上萬個字。

      實作的細節在 https://github.com/hanziku/hanziyin/blob/main/implementation.md 。

      另外,我初步完成 漢字拼形 https://github.io/hanziku/hzpx/index.html ,這是基於 Kage 和 Glyphwiki 的動態組字。
      目前我遇到的麻煩是 CHISE 和 GlyphWiki 的拆分結構並不一致,我也沒有精力去考證那個較為正確。
      目前八萬字的向量字庫最多只能壓到 4.2MB,如果能將「檢字用的拆分結構」和「繪字結構」統一的話,我計算的理論值是全CJK字集是 2.5MB~3MB之間(八萬字加以八萬字為基礎的所有組字)。

      我剛看你的檢字軟體(3MB的HTML) 已收了 17萬字的拆分,好傢伙,比CHISE多了近十萬字!!!這背後付出的的汗水和辛勞,能深刻體會的人不多呀。

      我可以用gmail 回嗎?因為這裡編輯不太方便,也不太習慣。

      刪除
    5. 嗯,若不做遞迴確實可以很快,不過檢字的結果可能就不符使用者的期待,這是難處。

      Kage 我也曾經玩過一陣子,後來玩不出什麼有用的實作就沒再繼續。

      我的字庫已經突破十八萬漢字,正在做收尾的整理,近日應該就會發布更新。一路走來確實辛苦,不過有幾位志同道合的好友傾力襄助,倒也不孤單。

      這裡的編輯確實很難用,歡迎用 Gmail 聯繫,有您可以相互討論的話,應該可以激盪出更多想法。Blogger 沒有悄悄話功能,為保護您的個資,您可以將 e-mail 留言,然後立刻刪除,我仍會收到通知,就可以與您通信聯繫。

      刪除
    6. 看了一下葉兄的說明,我終於比較了解了。我倆最大的差別在於「孳乳表」的應用,「孳乳表」可以大幅加快檢字速度,但代價就是要佔用大量空間,而且必須先用程式構建出來,拆分數據一有更動,「孳乳表」就必須重新建立。

      這又是個兩難的取捨:我沒有使用「孳乳表」,所以檢字速度較慢,但佔用空間較小,拆分數據可隨時修改,容易維護。若改用「孳乳表」,檢字速度可以加快,但以十八萬漢字來建「孳乳表」,佔用空間恐怕很驚人,拆分數據的維護也變得不容易。

      我得仔細思考思考。

      刪除
  11. WFG‥
      先擱下整編《臺語詞海》,卯起勁來,整編《手寫字形》的倉頡碼,現已完成「一二五〇字」。
      《部件檢索》(模糊),加上《倉頡碼檢索》(精確),對於阿文整編《手寫字形》(新增字)而言,可真是「相輔相成」,便利無比。
      啊可惜就是《部件檢索》,反應慢好幾拍……真的只能耐著性子使用!
      今日搜著利用《部件檢索》而改的《字嗨漢字部件檢索》,見其「說明」‥
    「將十萬字的資料庫,切成100份,每50毫秒搜尋1000字,
     讓整個搜尋拉到最5秒完成,
     比起原先在我的電腦上,大約3秒比起來,是慢了點,但換來的好處很多。
     首先當觸發新的查詢時,舊的查詢,會即時結束,
     過時的查詢,不再拖延使用效能。
     …………」
      程式運作的原理,阿文是一點也不懂啦!只是想‥
    若將東西,全混在一個抽屜裡,要找就挺累的!
    若一個抽屜裡,還有分格,能將東西,稍加分類,要找東西,當是容易些。
    若用二個抽屜,乃至十個抽屜,將東西分類擺放,外頭標籤,要找也容易——
    倘若未分類,只是隨便裝進十個抽屜裡,那可就跟全混在一個抽屜裡,沒啥兩樣,乃至開關抽屜,更加費時。
      想起DOS、倚天、PE2的時代……
    倚天中文,有《片語輸入法、詞庫輸入法》,真是超級便利好用!
    《詞庫輸入法》,以「Ctrl+ space」 開啟,輸入一個詞之後,自動跳回之前輸入法(如倉頡輸入法),使用倉頡輸入法的人,可以自行編輯詞庫,至多打五個碼,即可輸入二字詞、三字詞、成語,乃至十個字一句,譬如‥
        MMMHF 一石二鳥
        NNNON 阿彌陀佛
        THKTM 觀自在菩薩
    還可以分成好幾個檔。(資料檔最後一行,有個連結下一個檔案的程式碼。)
      用倉頡輸入法的人,要打成語,就切換為《詞庫輸入法》,打五個碼,即輸入四個字,然後,自動跳回倉頡輸入法——完全可以「盲打」。
      阿文就分門別類的,做了好幾個檔‥成語、詩詞、佛學名相……
      可奈何,進入「Windows」時代,記得倚天所用的倉頡、注音等輸入法,是被「Windows」給「繼承」了——但《片語輸入法、詞庫輸入法》,並沒有被延續下來。
      因為「注音輸入」麻煩,阿文還搞了一套「用倉頡碼」打注音——
        mk(天) ㄊㄧㄢ
        my(下) ㄒㄧㄚˋ
        otf(無) ㄨˊ
        toog(難) ㄋㄢˊ
        jlln(事) ㄕˋ
      阿文還整編了,當時Big5字集的《注音檢索》——
    後來,因緣際會,免費給了 WD2(pe2的中文版)公司。
    (那個還在用五吋、三.五吋軟碟片的時代。)
      呵呵!原來,阿文老早就在「當傻瓜」啦!
     
          *      *      *      *
     
      《倉頡碼檢索》,有個狀況,想麻煩你,看看是否能改善?
    一、以字檢索結果倉頡、注音、拼音後的結果,
      能否有「點擊複製」的功能?(如檢索出來的字。)
    二、能否分開每個倉頡碼或讀音?以便於「點擊複製」?
      如:hmvi;hmvk;hmvo;hmvp;hmvq;hqi;hqj;hqk;hqo
      變成:hmvi hmvk hmvo hmvp hmvq hqi hqj hqk hqo
     
      ㄖㄣˊ ㆢㄧㄣˊ;jin5 ㄌㄧㄣˊ;lin5 ㄌㄤˊ;lang5
          ㄌㄤ˙;lang0
      ㄖㄣˊ ㆢㄧㄣˊ jin5 ㄌㄧㄣˊ lin5 ㄌㄤˊ lang5
          ㄌㄤ˙  lang0
     
    如此,可以「點擊複製」後,可貼到查尋框,方便尋找其它同碼字、同音字。
      能做到,那就很方便啦!
      若不能做到,也只好將就囉!
                      阿文
                        
    ※附圖
     https://www.facebook.com/groups/978821105480673/posts/5363297397033000/
     
    ◇字嗨 漢字部件檢索
     https://zi-hi.com/sp/uni/CJKSeeker
    ◇漢字部件檢索修改說明
     https://github.com/ButTaiwan/hanseeker

    回覆刪除
    回覆
    1. 現已完成「一二五〇〇字」。

      刪除
    2. 「字嗨」的版主曾留言跟我打過招呼,我也針對他的改寫給過回應。他的構想很好,將查詢拆分用多個執行緒來執行,增強了使用者的互動感受,但也因此有了一個「致命傷」,那就是「精確命中」不再能保證列出。「精確命中」保證列出是我設計「部件檢索」的一項重要精神,是不可被犧牲的功能,因為如此使用者才能確認要查詢的字在字庫中是否收錄,而不是「運氣不好」沒有被列出。沒了這項功能,我認為「部件檢索」基本上只是個很炫的玩具,查字全憑運氣,已不具備真正的實用價值。

      阿文兄說的片語輸入、詞庫輸入,我跟您提的「倉頡平台2012」都能達成,而且不須切換,suns99 兄便都是這樣使用。只要自己編好碼表,要輸入什麼片語、詞庫都可以自訂。

      刪除
  12. WFG‥
      「倚天中文」的輸入法,是內定的,也不是一般人,可以去編輯,故有可以自定的《片語輸入法、詞庫輸入法》,做為輔助。
      windows,有「自定輸入法編緝器」,故能增修自定輸入法——
    大概因此故,所以沒再保留《片語輸入法、詞庫輸入法》。
    (win7,居然就沒了,但能用WinXP的。
     所以‥有能力寫程式的,紛紛寫自定輸入法的程式。)
      《片語輸入》,是利用二十六個英文字母鍵,可以隨時設定,比如寫小說的,一直要打「阿甘說:」,就可以將按鍵「a」,設為「阿甘說:」——
    好像是按「Shift+space」後,再按「a」鍵,也就能輸入「阿甘說:」,
    輸入後,自動跳回原輸入法——等於是按「三個鍵」,即可輸入片語。
    (阿文是用《片語輸入》,設定鍵盤上,打不出的標點符號,如‥「」『』《》……——等。)
      使用《倉頡輸入法》,好處是‥
    一、只用到二十六個鍵。
    二、以字形取碼——不會讀音,也能輸入。
    三、最多輸入五碼。(不限單字,也可設定詞、成語,乃至一長串句子。)
    四、候選字率低。
      出現候選字,除非常用,不然,就得「用眼睛」去看、去選啦!
      《詞庫輸入法》所設定的碼與字詞句子,只要加入《倉頡碼》裡,一樣也能用。
      《詞庫輸入法》的好處就是‥有用到時,才去開啟!
    譬如‥冬天到了,要穿的衣服,就掛到衣樹裡,容易取放;夏天的衣物,暫時不用,就收到抽屜裡,久久不用再去動到。
      想當年的Big字集,還得分「常用字、次常用字」的區塊呀!無非是擔心載入太多,記憶體不堪負荷,處理不來。
      誰又料到‥電腦科技,飛速前進,unicode 字集,漢字越造越多?還得一直增加區域——還不知何時才能了結哩!
          *      *      *      *
      《手寫字形》,已完成倉頡碼,也作了初步的比對。
      接下來的日子,得逐字去檢查、拆分……
      急也急不得,還是「別太認真」,要不然,會累死!
          *      *      *      *
      收到修改後的《倉頡碼檢索》,效果很好,用「即時查詢」,也沒問題。
      將《倉頡碼檢索》,改為《漢文檢索》——
        輸入漢字、倉頡碼、國台語客注音、拼音檢索。
      日前,也已整編好了「國語、台語、客語(待完善)注音、拼音」的資料檔。
      問題是‥
    一、可以共用一個檢索頁面嗎?(將四個分類的資料檔,互相連結。)
    二、注音(方音符號)、拼音、調符,須要「輔助鍵盤」。
    三、檢索結果,為區分「倉頡碼、國語、台語、客語注音拼音」,
      大概要依資料檔的檢索結果,分類顯示。
      (簡單的另行起,或加"hr"區隔線。)
    四、輔助鍵盤的字,宜設為「標楷體」——
      「注音調符」,才不會變「半型」的,好看些!
    五、「較大字形」,開啟可內設為「關閉」——網頁用滑鼠滾輪,即可放大縮小。
      
      阿文想得太多,不會寫程式,終究有心無力。
      有勞王兄費心了!
      每當有網友問及‥「你的台語注音,是怎麼輸入的?」
      阿文都得問他‥「你真的有心要玩嗎?真的有心,我再跟你說!」
      得以完成這個《漢文檢索》,也算得上是一件利器啦!
     
    ※資料檔:
      倉頡:decompose.js   (原檔,為省kb,上傳快些,未附。)
      國語:decompose-1.js
      台語:decompose-2.js
      客語:decompose-3.js
     
     ※輔助鍵盤參考:Ey.htm
      昔日,為了輸入台語注音,模仿《教育部新編國語辭典》的注音輸入做的。
      想當年,一鍵一符、一字、一詞地,初步整編了《臺語字詞海》……
    還真的不得不佩服,自己的「毅力」呀!
    後來,用〈彰化一整天〉的「 Exce批次轉換」,輸入拼音,再轉為注音。
    如今,用「烏衣行」的「漢字轉閩南語拼音」,
    再用“EmEditor”,的「批次取代」功能,轉為台語注音,也就更加便利啦!
     
                      阿文
                        
     
    ※漢文檢索.7z
     http://nas.taigubun.org:8080/share.cgi?ssid=0jnczux

    回覆刪除
    回覆
    1. 如果不做分類的話,直接把四種數據合併是最快的。

      刪除
  13. WFG:
      打拚了一天,《手寫字形》,逐步整編七百五十字。 
      眼睛實在受不了,只好休息啦!(就說不要太認真,可是一旦投入,就沒完沒了。)
      以一天五百字的話,「一三八二七字」……好吧!預計一個,可以完成。
     
      由於新版《部件檢索》,使用起來,慢到實在很想放棄——
    後來,想說利用《倉頡碼檢索》,來改個「精確檢索」的——
    至少只要「拆對了」,就能找到字。(少了不對的,速度應該會加快吧!)
    但嘗試之後,卻沒能成功——也不知問題出在哪裡? 這下也沒轍啦!
     
    "不:一𡭔;丆卜",
    "丑:彐丨;󰒈十;󺪡一",
    "丒:刃一",
    "专:󰔟丶",
    "且:𠀇一;𠀃二;󰍂一",
    "丕:不一",
    "丘:𠂆丅一;𠀉丨",
     
      一般倉頡碼的資料檔,是以「TAB」做區隔,比如‥
    a 日
    a 曰
    a 𫩏
      其實,也可以這麼編‥
    a 日 曰 𫩏 ←中間空半格。
      打「a」後,一樣出現候選字
        1.日 2.曰 3.𫩏
    當然,設定「詞、成語」等「字串」都行——只要以「空半格」做區分。
      《部件精準檢索》無法作用,也只得煩你「修理」啦!
      若可行的話,阿文還有個構想‥
    整編一個「構字部件檢索」,比如‥
    、:丶 ⺀ 冫 󰉾 丷 𠁼 氵 󰏴 灬 󺪤
    亠:󰑻 󶅠 𰁜 󰑺 𣅀 󰊡 󰊞 󰊈 㐫 󰒖 𤣥 玄 󰑜 󰓿 亯 𨐌 𤇯
    丿:㇒ 𰀪 彡 𠂆 ⺁ 󰌏 𠂉 龵 𧰨 𧘇 𠂢
    丩:𠁡 𠁢 𠂈 󰕯 󰐊 󰑚 𠂎 乡 乆 𠃔 󰓠 丱 󱳓 󰑖 𤕰 𣇓 鼎
    冂:𠔼 𠔽 冋 𠔿 冈 𦉪 𦉰 罓 冈 网 𦉯 𦉳
    ⺈:⺈口比 ⺈囚八 ⺈𠔿比 ⺈𠔿冖 ⺈𠔿𠂡
     
      也就是說‥以「起筆」來分類,或者是某個某個字為主,相似、相關的部件。
      其實,從以前開始搞「拆分」,就建立了個《漢字拆分部件參考檔》——
    雖然有稍加分類,但用「人眼掃瞄」,總不如用電腦檢索來得快嘛!
    如是,打一個字,就找出相似的部件,同在一個頁面,要找就容易多啦!
      
      還有,沒「部件」可用的,看來也只好打「?」,做「萬用碼」了!
    有的字,沒部件,無法拆呀!硬是拆得「離離落落」,真是挺「難看」的!
      呵呵!看到‥
    「國教院提供的《異體字字典》構形數據,並不完整,
     很多無法輸入、顯示的部件,都被直接略去,
     導致大部分的構形數據,都是『缺了胳膊,少了腿』……」
      說真的,「拆字」挺累人的!所以‥除了「感謝前人的貢獻」之外,其它的任何話,都是「多餘」的啦!
      如啦!休息了。
                      阿文
                        
     
    ◇《部件精準檢索》
      http://nas.taigubun.org:8080/share.cgi?ssid=0DyB8pZ

    回覆刪除
    回覆
    1. 由於兄需要反查,所以目前的設計是「輸入非中文進行查字;輸入中文進行反查」。部件拆分幾乎全部都是中文,程式會當成是反查,自然不能如您的預期正常工作。

      刪除
    2. WFG‥
        《手寫字形》整編至第「一二七〇」字。
        用《倉頡碼檢索》,挺便利的!列出同碼字,或可找到「同形的字」(重複的字)——無有相符者,則試改不同的拆碼方式,若還是沒有,那只好去「拆字」來檢索啦!偏偏《部件檢索》,很「不給力」,只好另外想法子啦!
       
        想來,電腦跟人腦的差別,還在於‥人腦有「記憶」——
      譬如‥常到超市買鮮奶的人,會記得擺放的位置,一進超市,就直往該位置拿取。
      而電腦嘛!你告訴他要「某某鮮奶」,他每次都得從頭開始去找——
      但因為人的動作慢,電腦的動作比人快,雖然總是「從頭找起」,但也會比人「直往放鮮奶」的位置去拿還要快。
       
        阿文倒是有個構想‥
      查詢框,可以設成左右兩個。
      左邊可輸入「字」,檢索(列出)該字之「拆分」。
      右邊可輸入「拆分字串」,檢索(列出)相同拆分之「字」。
      (大概以「A橺、B橺」的概念。
        冒號(:)左側為「A橺」、右側為「B橺」。)
      譬如:查「􁏋」。列出「拆分」:
          丷王戈丿小兮 丷王禾八丂丶 丷王禾兮丶 羊戈丿小兮 羊禾八丂丶
          羊禾兮丶 羲八
        查拆分「茂貝」,列出:蕆 󳌔
        查拆分「林足」,列出:䠂 𣙳
        查拆分「一一」,列出:二 𠄞 𠄟 𠄠 󰊅
       
        如此「精準查詢‥完全相符條件」的,方才列出結果,在速度上,應該是會快很多很多吧!
       
        如‥《台語辭典(台日大辭典台語譯本查詢》,可分別在「讀音、漢字、解釋、例句」的欄位裡查詢,而列出相關字詞。
       
      ◇台語辭典(台日大辭典台語譯本查詢
       https://taigi.fhl.net/dict/

      刪除
    3. 其實我覺得阿文兄按呢「想空想縫」毋卡緊啦,呵呵!若是依您的想法做個「精準部件檢索」,其實會「很難用」,因為必須與拆分資料「一模一樣」才會命中,只要部件的排列順序不同或是含有異體,都不會列出,這樣能找出的字比例應該會很低,純粹只是碰運氣。何況現階段拆分數據還不健全(國教院的數據還沒修整完),用這樣的「精準部件檢索」徒然只是浪費時間。

      每個人拆的倉頡碼雖然也可能不同,但佔比應該很低,所以現階段來說還是倉頡碼的可靠度較高。我是覺得 suns99 兄的檢查方式最簡單、最有效率,直接在 EmEditor 裏用倉頡試打,不用切來換去地再用什麼《倉頡碼檢索》、《精準部件檢索》查字,這樣只是浪費更多力氣,得到的結果卻很有限。對於倉頡打字高手而言,完全只在 EmEditor 裏作業才是最快的,兄何苦自廢武功,卻去用些「旁門左道」的招式,這些「旁門左道」的招式是我們這些不會打倉頡的人,不得已才會去用的,呵呵!

      刪除
  14. 恭喜你,把異體字字典完成了。
    字型優化了,看得出來。
    F5947,光以美觀來講,我個人偏向於舊的字形。
    https://imgur.com/aHHWueR

    回覆刪除
    回覆
    1. 謝謝,《異體字字典》要真正完成還有很長的路要走。這些字形優化是批量作業,由於數量龐大不可能兼顧到每一個字的細節,原則上以「台灣的宋體風格」為優先,儘量讓字庫裏的字形風格一致。後續有「看不順眼」的,就邊用邊修吧!不過靠我一人之力難以負荷這麼多工作,還是需要多一點朋友幫忙。如果有空的話,或許能幫忙把「看不順眼」的字形按「台灣的宋體風格」優化一下再提供給我,我好替換上去。

      刪除
    2. 嗯好的。
      我當時想也許有的優化字形是針對異體字字典而改的,不知幕後因素,所以只提美觀方面。

      刪除
    3. 您的考慮是對的,不過不用擔心,要替換上去之前我還是會經過查證,必要時會對字形再做微調。若能幫忙先把字形造好,會減輕我不少負擔。

      這個字形,我查了關鍵文獻,應該依正常宋體筆法即可(如您說的大陸字形一般),當初的造字人可能是依手寫稿造字,反而弄出了個不符合風格的筆形來,我已經重新造字,下一版更新,感謝您的提醒。

      刪除
  15. WFG‥
      阿文還是喜歡說‥「動動腦,萬事好;不動腦,費手腳。」
      動動腦嘛!可以增加「工作的樂趣」——
    試得成,可以增加工作效率;試不成,也算是換得一個‥「不成功」的經驗啦!
      《倉頡碼檢索》,好用得很哪!
    (《倉頡碼檢索》,目的不在於「文章打字輸入」——目的只是為了‥方便找字。
     完成《手寫字形》後,也就會「擱置」啦!
     蓋平時打文章,沒事也用不到,那些「異體字」呀!)
      你推薦給 suns99 兄用用看——保證他也會愛上的!
      比如‥「nnmrb」這個碼,有「五十三」個同碼字——
    想想‥有哪個輸入法,可以「同一頁面顯示」的?
    「候選字」,大概要叫人翻個五、六面吧?
    字形看不清楚,還可以隨時給它「放大放大放大……」
     
      呵呵!來聊聊阿文對《手寫字形》的作業方式吧!(經驗花錢買不到,有興趣「整編」的人,就參考參考!)
    一、把字形檔,複製~貼到 Excel裡。
    二、努力編寫,完成所有字的倉頡碼。
    三、編個批次取代檔,
      利用將“EmEditor”的批次取代功能,
      將《手寫字形》的倉頡碼,轉換為「既有漢字」。
      (十七萬字,也不知電腦跑了多久?阿文去菜園除草、摘菜啦!
       同碼字,只會取代成第一個。圖片J欄中,即是。)
      如此,就可以很方便地,與「手寫字形」對照了!
    四、接下來,也不得不逐字查驗啦!
      或有倉頡碼打錯、編錯、不同的取碼方式,也只能一一嘗試。
    五、在Excel裡,還可以利用排序、篩選(過濾)、取代的功能,
      將一些「拆分碼」給「優化」,如「彐彐」,全取代為「��」。
    六、在Excel裡作業的缺點‥
      各區段的字,無法全都顯現,還得去「選擇字型」,才能看到字形。
     
      《手寫字形》,處理剩餘一萬字。
      好啦!今天,早點「收工」啦!
     
                      阿文
                        
    ※附圖
     https://www.facebook.com/groups/978821105480673/posts/5385231924839547/

    回覆刪除
    回覆
    1. 辛苦了,阿文兄加油!改好的程式應該可以讓您繼續「動動腦」,呵呵!

      刪除
  16. WFG‥
      《手寫字形》處理,剩餘九千字。
      昨晚,躺到床上,有個構想,早上起來,也就趕緊「試試看」,想弄個《構字部件檢索》。
      《倉頡碼檢索》,既然設定「非漢字與漢字」之間的檢索——
    那就用「數字、英文字母(拼音)、注音」來檢索、反檢索吧!
      結果‥
    只能「單數」不能「十進位」,1至9可設,「0」則無效。
    「10」以上就無敦。
    英文、注音符號,也不能用二個字母、符號以上。
      這個《構字部件檢索》的構想,其實就是傳統的「倉頡、注音、四角號碼檢索」的綜合——
    反正「左側」隨自己的「慣用」的輸入法,或特定的分類,乃至隨「自己高興」,去設定「右側」想要檢索的「字、詞」結果,也就行啦!如‥
    i:丶 ⺀ 冫 󰉾 丷 𠁼 氵 󰏴 灬 乊 爫 爫 ⺤ 䒑
    m:一 丅 丄 𠃍 𪛙 乛 󰑶 󰍅 𠫔 𠫓 󰊓 𠮛 㔿 𤓯 帀 𢁓 厈
    mm:二 㠪 𠄞 𠄟 𠄠 󰊅 󰻖 󱜰 󲭣
    nxu:龜 龟 𪛉 亀 黾 𠃾 𠁴 𤕣 龜 ⻱ 龜 ⿔ 䶰 𧑴 𪚦 𪚧 ……
    ybysp:龍 竜 𦱉 𢅛 𠊋 㰍 𥫈 龒 䰱
    hxvyv:鼠 鼡 𤔆 󰲔 󽞜 󽞝 􂢅 􂢄 󽞬 􂢈 􂢉 䑕 𣆎
    ㄕㄨˇ:鼠 鼡 𤔆 󰲔 󽞜 󽞝 􂢅 􂢄 󽞬 􂢈 􂢉 䑕 𣆎
    ㄘㄞˊ:財 􁶸 财 㒲 戝 𧴶 𧵤 􁶺 􁶻 􁶼 􁶹 𧸄 􁶽 ㊖
     
      用倉頡輸入法的好處,就是可以盲打——
    一邊聽音樂、一邊閉著眼睛打字,也沒問題——
    但要是聽到「嗶」的一聲,那就表示「有重複」字,常用的,也能知道該按那個數字鍵去選字,要是不常用的,就得用眼睛去看、去選——
    如果候選字太多,得「翻到第二頁、第三頁……」,那「效率」就變低了!
    還得瞪大眼睛,仔細去「挑字」,真是折磨眼睛啊——阿文老花二百五十度啦!
      《倉頡碼檢索、構字部件檢索》——
    檢索結果,能一頁顯示,還可以隨時「放大」,找字多容易啊!
      《構字部件檢索》,可以方便檢索所需部件(有的部件,實在是奇形怪狀),乃至可以做「異體字檢索」,就看使用者,怎麼去運用啦!
      對於不會倉頡輸入法的人,就算用「注音、拼音」去設定——
    除了得「複製貼上」(不能直接輸入)之外,在找字上,當是比任何輸入法,還要便利的。
      勞你有空多費心,將之完善,利益世人也!
     
                      阿文
                        2022.01.20.四 
     
    ※右側當不限於檢索「字」,也能設檢索「詞、句」等。
    ※檢索結果,全都變成「其它」(深灰色),若無法修正,
     其字背景色,宜改為淡色,字才會明顯。
     
    ※請用這個去修改!↓
    ◇構字部件檢索.7Z
     https://onedrive.live.com/?id=3AB1CB8A20E303FE%218861&cid=3AB1CB8A20E303FE

    回覆刪除
    回覆
    1. 阿文兄,程式都是按事前的需求原則設計的,您這樣隨意地把數據倒過來,程式當然是不會正常運作的。我不是改了一版用「\」反查的版本給您嗎?您若是需要這樣「高度自由」的變化數據,用這個版本應該就可以運作。

      刪除
  17. WFG‥
      用「\」反查的版本,試用結果,不甚理想也!
      本來還單純的,輸入「倉頡碼查漢字、輸入漢字查倉頡碼」,也就可以啦!現在得加個「\」去反查,感覺就是「多此一舉」,還常會「忘記加」哩!
      本來,右手可以一直抓著滑鼠,還得回來鍵盤,加打個「\」,實也不便,
    後來,想在輔助楗盤上,加個「\」,只要用滑鼠點擊就好,結果也加不了。
    (輔助鍵盤,其實也用不到,總是將它關了,好讓出檢索顯示空間。
     想來,得恢復《部件檢索》,輸入查詢框旁的「\」,使用才會方便些。)
      以「資料檔」編排而言,這個《構字部件檢索》,當是更加人性、更加便利呀!
      同音字、同碼字,都歸於音、碼之右側,總比每個字,都去加注音、拼音、倉頡碼,來得「省容量」呀!如果能夠使用正則符號「|」(和,兩項之間,選擇一項),那就不用「注音、拼音、倉頡碼」,各設一次,也就更加便利。譬如‥
     
    nxu|ㄍㄨㄟ|ɡui|ㄍㄨ|ku1:龜 龟 𪛉 亀 黾 𠃾 𠁴 𤕣 龜 ⻱ 龜 ⿔ 䶰 𧑴 𪚦 𪚧 𪚨 𪚿 𮯛 𮯜 𮯝 𮯞 𮯟 龜 𥦣 𪚺 󰌢 󰐕 󰓧 󰱗 󰲎 󲣪 󲤊 󲤋 󲤌 󲤎 󲤏 󲤗 󲤘 󲤙 󲤚 󲤧 󲤨 󲤯 󷏽 󷕔 󷙨 󷧕 󹐝 󹕬 󺮛 󽘶 􂤄 􂤅 􂤆 􂤈 􂤉 􂤎 􂤏 􂤝 􂤞 􂤡 􂤪 􂤴 􂤵 􂤸 􂥕
      如是,不管輸入倉頡碼、國語注音、拼音,台語注音、拼音(會四角號碼的,也可加上),都可以檢索「龜」字,及其「異體」;再如《倉頡碼檢索》,不用加「\」,即可反查其「倉頡碼、國語注音、拼音,台語注音、拼音」——
    這樣可真是太便利、太完美啦!
      如是,將同部首的,歸於一列,即是「部首檢索」,比如‥
    sqsf|ㄇㄚˇ|ma3|ㆠㆤˋ|e2:馬 馭 馮 馯 馱 馲 馳 馴 馵 馹 駁 駃 ……
      如是,將同筆畫的,歸於一列,即是「筆畫檢索」‥
    5:玄 玉 瓜 瓦 甘 生 用 田 疋 疒 癶 白 皮 皿 目 矛 矢 石 示 禸 ……
    9:面 革 韋 韭 音 頁 風 飛 食 首 香
      不好用「|」,那就各分一個資料檔,再予以「串連」——
    用《行列輸入法》(王志攀就用行列輸入法)的人,可以編個《行列輸入法》檔;
    用《大易輸入法》的人,可以編個《大易輸入法》檔;
    只會《注音輸入法》的人,可以編個《注音輸入法》檔;
    會用《四角號碼》的人,可以編個《四角號碼》檔。
    …………
      除了得「複製~貼上(到其它文件上)」之外,再多的候選字,都能「一頁顯示」,還能「隨時放大」,而「任君挑選」——真是太美啦!
      這樣,就真的能成為《漢字多樣檢索系統》啦!
      廣告說‥「科技始終來自於人性。」
      或當說‥「科技始終服務於人性。」
      程式嘛!可以改來改去,而能夠更符合「人性需求」,令使用者,更加便利,可真是美哉!善哉!樂哉!
      有了這個《漢字多樣檢索》,還可成為《部件檢索》的「最佳助手」哩!
    (其功用,當是比《部件檢索》的「輔助鍵盤」,更加強大而便利的。)
      王兄要是工作累了,想「換個口味」時,再來「修善」這個《構字部件檢索》(要改名為《漢字多樣檢索》啦)就好!得以完成,那便是大眾之福也!
                      阿文

    回覆刪除
    回覆
    1. 到我這個年紀了,終於可以說這半輩子幾乎都在做程式設計了,呵呵!做程式設計最不喜歡的就是幫客戶量身打造的「客製化設計」了(程式設計師們應該都會猛點頭吧!),所以我幾乎都是做系統性開發,按照自己的分析來設計,免除掉「客製化」的溝通障礙。

      很多客戶總是想:一套系統要賣這麼貴,我不如找個程式設計師,花個幾萬塊就能搞定。結果通常是不歡而散,一方認為我錢花了想要的功能卻沒有;一方卻認為從頭到尾亂改一通害我浪費時間精力做白工。這樣的客製化場景幾乎每天都在上演,真正能成功的案例,比例非常之低。

      為什麼會這樣?關鍵在於一般人總是習慣於直覺式的思考,「就是這樣、這樣」;而不善於「邏輯性」的思考(不是不會而是不習慣去用)。如果細究其「這樣、這樣」是哪樣?使用者通常是說不清楚的,非得等到看到東西不合己意了,才會迸出一句「不是這樣,應該是這樣、這樣」。對程式設計師而言,改成「這樣、這樣」程式的邏輯很可能就會完全不同,等於推倒重來,原先做的等於白工,誰又會有好氣呢?而這「說不清的需求」常常就是雙方不歡而散的癥結所在。美其名說是「科技始終來自人性」,但事實是「科技始終本於邏輯」,「邏輯」沒抓出來,再好的科技都不會有人性,呵呵!

      用「\」反查的版本不合阿文兄的意,其實早在我預料之中。從阿文兄的需求一變再變,再一次印證我的「說不清需求論」真是「不變的真理」啊,哈哈!其實阿文兄的需求真有那麼複雜嗎?咱們不妨來釐清一下:

      數據中冒號左邊的我們姑且稱之為「詞頭」(簡稱為 A),冒號右邊的我們稱之為「關聯項目」(簡稱為 Bs,複數所以加 s),想要的不過就是輸入「A」查得「B」;輸入「B」反查得「A」。好,命題完成了,這不過是簡單的搜尋而已。我們再進一步細想,怎麼樣才能知道輸入的是「A」還是「B」?不知道這個就不會有「人性」了,呵呵!但別笑,這就是阿文兄一直說不清楚的關鍵。

      如果照最原始的「倉頡碼檢索」,A 一定是漢字;B 一定是英文字母。所以「邏輯」出來了,輸入的若是漢字那麼就是 A;輸入的若是英文字母那麼就是 B。好,若 A 不一定是漢字,而是「包山包海」什麼都可以,B
      也同樣是「包山包海」什麼都可以,那麼我沒有「讀心術」,不可能猜出阿文兄輸入的是 A 還是 B,人腦都不行了,電腦當然就更不行,因為沒有「邏輯」了。如果堅持 A 與 B 都必須「包山包海」什麼都能通吃,那麼最容易的解法就是加個帶頭碼來辨識,例如「\」,或者就是另外加一個切換選項或是輸入框。如果阿文兄覺得加個「\」是「多此一舉」還常會「忘記」,那麼加個切換選項或是輸入框大概也會是同一回事。如此一來就表示阿文兄的命題是「無解」的,因為沒有「邏輯」可循了。

      說這些只是希望阿文兄能了解「找人設計程式」是怎麼一回事,不是募一些款找個程式設計師來就萬事OK這麼簡單,更重要的是有沒有把命題想清楚,「邏輯」有沒有抓到,否則程式設計師也幫不上忙。

      阿文兄仔細想想,再把您的「邏輯」告訴我,我才有辦法創造出「人性」來,呵呵!

      刪除
  18. WFG‥
      從《部件檢索》成型之後,其實就想到要試試《倉頡碼檢索》的——
    只是《倉頡輸入法》,平常打字,根本也用不著那麼多字——
    前一版的《部件檢索》,還算便利,所以也就懶得去試。
      阿文看你那一萬三千多字的《手寫字形》——既有的字,皆已編了「倉頡碼」,想想‥若將《手寫字形》,編好倉頡碼,再轉換為既有的字,來加以對照,應該也就能較快整編完成。
      如今「十七萬字」,只因為《部件檢索》不給力——
    只好嘗試《倉頡碼檢索》啦!果然效果很好!
    《倉頡碼檢索》,找不到的字,只好用「拆分」去《部件檢索》查字啦!
    (《手寫字形》所附的簡略拆分,往往得加以「優化」呀!)
      《倉頡碼檢索》的資料檔,以阿文這個完全不會程式的人而言,當然就是仿造《部件檢索》資料檔的方式,去整編啦!(冒號左側漢字,右側倉頡碼‥二十六個英文字母。)
      但一般倉頡輸入法、大易輸入法、注音輸入法等等,都是‥
    左側「詞頭」(英文字母、數字、注音),右側「關聯項目」(漢字、詞、句)。
    (全宋體所附倉頡碼,便是如此形式呀!)
      所以,簡單的說‥這個《漢字多樣檢索》,
    冒號左側「詞頭」,就是「英文字母、數字、注音符號」(非漢字),
    右側「關聯項目」,就是‥漢字、漢詞、漢句。
    四角號碼,字根是以「4個數字」,去檢索「一個字」。
    倉頡碼碼,字根最多是「5個英文字母」。
    注音輸入法,是四個全型注音符號,字根大概算是「8」吧!
      本來,《構字部件檢索》,只是為了便利找到所需的部件罷啦!
    只要打個簡單的「倉頡碼」(英文字母或數字),就可以列出所設的「關聯項目」,也就不用每個「部件」,都用倉頡碼去輸入(遇到候選字太多,翻頁就挺沒效率的。)比如‥
      想找部件,有關「、(點)」的,就設「i」(倉頡「戈」)‥
    i:、 󰏴 灬 丷 𠁼 ⺀ 冫 󰉾 氵乊 爫 爫 ⺤ 䒑
      想找部件,有關「一(橫)」開始的,就設「m」(倉頡「一」‥
    m:一 丅 丄 𠃍 𪛙 乛 󰑶 󰍅 𠫔 𠫓 󰊓 𠮛 㔿 𤓯 帀 𢁓 厈 𠨭 󰏔 𧰧 𬺻 豖
    ki:㐅 乂 义 󰍏 󱏽 𠂭 󰐑 (㐅與、的。)
    ei:又 叉 㕚 󲧙 󲧣 􀪰 󰌃 㕛 㕛 叒 叕 (又與、的。)
    (不會「倉頡」的,就用自己熟悉的「注音、拼音」去設,也行呀!
     呵呵!大概也沒幾個「傻子」,會願意做這種費時、傷眼、勞神的事吧!)
      比如部首「食、金」的等等偏旁,也有好幾個,都可以設「C(金)、oiav(食)」,去列出「關聯項目」——
    如是,要找想用的部件,也就更容易、更快啦!
      這「網頁檢索」,一大的好處,就是‥
    隨時增修「資料檔」,存檔之後,也就能用了——
    遇到奇形怪狀的「部件」,按自己的方式,去分類加入,下次遇到,就可以快速地,檢索出來用了。
      比如‥看到構字部件有「𡆵」的,倉頡碼?w……(還真猜不出來。)沒關係!只要加入「W」列,也就行啦‥
    w:田 龱 󰋁 𡆵 𡆪 囬 囙 囧 𡆫 󰎱
    hw:󰒹 囟 囪 󵟂 囱 甶 𠒇 𫤘 (丿與󰒹的。)
    yw:𠧚 𠧪 卤 卥 鹵 (⺊與󰒹的。)
      倉頡輸入法之快,還在於「重複低」,倘若「候選字」多到得翻面去找,那其效率,這時也就跟注音輸入法,差不多啦!
      如是《構字部件檢索》,就跟過去倚天的「詞庫輸入法」類似——
    能自己設定「詞頭、關聯項目」。
      《構字部件檢索》,待《手寫字形》,整編完之後,也就「功成身退」啦!
    以後,再編個「台語注音、拼音檢索」的資料檔,便又能發揮其效用了。
      
                      阿文
                        
     
      整編《手寫字形》,剩餘八千三百字,一不經意,又超時加工,累到不行……

    回覆刪除
    回覆
    1. 其實您要的檢索工具跟「部件檢索」完全是不同的,背後的演算邏輯南轅北轍。

      資料表漢字在左或是在右對程式的設計而言無關緊要,重點是阿文兄若要「人性」不要「\」,左與右必須有「可判定的差異」才行。一邊是漢字,另一邊是非漢字,這是比較合理的安排,但如此阿文兄便不能一邊放漢字一邊放部件,因為部件也是漢字,要「人性」還是要「彈性」這是必須取捨的第一個問題。

      再回來左、右的問題。阿文兄若是要比照倉頡碼的定義方式,漢字在右,那麼如果要像您「夢想」的方式,倉頡、注音、拼音、四角、筆畫、部首(注意:部首也是漢字喔,除非改用康熙部首的編碼字,但一般的輸入法大概就打不出來)都可以混查,那就必須倉頡一行、注音一行……,因為詞頭都不一樣(關聯項卻都一樣)。反之如果漢字在左,那麼只要一行,倉頡、注音、拼音、四角、筆畫、部首等等都是同一個詞頭的關聯項。從資料庫整理的角度來看,漢字在左是較好的安排,因為可以做到詞頭的唯一性(不會有兩筆詞頭是相同的),可以加速搜尋的速度;反之例如倉頡與拼音詞頭就可能重複,無法確保詞頭的唯一性。所以不是人家這樣排您就應該這樣排,人家這樣排有他背後的「邏輯」,跟您的情況不見得相同,您還是必須依您的實際情形做出最適當的安排。要「彈性」還是要「速度」,這是必須取捨的第二個問題。

      阿文兄再仔細想想,回答我這兩個取捨問題,呵呵!

      刪除
  19. WFG‥
      台諺道‥「頭家一下指,工仔做𠇺死。」
      阿文國中畢業,開始做水電(後來有換途);當兵回來,也做水電(後來也換途),故對於這句俗諺,頗有感觸也!
      遇到那種,很有想法的頭家(顧主),也是很頭大。
      有次,是遇到一個設計師,翻修自己的房子——設計圖,畫了好幾張,今天這樣,明天又改個樣,一個插座位置,改來改去——電線管道,就得打來打去;做好了,不滿意,他筆畫一畫,又得重做。
    木工釘好了衣櫃,他才想到要在下頭,加個插座(可以用來插電風扇,想得真周到),你就得想法子,去生給他。
    廚房磁磚都貼好了,他才想到要做個烤箱專用插座(二百二的電)——牽明線,嫌不好看,只好敲掉幾片磁磚,做好插座,土水師,再來貼磁磚。
      台諺又有話說‥「主順主人意,著是好師傅。」
      有時,也真會被「主人家」給氣死!明明「甲樣不好、乙樣好」,他就偏偏要「甲樣」——真要順著他的意去做,以後,他肯定要後悔!
      有次,主人家,要給孩子房間的書桌,加個插座。(房屋整修還沒完成,書桌還沒去買。)
      阿文有經驗嘛!看他畫的位置,大概會被「抽屜」擋住,就給他建議‥
    「要嘛!高一點(在桌面),要嘛!偏一點(在桌下放倚子的空間)——
     這樣,要插拔插頭,也就比較方便。」
      他堅持‥「沒關係!就在那裡!」
      阿文也懶得去「說服他」,牆壁管道,就給他敲下去;接線盒,就給他裝下去。
      隔兩天,他便打電話來,要阿文去「修改」啦!(他想想,還是跑去賣場,量了桌書的尺寸——是那種上面附有書架的書桌。)
      還好,牆壁還沒抹水泥粗胚,改改位置,也不至於太費工。
     
      故知‥專業、非專業;有經驗、無經驗——總會有差別的!
      事前若能充份了解雇主的意思、需求,不善之處,予以建議,彼此溝通,當能避免「做白工」吧!
      阿文不會程式,也不懂那些程式的邏輯,是故只會「想當然耳」!
    想是「廢話」講一堆,也沒講在「重點」上,故教人搞不清楚‥「你到底要怎樣」吧?
      上篇拉拉雜雜,說了一堆,未知是否能讓你了解意思?
      《倉頡碼檢索》的資料檔編輯方式是‥
    左側    :右側
    詞頭(漢字):關聯項目(非漢字)
     
      而《構字部件檢索》的資料檔編輯方式,則是‥
    左側     :右側
    詞頭(非漢字):關聯項目(漢字、詞、句)
      非漢字,包含‥數字、英文字母、注音符號。
     
      比如阿文的倉頡碼有設‥
    eyi:潘文良 (eyi「潘文良」倉頡碼的首碼。)
    og:台北市南港區研究院路…… (og「住址」的倉頡碼首碼。)
    這樣的設定,是很「個人化」的——自己記得,自己用得方便而已。
      如依各種輸入法去設,當然是也就人人可用——
    ybysp:龍 竜 𦱉 𢅛 𠊋 㰍 𥫈 龒 䰱 (用倉頡的。)
    long2:龍 竜 𦱉 𢅛 𠊋 㰍 𥫈 龒 䰱 (用拼音的。)
    01211:龍 竜 𦱉 𢅛 𠊋 㰍 𥫈 龒 䰱 (用四角號碼的。)
      若以《倉頡碼檢索》資料檔的編法,就得每個字去加「拼音」或「倉頡碼」等。
    "龍:long2;ybysp,01211","竜:long2;ybysp,01211","𦱉:long2;ybysp,01211","𢅛:long2;ybysp,01211",…………
      這樣,雖有其好處,但也有所不便,還會增加其容量。
      希望這說,你能真的了解!
      有勞你費心、費工,真心感謝你!
     
      語謂‥「工欲善其事,必先利其器。」
      《構字部件檢索》,得以完善,那整編《手寫字形》的「拆分」,也就得以更加便利。
    (徜若《部件檢索》夠給力,阿文大概也不會這麼「想孔想縫」了!
     阿文用「振興券」,去買了兩顆「固態硬碟」——
     聽說用來安裝作業系統,速度會加快很多很多。
     只是裝上去,居然讀取不到新硬碟……還得安裝「補件」什麼的,沒能搞定。
     只得待友人有空來幫忙了。)
      好啦!累了、餓了,準備午餐去。
                      阿文
                        

    回覆刪除
    回覆
    1. 命題清楚了程式就好寫,這一版應該能符合阿文兄的需求,您試試。

      只要遵守非漢字在左,漢字在右的原則,您要檢索什麼資料您就自行整編。

      刪除
  20. WFG‥
      真是太感謝你了!
      人謂‥「上帝把你關了一扇門,也會幫你開一扇窗。」
      因為不給力的《部件檢索》,反而讓阿文,賺到了二個超好用的網頁程式!
      用《倉頡碼檢索》,做字形精準查詢——找不到字,再用《部件檢索》,試著找找看,(呵呵!雖然不給力,也還是得用啊!)真的沒字,再用《構字部件檢索》,快速地,找到所想要的部件,去整編字形拆分——這樣的搭配,真是太完美啦!(見圖。)
      昨晚,一邊整編《手寫字形》、一邊整編《構字部件檢索》,搞到凌晨三點多,累到手腕疼、眼睛痛,想說休息一下再上(好完成《構字部件檢索》資料檔),躺到床上,結果就睡著了。
     
      整編《手寫字形》,剩餘七千五百字。
      去泡杯麥片粉,吃吃早餐,再繼續努力啦!
                      阿文
                        2022.01.25.二 
     
    ※附圖
     https://www.facebook.com/groups/978821105480673/posts/5419454858083920/

    回覆刪除
    回覆
    1. 每個人都有他使用工具的習慣與「眉角」,很高興新的程式能為阿文兄所用。阿文兄,咱們都上了年紀了,別太拼命了,身體要顧啊,呵呵!

      刪除
  21. WFG‥
      有疑處‥
    𥥘󶬬 重複收錄,後者註銷(2022/01/01)
      以字形風格而論,當收後字「󶬬」如(𥤲󽃇󽄤󽄷),而註銷「𥥘」。
     
    󲭥󿯯 重複收錄,後者註銷(2022/01/17)
      《集韻考證》‥巨󲭥
    〔注〕《說文》䂓巨也!古作「󲭥」
    〔案〕■从工,此作「巨」,非。
       注「䂓」當作「規」,古文作■(當作「󿯯」)。
    ※篆文形似「󿯯」。
      看來「󿯯」才是正字,而「󲭥」方為別字——故可別「註銷」了!
     
      建議設個《漢字回收桶》(字型),將有疑問的字、不同風格的字,全都丟進去!
      如「󱳻、󵏒」,二字亦可視為異寫——
    若數錄後字(󵏒),則前字(󱳻),就丟到《漢字回收桶》(字型)去!
      書法家寫字,未必會寫「正字」——
    若「思」字的「心」,少寫一點(丶乚丶),謂之「少點心思」;
    文章的「章」,寫成「􂔝」,謂之「文章貫日月」——
    於是‥明明寫了「錯別字」,後來也變成「異體字」啦!
     
                      阿文
                        
     
    ◇教育部異體字典。巨
     https://dict.variants.moe.edu.tw/variants/rbt/word_attribute.rbt?quote_code=QTAxMTQ5LTAwNw

    回覆刪除
    回覆
    1. 註銷的原則是按收錄的先後順序而定,先收者可能已被大家利用,故不動;後收者應該還沒被其他人使用,當註銷。

      𥥘󶬬 兄所列(𥤲󽃇󽄤󽄷)四字中有三字風格同前者,卻言當註銷前者,莫明所以?

      󲭥󿯯 後者註銷,但字形依後者,沒弄錯。

      太過微小的部件差異(例如⺕、󰐷),除非字典有兼收情形,否則原則上儘量不重複收錄。「󱳻、󵏒」二字完全相同,只因前者掃描時略有瑕疵,造成形似斷筆,其實二形完全沒有差異,並非異體。

      刪除
    2. 「󶬬」如「𥤲󽃇󽄤󽄷」等,「穴」之「八」,皆如「󰊓」下之二點。
      「𥥘」,「穴」之「八」如「儿」,與「𥤲󽃇󽄤󽄷」之風格不一。
      故言‥當保留字形「󶬬」,而非字形「𥥘」者。
        若前者先收錄,則當將後字形「󶬬」者,覆蓋前字形「𥥘」之字碼者。

      刪除
    3.   故凡有取代「字碼」者,皆當標注‥
          後者註銷,字形依後者。
        
        「󱳻󵏒」放大來看,果然可判斷為‥掃瞄失真。
        所謂「錯別字」,字典「字頭」未收錄,卻常會用於「註解」舉例之中。
      若「󲭥󿯯」者,一旦註銷其一,那《集韻考證》,可又得打「■」了。
        收錄字,其實也不嫌多——凡異形者,難免成「異體、異寫」。
      如「𰛄、𰛅」,其實僅為前人「文字遊戲」(打油詩)之造字——
      後人在編字詞典時,雖非「非收不可」,確往往也「兼收」之,而加註說明。
      【𰛄𰛅】ㄒㄧ└ ㄙㄨㄞ├ si7~3 suai7
        ⊕流水、濺水聲。船劃破水面聲。{例}𰍧𰍨一隻舟,𰛄𰛅水中流。
        《澎湖西嶼怪字詩》:
      乒乓一隻舟,𰛄𰛅水中流。𠁣𠃛搖船櫓,彳亍到揚州。
      (乒乓,有作「𰍧𰍨」者。)

      刪除
    4. 「穴」這個部件,台灣的規範字形作「儿」,大陸的規範字形作「八」,其字一也。歷代字書多作「儿」形,應該是直接繼承自小篆字形而來;也有作「八」形者,如《康熙》。目前字型中,台灣提交者作「儿」,大陸提交者作「八」,雜亂紛呈,我無力去一一統一,故堅持這風格問題無甚意義。只不過阿文兄認為該保留「八」者而棄「儿」者,卻與台灣規範相反。

      刪除
    5. 凡勘誤註銷者,註銷其後收者字碼,先收者字形則擇其優者而冠之。差距較隱者不另加注,差距較顯者,加注「依後者」。

      有時用字不能完全泥於「字形」,以《集韻考正》之例,考的是《集韻》,故字頭當然是抄自《集韻》,抄而有異,是抄者失誤,又或是伊覺得並無不同。其文並無二形對立之語,立文者「無心」而後來者卻堅持「有異」,這又何必?一如《異體字字典》的造字,多把手寫之「草頭」造成「羊頭」,泥於「字形」而不本其意,失之矣!「𰛄、𰛅」字見於《龍龕手鏡》,怕是與佛經有關,其本恐非兄所謂前人的「遊戲之作」。

      刪除
  22. 請問 ⿱艹吐 有加入最新的字型?

    回覆刪除
    回覆
    1. 您沒仔細看發文啦,呵呵!文內有清楚交待,不僅「⿱艹吐」,共有 75 個臺、客語缺字,全部以宋體風格造字補入字庫。

      刪除
    2. 請問如何輸入? 用最新的部件檢索找不到。

      刪除
    3. 應該是有的,就用「艹吐」即可查到,您是不是沒有把「限標準字」的選項給取消掉?沒有取消勾選的話會只侷限於 Unicode 已收錄字,補充字會被排除。

      刪除
    4. 感謝,可以輸入了。常常忘掉把「限標準字」的選項給取消掉

      刪除
  23. 我本來以為 𡞋 是類推簡化字,後來發現來自 TF(CNS 15)-3422;你的《說文》也當做異體字。教育部異體字字典,雖有有参,並沒有𡞋,我見到的字典都沒收這個字,讓我疑惑。這個字怎麼加入CNS?

    回覆刪除
    回覆
    1. 「𡞋」這個字是怎麼加入CNS的?我並不確定,官網上只籠統地標示為戶政用字。不過根據我的經驗,很多字還是可以另外追蹤出字源,並不一定只是人名、地名用字。陸系的大型字典如《漢字海》、《中華字海》都標示此字為類推簡化字,這大概是目前僅有的線索。
      如果從拆開的部件來追蹤,雖然各大字典對「参」字多半也只標示為「參」的簡體、異體,但還是可以找到稍微多一點的線索。《中文大辭典》:「参,參之俗字。《新字典拾遺》:参,俗參字。」這裡終於出現了一個書證,不過仍屬近代。另外在《教育部異體字字典》可以找到《經典文字辨證書》:「曑,正亦作𠻝,同。參,通。参,俗。」這是更早的書證(清・畢沅撰),而且明確指出「參」是通行字,「参」是其俗體。
      所以我的結論是:早在簡體字出現之前,「𡞋」應該就是「㜗」的俗體字,應該不乏書證。只是早期在數位化文獻時(可能 B 區字尚未定義或普及),或許「𡞋」字都被替換成「㜗」字,以至於現在用「𡞋」字搜尋幾乎都找不到線索。
      您對幾本字典的字頭處理原則也是避用補充字,而以編碼字代之,雖然以現下的檢索角度是有利的,但若干年後來看,或許也會落入今日之嘆,呵呵!

      刪除
    2. 數位化過程中俗字被替換了,這揣測很合理,而且這現象不限制於數位化的資料,所有先秦文字都被漢代學者規範化。
      關於俗體,我做了個6,800字的簡繁轉換表,從部件檢索抽出一堆應該是類推簡化字,後來發現有幾百字原是康熙字典的字頭,雖然表面上是類推。所以注意到這個案子。
      看來我得找一本《漢字海》、《中華字海》。原來以為手上已經夠用呵呵。
      若干年後亦落入今日之嘆,這問題哈哈我也稍微想過,好處是還有線索,那群字都擺在一個字型文件裏,到時候可以翻出來。Unicode 動作超慢,如果將來真有這個必要,我說不定已經不玩這類東東了。

      刪除
    3. 是的,有不少被大家認定的「簡體字」實際上原先是「俗體字」,陸系的字典大概都不會特別標示出來,只能自己再小心求證。
      我也曾整理了約6900筆的簡繁轉換表,但正因為這種「簡體」、「俗體」角色重複的情形,用處不是很大。退而求其次,我比較想要的反而是所有「在繁體中不可能出現的簡體字」對照表,譬如鱼、鸟、钅、讠、页這些偏旁的類推字等等,這樣就可以放心的批量置換,把不應該出現的簡體字給還原成繁體。只是時間不夠用,遲遲沒有動手整理,呵呵!
      漢字要單靠 Unicode 確實是緩不濟急,所以我才會整理、收錄那麼多「補充字」。我的原則是:儘可能遵循 Unicode,畢竟它是大家共同認定的標準;但不侷限於 Unicode,因為連最基本的字、辭典都涵蓋不了,遑論其他典籍。我的「補充字」並非是「為衝高數量」而胡亂收錄,基本上都是從各大字典的字頭整理而來,背後我也幾乎記錄下了每一個補充字的來歷,所以在使用上我對「補充字」與 Unicode 字是一視同仁的,「補充字」不過是「尚未被編碼的 Unicode 字」而已。

      刪除
  24. 我也想作個現代簡體字表,目的不在簡繁轉換,而在找出不可能出現在古書的字,方便糾正mdx錯誤。(比方說,帶“参”部件的字,經常出現在古漢語mdx字頭索引,甚至官方資料也有。)目前這個表有分類:新簡、古字等,不求完善,能用就夠了。
    對於補充字,我理解你的立場。像那個私有區字轉成Extension G字的表很有用。我的處理方式,一個劣點是不能用這種批量更新的工具。

    回覆刪除
    回覆
    1. 咱們的想法倒是很一致,呵呵!

      刪除
  25. 這些拆分重出:
    󸡄 @主󰐬
    􀈘 @扌亠吅己爻衣
    􀈙 @亠吅己爻衣攵
    􁪧 @虫巛内用
    􁪩 @虫八内用
    􂥥 @亻二丨丷
    􂥦 @亻丩一八
    􃉜 @糹𠫓内

    回覆刪除
    回覆
    1. 多謝,除第一組外,這些都是國教院提供的數據,很多瑕疵,我尚在緩慢整理中。從農曆年後大概只整理了一千多字,目前清理到 FFD7F,您列的這些都還在很後面,距離還很遙遠!

      這幾字我就先修了。我在想,要等全部清理完不知何年何月,或許每清理完一兩千字就先發布一次更新,大家就能先用到部份完善後的結果,只是如此一來我的負擔又會加重了,呵呵!

      刪除
    2. 邊用邊改,我支持修一批就發一批。

      刪除
  26. 目前有三十字拆分用 龜F908 部件;部件適合換成 龜9F9C。

    異體改變功能,考慮加這些替換:
    叟:叟
    乗:乘
    󰋂:肉
    𤣥:玄
    甾:甾
    亜:亞

    只有一個相關字,不知是否值得加:
    𡯁:尢
    𠄑:𡳾


    𡯁 尢
    𠄑 𡳾

    回覆刪除
    回覆
    1. 「𤣥:玄」已經有了。若只有少數相關字,不值得加。

      刪除
  27. 才注意到 F908 、9F9C 字形稍微不同。那麼,加異體替換:
    龜:龜

    回覆刪除
  28. 拆分:“兓日”合併為“󵦣”。

    󵦣:朁

    回覆刪除
  29. 󰑱F0471 部件有58字。
    󰐔F0414 部件有523字。

    F0471組理應當包含F0414組,但兩組之間只有幾個字重疊。

    免得費工調理拆分,方便的解決方式是加上異體替換:
    󰑱:󰐔

    回覆刪除
    回覆
    1. 有點不懂您的意思。「󰑱」含有「󰐔一」的拆分,故含有「󰑱」的字一定隱含有「󰐔」,不可再設定「󰑱:󰐔」。我猜您對這裡的關係一定有所誤解。

      刪除
    2. 「󰐔」與「󰑱」這兩個部件我目前不是很有把握,「󰐔」在某些字中是「甘」義,例如「其」、「甚」,但是否全面如此我不敢確定。而「󰑱」字理上是否就是「甘一」?可能還有待查證。

      刪除
  30. 􁳥 @訁𢆶𫠠丿
    􁳤 @訁𢆶𫠠󰊄
    夫 @一大‖󰐴㇏
    关 @丷天‖䒑大‖𦍍㇏
    󽹞 @車兓貝𮚋
    􂊌 @釒𮚋
    󱰗 @亻󸨟𣄼
    𱀲 @⻖兂兓

    𣩳 @歹兓曰!歹朁 ???
    糣 @米󸨟曰!米朁 ???

    有些分式,部件未合併:
    兓貝>𮚋
    兂兂>兓
    󸨟曰>朁
    玄玄>玆
    幺幺>𢆶
    夫夫>㚘
    先先>兟

    我自己用的加了這些異體替換:
    乗:乘
    󸨟:兓
    叟:叟
    冏:囧
    𡯁:尢
    𡰣:尸
    甾:甾
    󰋂:肉
    舎:舍
    龜:龜
    𡳾:𠄑
    󰑱:󰐔(或許把“󰑱!󰐔一”換成“󰑱@󰐔一”)
    𤮺:󰑈
    𡔜:声

    回覆刪除
    回覆
    1. 「󰋂:肉」、「𤮺:󰑈」、「𡔜:声」這三組可能不是很恰當,應再斟酌。「󰋂:肉」兩字是異體沒錯,但由「󰋂」組成的字中似乎多半沒有「肉義」,反而跟「𠧪」比較相關。「𤮺:󰑈」、「𡔜:声」這兩組本身就是不同字,所組成的字是否多有異體關係,宜再詳考。

      刪除
    2. 「𡰣:尸」已經有。

      刪除
  31. 謝謝指教。我昨天試探了 󰊓:丌 異體替換,發現效果不良,󰋂:肉 同樣不妥。(𡔜:声,校對中華大字典mdx時,碰到一個相關案子,現在想不起來,但也不值得追究。)
    除了形義相通兩個條件,又要考慮具體搜尋結果,現在知道替換不能隨便加的呵呵。
    我也考慮另一方面:多了一個異體替換,我用的‘部件鍵盤’也可以省略一個罕用的‘鈕’。

    我常用“󰐔”部件,但偶爾找不到東西,所以也備份了“󰑱”。比方說,“𭭡”(應該是@󰑱止||󰐔正),“󰐔”部件查不到“𭭡”---除非勾選“無理拆分”。看來,我對“無理拆分”的功能不是很有把握,一方面使用者要理解字的具體分式狀況才能預測搜尋的效果。

    回覆刪除
    回覆
    1. 是的,很多朋友經常要我加這個關聯、加那個關聯,我通常相對保守,因為要考慮的遠比他們的理解多。您因為有實際動手,所以我一提您就能理解了,呵呵!

      我把「󰐔」與「󰑱」的相關拆分又全面地整理過一遍。除了極少數應是「𠮛」的變形外,基本上都屬「甘」,都是「其」、「甚」的衍生變化。為了方便統整,我新加了一個補充字「󰐔𠤭!󰑱亾」,是「甚」的異體,如此就可以把這些字與「甚」關聯起來,不會這麼零亂了。

      刪除
    2. 「甚」字的下方部件,由「匹」不斷訛變,作「𠤭」、作「󸾸」、作「正」、作「󶃒」。這一系列都是「甚」的俗字。

      刪除
  32. 這兩個條件
    門@𠁣𠃛
    "𠁣":"戶"

    讓“包容異體”行為怪怪的。如果勾選“包容異體”,然後查“戶”,所有“門”部件的字也都會冒出來。

    也許“門”的分式該改成“!𠁣𠃛”。

    回覆刪除
    回覆
    1. 「查“戶”,所有“門”部件的字也都會冒出來」這有問題嗎?完全合乎字理呀!「門」从二「戶」,並非獨體,改成「!𠁣𠃛」並不合理。

      刪除
    2. 沒錯,這樣合乎字理。只不過 戶、門 各為部首,如此混合,查尋效果有點怪怪。(比方說,人、儿,義同形近,皆為部首,使用者查字時會想分辨。)
      具體來說,要查 三戶(戶戸户)的字,勾選"包容異體"會把 門 不部件的字也帶進來了。看來,三戶只能分別查尋。

      刪除
    3. 除非再設計一個更細的分類(異體包容再分層級?),否則很難面面俱到,只是更細的分類也代表著更複雜的工作負擔,目前只能在現有架構下求取一個比較合理的平衡點。

      刪除
    4. 三戶問題不重要,但我最近也想起設定兩種"包容異體"的功能。我一般不想看到非古代的簡體字,所以考慮把這些異體替換都去掉。問題是偶爾也需要用,到時候又得手工補回去,太麻煩了。不如設兩種“包容異體"功能,一個不包括簡化偏旁。有這個念頭,但我沒去研究如何調整JS程序才能達到這個效果呵呵。

      刪除
    5. 先把這個想法放在腦袋裏醞釀一下,等日後成熟了再來想辦法實踐,呵呵!

      刪除
  33. 2F9CB 字形與台源字例不合,而且重複了278AE字形。

    回覆刪除
    回覆
    1. 嗯,這字形對應當初應該來自 BabelStone Font。不過即便改了,字形還是會重複 U+4695,因為根據 CNS,T5-7A38 是對應到 U+4695,不是 U+2F9CB,與 Unicode 文件不一致(或許是 CNS 後來有調整),或許因為如此 BabelStone 才將這字對應到 U+278AE 去。

      總之,對兩岸來說,這一字碼不該使用,而該用 U+4695 或 U+278AE。這樣好了,我還是會調整這字字形,把它改成 U+4695 的 K 源字形,略略與兩岸字形有些差異,聊勝於無。

      刪除
  34. 𬿪𭯣𰣗𰻘,字形用奧,分式用奥

    回覆刪除
    回覆
    1. 陸標作「奥」,台、日標作「奧」常有不一致的情形。字形暫時不動,偏向台標,修改拆分以符合字形。

      刪除
  35. 好主意。2F9CB 字碼掛 4695 的 K 源字形,這樣康熙體可以展現出來了。

    回覆刪除
    回覆
    1. 這個字的康熙體未必是 2F9CB 喔,殿刻本字形實際上作 4695,校改本則比較像是 2F9CB,不過是否是解析度不足造成的錯覺,我不敢確認。

      刪除
  36. 䏞43DE 𦚜2669C
    全宋體兩個字形幾乎重複。

    43DE來自康熙字典;也許2669C該棄用。

    回覆刪除
    回覆
    1. 這兩個字,還是老問題,兩岸字形差異造成的困擾。若是按台標,43DE 字形該从「未」,2669C 字形該从「末」,那麼字形就不重複,可是台標卻很有問題。

      根據《異體字字典》从「未」的 43DE 見於《集韻》,但查證五個主要版本的《集韻》:楝亭本、明州本、述古堂本(《異體字字典》引用此本)、潭州本、金州本,字形幾乎都从「末」,只有明州本與述古堂本較為曖昧,兩橫筆幾乎等長(明州本較像「未」,述古堂本較像「末」)。此字歸在第十三末韻的末小韻,字形聲符當从「末」不从「未」,《異體字字典》字形明顯錯了,或者該說台標字形明顯錯了。

      根據《異體字字典》从「未」的手寫字形見於《類篇》,查證四個主要版本的《類篇》:汲古閣本、楝亭本、姚刊本(《異體字字典》引用此本)、宋鈔本,字形確實都从「未」,可是莫葛切與《集韻》音同,當从「末」不从「未」,可見《類篇》的字形是個訛字。

      台標將 43DE 定作訛形,顯有失當。而後來再補上 2669C 的正形,不知是將錯就錯,還是仍未發現失誤?所以 43DE 我改按陸標从「末」而不从「未」,但若將 2669C 改作从「未」又牴觸了 Unicode 標準,真是進退兩難,所以暫時擱置,未作進一步處理。

      一種方式就是將錯就錯按台標處理,只是如此的話正形就要對應至 2669C 而不是 43DE。

      刪除
  37. 嗯嗯 我之前已經揣測你的難處和處事用意。之所以我沒提起全宋體43DE與台源字例不合。
    我碰到這個案子時,本來懷疑其中一個是否該从月,後來發現並不是,但从未的字形又不規範,哈哈真是難搞。
    我說 2669C 該棄用,實際上是提醒自己,而不建議全宋體該怎樣。

    回覆刪除
    回覆
    1. 目前有三個方案:
      A. 將錯就錯按台標處理。但明知台標失當,還要我矇著眼裝不知道,這我吞不下,呵呵!
      B. 43DE 改按陸標从「末」,2669C 改从「未」,不理 Unicode 標準。反正是你有錯在先,不能怪我不遵守規範,呵呵!
      C. 43DE 改按陸標从「末」,2669C 屬台標的兼容字予以棄用。另造从「未」的補充字,以表達《類篇》的訛字。

      方案 C 有點疊床架屋,我比較傾向方案 B,不過如此就要擔「不符標準的罵名」,所以還沒下決定,呵呵!

      刪除
    2. 方案 B,類似曾經再次挪平面0的棄用兼容字。撿起來回收,更環保哈哈。

      刪除
    3. 意見一致,就採方案 B。

      刪除
  38. 𦍉26349,也許Unicode後來改了字例。目前所有商業字型都跟規範字例不合。

    回覆刪除
    回覆
    1. 或許是,目前我是照全字庫的 CNS 字形。

      刪除
  39. (其越南簡化字是𡚎2168E,右邊部件也是“奇”,不是“竒”。)

    回覆刪除
    回覆
    1. 𦍉26349,剛查了官網的小圖片是从“竒”,可見原先是从“竒”沒錯,不知是後來的文件錯了,還是真的改過。

      刪除
  40. 請問 穴角 有加入最新的字型?

    回覆刪除
    回覆
    1. 應該沒有,煩請提供該字出處的截圖與書名,我會進行評估,如果可以,下一版或許就會加上。

      刪除
    2. 台語聖經
      https://imgur.com/a/L8TU5jJ

      刪除
    3. 查了一下,台灣聖經公會的網站作:「12:4 𥦁街路的門關啲,挨磨的聲細細,鳥仔一下哮,人就起來,唱歌的查某囝仔也攏降低。」字作「𥦁」與您截圖的紙本形似但略有不同。

      查《漢語方言大詞典》:「𥦁,tòng ㄊㄨㄥˋ〈動〉穿透;一直通到。閩語。福建廈門[t‘aŋ21] ~過透過 ‖ ~心入心 ‖ 即條路~廈門。」音義與經文合。

      因此不知「⿱穴角」是「𥦁」的異體字?還是訛字?有待進一步查證。

      刪除
  41. 請問 竹口日隻 有加入最新的字型?
    台語聖經 https://imgur.com/a/W8RyJZu

    回覆刪除
    回覆
    1. 您的截圖不夠清晰,我無法辨清筆畫。不過「竹口日隻」不像是有這樣的字,我看起來像是個「籰」字,台灣聖經公會的網站也作「籰」字。可能要麻煩您用放大鏡再把這個字的筆畫看清楚再告訴我,呵呵!

      刪除
    2. https://imgur.com/a/Niv5VuS 可能是竹口口隻

      刪除
    3. 如果是「口」應該不至於糊成這樣,「口」中間應該還有橫筆。我覺得應該就是「籰」字沒錯,字義與經文也合,況且台灣聖經公會的台語聖經就是用這字。

      刪除
    4. 補充一下,《教育部重編國語辭典》:「籰子,用以繞絲、紗、線等的竹製器具。」

      刪除