☆ 2023/10/11 更新,詳情請見 漢字使用環境的建置 —— 部件檢索重要更新暨 Unicode 15.1 全宋體更新。
有不少朋友一直奇怪我為何要花那麼多時間去整理這些「幾乎用不到的」生僻漢字,甚至很多朋友很排斥使用這些「Unicode 官方沒有收錄」的私造字。我一直執著地要清理《異體字字典》的字頭,一個很主要的原因便是這項工作的邊際效益其實很高:
- 可以還原《異體字字典》的圖片字頭,成為純文字的可檢索字頭。這可以大大提昇這些異體字的檢索、利用效率。
- 可以建立起十萬漢字的橫向聯繫關係。一旦圖片字頭還原成可檢索的純文字字頭,利用《異體字字典》的異體表列,便可以將這十萬漢字的橫向關係聯繫起來,有助於字典查詢時的橫向擴展。
- 可以利用可還原的字頭(表示既有字庫有收)來優化既有字庫的字形。目前字庫的字形來源多元,有些質量很差,《異體字字典》的字形質量較高,可以進行替代優化。
- 可以將不可還原的字頭(表示既有字庫沒收)補進字庫,擴增補充字的數量。《異體字字典》的字頭多半來自歷代字書,有完整書證,有了這些補充字,便能更精確地數位化歷代字書、文獻。
要等待 Unicode 官方收錄大量古籍用字,緩不濟急,況且若是沒人整理提交,Unicode 官方也無從收錄起。所以這一年來我大量整理幾本收字量最大的漢字字典,就是希望在最短時間內,吸納這些前人的成果,將它們匯總轉化成可再利用的資源,建立一個方便使用、容易檢索的大型免費漢字平台,方便讓一般大眾、業餘愛好者、學術研究者都能快速地加以利用。
昔日日本的AINet開發了一款商業販售的東亞文字檢索軟體名為「今昔文字鏡」,從 1985 年至 2019 為止,最後的版本收錄文字達十七萬以上(據維基百科的記錄,2018年社長古家時雄病逝,改由石川忠久接手,於次年散會,「今昔文字鏡」正式落幕)。不過它的收字包含了甲骨文、篆體字、楷體字、喃字、水族文字、悉曇文字、西夏文字、變體假名等等,不純粹都是漢字,若是以不重複的純粹漢字而言,應該不到十七萬之數。現下我這個完全免費開放的「全宋體」字庫,漢字的收字規模實際上應該已經超越了「今昔文字鏡」,希望能成為對大家更為有用的漢字平台。
由於國教院提供的《異體字字典》構形數據並不完整,很多無法輸入、顯示的部件都被直接略去,導致大部分的構形數據都是「缺了胳膊,少了腿」(我去函國教院確認,確實如此)。這也印證了為什麼我利用官網的構形檢字來查字,經常會有查不到的情形。為求快速可用,我只能大致先修補一些較嚴重的缺失,然後就硬套入這些帶有瑕疵的拆分數據,先求讓這 18366 個新增字有被檢索的機會(檢索結果可能暫時跟官網一樣會有不正確的情形),之後再慢慢逐字檢查、修正數據,邊用邊改。從十月中到現在,花了兩個月的時間,我獨力檢查、修正了兩千多個新增字的拆分數據,後續尚有一萬六千字待檢,估計要完善全部的新增字拆分數據,起碼還要一年多的時間,只能再一次地發揮「愚公移山」的精神,長期抗戰了。
(國教院提供的構形數據經常「缺了胳膊,少了腿」)
期間有網友問起了台語版聖詩的一個缺字「⿱艹吐」,經過簡兄的指點,我到台灣聖經公會聖經網站找來了「臺客語漢字字型3.1版」作為參考,將它的 123 個外字,扣除 17 個台語注音字符外的 106 字清理一遍,加上「⿱艹吐」計有 75 個缺字,全部以宋體風格重新造字補入字庫,讓字庫也能涵蓋臺、客語的一些特用漢字。特別附上對照表,讓有使用這些字的朋友可以在兩種字庫之間快速地轉換。
值此歲末年終,我先將這「並不完善」的「全宋體」字庫初稿發布出來,讓大家能先行使用,也為今年一年我與 suns99 兄連續挑戰了《漢字海》、《中華字海》、《教育部異體字字典》三部收字最多字典的清理工作做一個 Ending。這一年,幾乎馬不停蹄,總計清理了三大字典的 96175 個字頭,為字庫新增了 54620 字,涵蓋了《漢字海》、《中華字海》所有字頭,以及《教育部異體字字典》的九成字頭(還有一成是手寫字形字頭,尚未處理),成績可謂豐碩。在此也要再次向 suns99 兄致謝,感謝他這一年來沒有二話的義氣相挺,陪著我這個「傻子」衝鋒陷陣,完成了一項項的「不可能任務」,呵呵!
未來一年,我應該會將重點放在繼續完善字庫的拆分數據上,至於尚未處理的 13830 個《異體字字典》手寫字形,雖然我已經做好了工作用的臨時字型,可能還是會暫時予以擱置。畢竟經此一年,我與 suns99 兄已經「兵困馬疲」,就算 suns99 兄還願意再繼續幫忙,若是前債未清後債又疊加上來,我也負荷不了。所以未來一年先以「還債」為主,至於「未竟之功」只好「且看且走」了。
(暫時擱置的《異體字字典》手寫字形)
由於《教育部異體字字典》尚未像《國語辭典》一樣開放授權,我無法將其製作成離線辭典開放給大家使用(會涉及侵權)。折衷的辦法是我捨去所有釋義的內容,只留下字頭,做成一部《教育部異體字索引字典》,方便大家以「部件檢索」檢字之後,利用這個索引字典來查字,查得後點擊字號連結便能自動跳轉至官方頁面(我曾去函向國教院請教,以連結的方式跳轉至官方頁面,應該沒有侵權的問題)。雖然不是最完美,但還是能達到比官網查字更好、更便利的使用體驗,希望這部《教育部異體字索引字典》能幫助大家更方便地利用《教育部異體字字典》這個專業級的漢字資源(《教育部異體字索引字典》將另文發布)。
樂見學術研究、教育工作、個人閱讀這方面的運用,但請勿用做任何形式的商業營利行為。希望「全宋體」這個大型字庫以及「部件檢索」這個檢字工具,能在漢字文化的整理、研究上幫上一點小忙。
下載連結:全宋體.zip
下載連結:部件檢索(測試版).7z
下載連結:倉頡碼表.7z (由於每個人的習慣不同,僅保留漢字部分,請自行併入您慣用的碼表)
下載連結:臺客語漢字外字對照表.7z
最後,將一些整理過程中記錄的工作日誌附在這裡,做為一個回憶與紀念:
- 2021/07/19 將欲清理的 35046 字製成一個臨時性的工作字型檔,並將尚未還原的字頭摘錄出來做成工作檔,每五千字一包,切分成七包,發給 suns99 兄,正式啟動作業。晚上去函國教院,申請《異體字字典》字頭的構形數據。
- 2021/07/20 收到了國教院的罐頭回信,表示收到申請,要等待他們研議後處理。
- 2021/07/30 收到國教院回函,同意提供數據。
- 2021/08/01 第1包核對完成,累計清理五千字。
- 2021/08/13 第2包核對完成,累計清理了一萬字,還原率約四成八。
- 2021/08/24 第3包核對完成,累計清理一萬五千字。
- 2021/09/05 第4包核對完成,累計清理兩萬字。
- 2021/09/17 第5包核對完成,累計清理兩萬五千字。
- 2021/09/29 第6包核對完成,累計清理三萬字。
- 2021/10/04 遲遲未收到國教院的構形數據,再度去函詢問。
- 2021/10/11 第7包核對完成,累計清理三萬五千字。
- 2021/10/15 終於收到國教院的構形數據。回函致謝。
- 2021/10/18 初步完成新增字的字形編碼及部件檢索,還原九成的《異體字字典》字頭。
- 2021/11/12 完成一千多字拆分清理。去函國教院請教數據瑕疵及授權問題。
- 2021/11/20 網友問起台語版聖詩的一個缺字「⿱艹吐」,去信向簡兄請教。
- 2021/11/22 國教院回覆數據瑕疵及授權問題。
- 2021/12/13 完成75個臺、客語特用漢字的造字。
- 2021/12/24 完成兩千多字拆分清理。
p.s. 由於收字量龐大,第 15 字面(FSung-F.ttf)的空間已經完全用罄,因此這一版字型開始啟用第 16 字面(FSung-X.ttf),接續存放補充字字形。
勘誤:
本分隔線以下已更新處理
- 重複,後者註銷(2022/06/07)
- 「」字形修正作「⿱尸丗」。《異體字字典》字形失真,據《四聲篇海》改。(2022/06/06)
- 𦹬重複,後者註銷(2022/06/06)
- 「」字形修正作「⿺辶⿱覀㠯」。《中華字海》、《漢字海》字形訛誤。(2022/06/03)
- 𣗪重複,後者註銷。《異體字字典》字形訛誤。(2022/05/31)
- 𭅃予以認同,後者註銷(2022/05/31)
- 裗重複,後者註銷(2022/05/31)
- 重複,後者註銷(2022/05/27)
- 重複,後者註銷(2022/05/26)
- 重複,後者註銷(2022/05/24)
- 盛重複,後者註銷(2022/05/24)
- 𣧇重複,後者註銷(2022/05/16)
- 重複,後者註銷(2022/05/15)
- 重複,後者註銷(2022/05/14)
- 重複,後者註銷(2022/05/09)
- 「」為《中華字海》、《漢字海》的訛誤字形(據《龍龕手鏡》當作「𥦇」),予以註銷(2022/05/05)
- 𥨟重複,後者註銷(2022/05/05)
- 「㮂」兩字字形互換(2022/05/04)
- 重複,後者註銷(2022/05/03)
- 「」字形修正作「⿰犭⿸」(2022/05/03)
- 重複,後者註銷(2022/05/02)
- 「㣣㣣」兩字字形互換。Unicode 做了調整,全字庫的 CNS 尚未相應更新。(2022/04/24)
- 「」字形修正作「⿰⿱非⿸厂慮力」。(2022/04/29)
- 「华」字形修正作「⿱十」,也就是 U+534E 改依陸標。此字既然古籍、俗體未見,僅做為簡體字,改依大陸字形比較合理。(2022/04/26)
- 华重複,後者註銷(2022/04/26)
- 糭重複,後者註銷(2022/04/26)
- 「」字形修正作「⿰⿱人又」。《異體字字典》字形失真,據《類篇》改。(2022/04/25)
- 「𤯳」字形修正作「⿺㪅生」,也就是 U+24BF3 改依陸標。全字庫的 CNS 台標字形,應誤。《中華大字典》作此訛形,《大漢和辭典》、《中文大辭典》則筆劃曖昧近於訛形,三者均引《字彙》為字源,然《字彙》實作「⿺㪅生」,可能是將「攴」捺筆的起筆裝飾性頓折誤為短撇,變成了「⿱⺊夂」,導致訛誤。(2022/04/24)
- 「𤿖」兩字字形互換。(2022/04/24)
- 𫞹重複,後者註銷(2022/04/23)
- 「」字形修正作「⿱亠⿳回皿」(2022/04/23)
- 𥺠重複,後者註銷(2022/04/21)
- 𬚰重複,後者註銷(2022/04/21)
- 綠重複,後者註銷(2022/04/20)
- 「𧟿」兩字字形互換。U+277FF Unicode 字形失真,此字是依《康熙字典》收字,而《康熙》是引《字彙補》,兩者字形下半俱作「王」,不作「𡈼」。《大漢和辭典》則作「𡈼」。(2022/04/19)
- 「𧡠」兩字字形互換,也就是 U+27860 改依陸標。全字庫的 CNS 台標字形愈改愈糟,嚴重錯誤。(2022/04/19)
- 𤉷重複,後者註銷(2022/04/17)
- 重複,後者註銷(2022/04/17)
- 「𰶫」字形修正作「⿰豕苓」(2022/04/14)
- 重複收錄,後者註銷(2022/04/13)
- 「」字形據〈魏李挺墓誌〉拓本修正作「⿰禾⿱㒵彡」,《廣碑別字》、《中華字海》、《漢字海》字形均失真。(2022/04/13)
- 「」字形據《龍龕手鑑》修正作「⿰⿱㒵彡攵」,《漢語大字典》、《中華字海》、《漢字海》字形均失真。(2022/04/13)
- 「」字形據《龍龕手鑑》略作修整。(2022/04/12)
- 「」字形據《直音篇》修正作「⿱㒵彡」,《中華字海》、《漢字海》字形均失真。(2022/04/12)
- 「」字形據《龍龕手鑑》修正作「⿳少㒵彡」,《漢語大字典》、《漢字海》字形均失真,《中華字海》正確。(2022/04/12)
- 重複,後者註銷(2022/04/12)
- 「」字形據《直音篇》修正作「⿺走⿸厂⿱䒑巿」,《漢語大字典》、《中華字海》、《漢字海》字形均誤。(2022/04/12)
- 「」字形修正作「⿱𠂉𭘧」(2022/04/11)
- 重複,後者註銷,字形依後者(2022/04/11)
- 「」字形修正作「⿱力」(2022/04/11)
- 「𦕥」字形修正作「⿱耳」(2022/04/11)
- 「」字形修正作「⿱⿳一⺌」(2022/04/10)
- 「」字形修正作「⿱艹⿸㇒⿺厶」(2022/04/10)
- 重複收錄,後者註銷(2022/04/10)
- 「」字形修正作「⿰豈」(2022/04/10)
- 重複收錄,後者註銷(2022/04/10)
- 「」字形修正作「⿲忄弓」(2022/04/10)
- 「」字形修正作「⿰女⿱令用」(2022/04/09)
- 「」字形修正作「⿲⺩⿱白万攴」(2022/04/06)
- 「」字形修正作「⿱殻木」(2022/04/06)
本分隔線以下已更新處理
- 「」字形修正作「⿰𦈢𢦙」(2022/04/05)
- 「」字形修正作「⿰⿳正𠃊⿶𠕀厶攴」(2022/04/05)
- 「」字形修正作「⿰牜⿳此夂」(2022/04/05)
- 重複收錄,後者註銷,字形依後者(2022/04/05)
- 重複收錄,後者註銷,字形依後者(2022/04/05)
- 重複收錄,後者註銷(2022/04/05)
- 「」字形修正作「⿰目」(2022/04/04)
- 「」字形修正作「⿱𡔷耳」(2022/04/04)
- 「」字形修正作「⿰⿱炎冋頁」(2022/04/04)
- 「」字形修正作「⿰口𮓜⿱食」(2022/04/04)
- 重複收錄,後者註銷,字形依後者(2022/04/04)
- 重複收錄,後者註銷,字形依後者(2022/04/03)
- 重複收錄,後者註銷(2022/04/03)
- 重複收錄,後者註銷,字形依後者(2022/04/03)
- 重複收錄,後者註銷,字形依後者(2022/04/03)
- 重複收錄,後者註銷,字形依後者(2022/04/03)
- 重複收錄,後者註銷,字形依後者(2022/04/03)
- 重複收錄,後者註銷,字形依後者(2022/04/03)
- 重複收錄,後者註銷(2022/04/03)
- 重複收錄,後者註銷(2022/04/02)
- 重複收錄,後者註銷(2022/04/02)
- 重複收錄,後者註銷,字形依後者(2022/04/02)
- 重複收錄,後者註銷,字形依後者(2022/04/02)
- 重複收錄,後者註銷(2022/04/02)
- 重複收錄,後者註銷(2022/04/02)
- 𫀄重複收錄,後者註銷(2022/04/02)
- 重複收錄,後者註銷(2022/04/02)
- 重複收錄,後者註銷,字形依後者(2022/04/02)
- 重複收錄,後者註銷,字形依後者(2022/04/02)
- 重複收錄,後者註銷,字形依後者(2022/04/02)
- 重複收錄,後者註銷(2022/04/01)
- 重複收錄,後者註銷(2022/04/01)
- 重複收錄,後者註銷(2022/04/01)
- 重複收錄,後者註銷(2022/04/01)
- 重複收錄,後者註銷(2022/04/01)
- 重複收錄,後者註銷(2022/04/01)
- 重複收錄,後者註銷(2022/04/01)
- 重複收錄,後者註銷(2022/04/01)
- 重複收錄,後者註銷(2022/04/01)
- 懔重複收錄,後者註銷(2022/04/01)
- 重複收錄,後者註銷(2022/03/31)
- 𢠢重複收錄,後者註銷(2022/03/31)
- 重複收錄,後者註銷(2022/03/31)
- 𬿲重複收錄,後者註銷(2022/03/31)
- 重複收錄,後者註銷(2022/03/30)
- 重複收錄,後者註銷(2022/03/30)
- 重複收錄,後者註銷(2022/03/30)
- 重複收錄,後者註銷(2022/03/30)
- 重複收錄,後者註銷(2022/03/30)
- 重複收錄,後者註銷(2022/03/30)
- 重複收錄,後者註銷(2022/03/30)
- 重複收錄,後者註銷(2022/03/30)
- 重複收錄,後者註銷(2022/03/29)
- 重複收錄,後者註銷(2022/03/29)
- 重複收錄,後者註銷(2022/03/29)
- 重複收錄,後者註銷(2022/03/29)
- 重複收錄,後者註銷(2022/03/29)
- 重複收錄,後者註銷(2022/03/29)
- 重複收錄,後者註銷(2022/03/26)
- 重複收錄,後者註銷(2022/03/26)
- 重複收錄,後者註銷(2022/03/26)
- 重複收錄,後者註銷,字形依後者(2022/03/26)
- 重複收錄,後者註銷(2022/03/26)
- 𣏹重複收錄,後者註銷(2022/03/26)
- 重複收錄,後者註銷(2022/03/26)
- 重複收錄,後者註銷(2022/03/26)
- 重複收錄,後者註銷(2022/03/23)
- 重複收錄,後者註銷(2022/03/23)
- 重複收錄,後者註銷(2022/03/23)
- 「」為《中華字海》錯誤字形,予以註銷(2022/03/22)
- 重複收錄,後者註銷(2022/03/22)
- 重複收錄,後者註銷(2022/03/22)
- 重複收錄,後者註銷(2022/03/22)
- 重複收錄,後者註銷(2022/03/22)
- 重複收錄,後者註銷(2022/03/22)
- 重複收錄,後者註銷(2022/03/22)
- 重複收錄,後者註銷(2022/03/22)
- 𢟥重複收錄,後者註銷(2022/03/22)
- 重複收錄,後者註銷(2022/03/21)
- 重複收錄,後者註銷(2022/03/21)
- 𢚩重複收錄,後者註銷,字形依後者(2022/03/20)
- 𥥁重複收錄,後者註銷(2022/03/20)
- 重複收錄,後者註銷(2022/03/20)
- 𪫟重複收錄,後者註銷(2022/03/20)
- 志重複收錄,後者註銷,字形依後者(2022/03/20)
- 重複收錄,後者註銷(2022/03/20)
- 𫧇重複收錄,後者註銷(2022/03/19)
- 重複收錄,後者註銷(2022/03/19)
- 重複收錄,後者註銷,字形依後者(2022/03/18)
- 重複收錄,後者註銷,字形依後者(2022/03/18)
- 重複收錄,後者註銷(2022/03/18)
- 重複收錄,後者註銷(2022/03/17)
- 𭾜重複收錄,後者註銷,字形依後者(2022/03/17)
- 复重複收錄,後者註銷(2022/03/17)
- 𣸪重複收錄,後者註銷(2022/03/17)
- 重複收錄,後者註銷(2022/03/16)
- 重複收錄,後者註銷(2022/03/16)
- 重複收錄,後者註銷(2022/03/16)
- 重複收錄,後者註銷(2022/03/16)
- 重複收錄,後者註銷(2022/03/16)
- 𢕊重複收錄,後者註銷(2022/03/16)
- 𭸎重複收錄,後者註銷(2022/02/26)
- 重複收錄,後者註銷(2022/02/19)
- 𬞞重複收錄,後者註銷(2022/02/14)
- 𫴂重複收錄,後者註銷,字形依後者(2022/02/10)
- 重複收錄,後者註銷(2022/02/01)
- 彩重複收錄,後者註銷(2022/02/01)
- 重複收錄,後者註銷(2022/02/01)
- 「」字形修正作「⿱彐⿰米系」(2022/02/01)
- 𢑴重複收錄,後者註銷(2022/02/01)
- 重複收錄,後者註銷(2022/02/01)
- 重複收錄,後者註銷(2022/02/01)
- 重複收錄,後者註銷,字形依後者(2022/01/31)
- 重複收錄,後者註銷,字形依前者(2022/01/31)
- 重複收錄,後者註銷(2022/01/31)
- 重複收錄,後者註銷,字形依後者(2022/01/31)
- 重複收錄,後者註銷,字形依後者(2022/01/31)
- 重複收錄,後者註銷,字形依後者(2022/01/31)
- 重複收錄,後者註銷,字形依前者(2022/01/30)
- 重複收錄,後者註銷,字形依後者(2022/01/29)
- 重複收錄,後者註銷(2022/01/28)
- 重複收錄,後者註銷(2022/01/28)
- 重複收錄,後者註銷(2022/01/28)
- 𤎉重複收錄,後者註銷(2022/01/25)
- 重複收錄,後者註銷(2022/01/25)
- 重複收錄,後者註銷(2022/01/25)
- 重複收錄,後者註銷(2022/01/25)
- 重複收錄,後者註銷(2022/01/25)
- 重複收錄,後者註銷(2022/01/24)
- 重複收錄,後者註銷,字形依後者(2022/01/24)
- 𰆨重複收錄,後者註銷(2022/01/22)
- 重複收錄,後者註銷(2022/01/22)
- 重複收錄,後者註銷(2022/01/22)
- 重複收錄,後者註銷(2022/01/21)
- 重複收錄,後者註銷(2022/01/20)
- 𮞔重複收錄,後二者註銷(2022/01/20)
- 重複收錄,後者註銷(2022/01/20)
- 重複收錄,後者註銷(2022/01/20)
- 重複收錄,後者註銷,字形依後者(2022/01/20)
- 重複收錄,後者註銷(2022/01/20)
- 重複收錄,後者註銷(2022/01/20)
- 重複收錄,後者註銷(2022/01/19)
- 重複收錄,後者註銷(2022/01/19)
- 𮎨重複收錄,後者註銷(2022/01/18)
- 重複收錄,後者註銷(2022/01/17)
- 𢀌重複收錄,後者註銷(2022/01/17)
- 重複收錄,後者註銷(2022/01/17)
- 「」字形修正作「⿱田⿲丿山巳」(2022/01/17)
- 𡹝重複收錄,後者註銷(2022/01/16)
- 重複收錄,後者註銷(2022/01/16)
- 重複收錄,後者註銷(2022/01/16)
- 重複收錄,後者註銷(2022/01/16)
- 重複收錄,後者註銷(2022/01/11)
- 重複收錄,後者註銷(2022/01/10)
- 重複收錄,後者註銷(2022/01/10)
- 重複收錄,後者註銷,字形依後者(2022/01/10)
- 𱀓重複收錄,後者註銷(2022/01/10)
- 重複收錄,後者註銷(2022/01/10)
- 重複收錄,後者註銷,字形依後者(2022/01/10)
- 重複收錄,後者註銷(2022/01/10)
- 重複收錄,後者註銷,字形依後者(2022/01/09)
- 重複收錄,後者註銷(2022/01/09)
- 重複收錄,後者註銷(2022/01/09)
- 重複收錄,後者註銷(2022/01/09)
- 𪨦重複收錄,後者註銷(2022/01/09)
- 重複收錄,後者註銷,字形依後者(2022/01/09)
- 重複收錄,後者註銷(2022/01/09)
- 重複收錄,後者註銷(2022/01/07)
- 重複收錄,後者註銷(2022/01/07)
- 重複收錄,後者註銷(2022/01/07)
- 重複收錄,後者註銷(2022/01/07)
- 重複收錄,後者註銷(2022/01/06)
- 重複收錄,後者註銷(2022/01/06)
- 重複收錄,後者註銷(2022/01/06)
- 重複收錄,後者註銷(2022/01/06)
- 重複收錄,後者註銷(2022/01/06)
- 重複收錄,後者註銷(2022/01/06)
- 𰍾重複收錄,後者註銷(2022/01/06)
- 重複收錄,後者註銷(2022/01/06)
- 重複收錄,後者註銷(2022/01/06)
- 𩴁重複收錄,後者註銷(2022/01/06)
- 尲重複收錄,後者註銷(2022/01/06)
- 重複收錄,後者註銷(2022/01/06)
- 重複收錄,後者註銷(2022/01/06)
- 𭕐重複收錄,後者註銷(2022/01/06)
- 重複收錄,後者註銷(2022/01/06)
- 重複收錄,後者註銷(2022/01/06)
- 𢒫重複收錄,後者註銷(2022/01/05)
- 重複收錄,後者註銷(2022/01/05)
- 重複收錄,後者註銷(2022/01/05)
- 重複收錄,後者註銷(2022/01/05)
- 重複收錄,後者註銷(2022/01/04)
- 𤥯重複收錄,後者註銷(2022/01/04)
- 重複收錄,後者註銷,字形依後者(2022/01/04)
- 重複收錄,後者註銷(2022/01/04)
- 重複收錄,後者註銷(2022/01/04)
- 重複收錄,後者註銷(2022/01/04)
- 重複收錄,後者註銷(2022/01/04)
- 重複收錄,後者註銷(2022/01/04)
- 𰩐重複收錄,後者註銷(2022/01/03)
- 𥨤重複收錄,後者註銷(2022/01/03)
- 重複收錄,後者註銷(2022/01/03)
- 重複收錄,後者註銷(2022/01/03)
- 重複收錄,後者註銷(2022/01/03)
- 重複收錄,後者註銷(2022/01/03)
- 重複收錄,後者註銷(2022/01/03)
- 重複收錄,後者註銷(2022/01/03)
- 重複收錄,後者註銷(2022/01/03)
- 重複收錄,後者註銷(2022/01/03)
- 重複收錄,後者註銷(2022/01/03)
- 重複收錄,後者註銷(2022/01/03)
- 重複收錄,後者註銷(2022/01/02)
- 重複收錄,後者註銷(2022/01/02)
- 重複收錄,後者註銷(2022/01/02)
- 重複收錄,後者註銷(2022/01/02)
- 重複收錄,後者註銷(2022/01/02)
- 重複收錄,後者註銷(2022/01/02)
- 重複收錄,後者註銷(2022/01/02)
- 重複收錄,後者註銷(2022/01/02)
- 重複收錄,後者註銷(2022/01/02)
- 重複收錄,後者註銷(2022/01/02)
- 重複收錄,後者註銷(2022/01/02)
- 重複收錄,後者註銷(2022/01/02)
- 重複收錄,後者註銷(2022/01/02)
- 重複收錄,後者註銷(2022/01/01)
- 重複收錄,後者註銷,字形依後者(2022/01/01)
- 重複收錄,後者註銷(2022/01/01)
- 重複收錄,後者註銷(2022/01/01)
- 𥥘重複收錄,後者註銷(2022/01/01)
- 𡪌重複收錄,後者註銷(2022/01/01)
- 𥤲重複收錄,後者註銷(2022/01/01)
- 𥨅重複收錄,後者註銷(2022/01/01)
- 重複收錄,後者註銷(2022/01/01)
- 𡨒重複收錄,後者註銷(2022/01/01)
- 重複收錄,後者註銷(2022/01/01)
- 重複收錄,後者註銷(2022/01/01)
- 重複收錄,後者註銷(2022/01/01)
我是一位先天盲視障者,目前正在研究漢字,好希望有個適合盲人操作的頁面?讓視障者也可研究中文字形!謝謝!
回覆刪除您好!很抱歉,我對於適合視障朋友的操作方式完全沒有概念。您可以說說您心目中的操作頁面是什麼樣子嗎?或是聊聊您平常是怎麼進行學習的?您是如何閱讀我的發文,又是如何寫下這則留言的?或許透過這些敘述,能讓我多了解一些。即使我沒能力幫忙,或許會有剛好具備這類經驗的網友看見,說不定有人可以幫忙。
刪除
回覆刪除求教,我下载在链接里面下载了仓颉的码表,并且安装了全宋体字体,当用全宋体—F字体的时候,是显示字最多的,但是依然还是有个别字无法显示出来,请问这个是字体还没有完善还是我设置有问题呢?感谢!
您好!您能具體說明一下是哪些字無法顯示出來嗎?最好有實際的截圖,這樣比較能幫忙判定問題。
刪除C码的第6个和U码的第五个,显示是一个小黑块,还有其它4-5码的,有几十个显示是的两个问号。该论坛好像是无法上传图片。
刪除真抱歉!我實在猜不出來您說的「C碼」、「U碼」是什麼?聽您的描述,似乎不像是字型安裝的問題,比較像是個別軟件的顯示問題,您是在什麼軟件裏顯示這些字?
刪除這裡的留言沒辦法直接貼圖,您能傳到別的圖床再把連結貼到這裡嗎?
不好意思,是字体安装的问题,有一个人把您的字体改了下,说里面有问题,现把改过的字体连接放到这里:https://drive.google.com/file/d/1yobqT027lTL5DTEEIf_RPV0A2zyEwj_4/view?usp=sharing。另外,我发现博客下载的仓颉码表里面有的拆分好像是有问题的,比如“id”出来应该是术,而“ijc”出来的应该是朮,但是目前码表里面“id”出来的有术和朮,这个拆分感觉不是很合理啊。
回覆刪除很抱歉!我不知道這位仁兄改動了些什麼,所以無法幫您解決問題。如果用我原始的版本會有問題嗎?
刪除目前是没有什么问题的,对于字体库我也不懂,以后有问题,再另行请教。
刪除这是修改您的字体的仁兄的转录:“我改了全宋体调和的字体库名,同时删了全宋体等宽的字体库,因为这个字体库有问题。其次,我用脚本改写安装字体,以替换他的批处理。”
刪除等寬字型跟調和字型的差異只在於西文符號的寬度,一個是固定等寬,一個是隨字符而變。我不理解他為何說等寬字型有問題,具體又是什麼問題呢?
刪除这个我不甚了解,可以他自己的要求不同吧。
刪除另外,仓颉码表里面,还有一些目前看到的错误,截图一并附上链接:https://drive.google.com/file/d/1SMgsZhlV4kOAaMT66-bNYyFtI-S1mY6x/view?usp=sharing
回覆刪除倉頡其實我不懂,明日我再將您的問題問問 suns99 兄,看是不是有誤。
刪除suns99 兄的倉頡表,有些字會增加一些比較寬容的拆字組合,所以或許會有些您認為不合理的拆字,每個人的拆法不同,您可以直接刪除即可。qkmkp[ 為手誤,更正為 qkmkp 。
刪除好的,非常感谢回复。
刪除https://twblg.dict.edu.tw/holodict_new/index.html
回覆刪除「發穎」([⿱艹吐]芛)
收到。
刪除Windows11下面G区的汉字显示不出来。
回覆刪除很抱歉!我手邊的電腦都太老了,都無法升級到 Windows 11,所以暫時沒辦法測試這個環境的情況。可能要麻煩有 Windows 11 的朋友多幫忙測試一下,看是否都會遇到相同問題。
刪除我对字体这方面不是很了解,原来我安装那个开珩全字库也是,在win10上,G区汉字是可以显示的(比如biáng字,𰻝),但是到win11上就显示不了,我自己也不清楚这是什么原因。
刪除不好意思,打错字了,是天珩全字库。
刪除另,该仓颉码表里面的辅助字根要比常见码表详尽很多,但是在使用当中也发现仓颉码表里面有的辅助字根是没有,希望suns99兄可以完善一下,方便有的拆分字体的输入,例如“斗”字,左上角的两点没有在码表中找到。非常感谢!!!
回覆刪除這份碼表僅是做為「全宋體」的一個附件用途,由於每個人的習慣不同,所以僅保留正常漢字部分,實用上還請自行加入您慣用的輔助字根。
刪除WFG‥
回覆刪除原《部件檢索》,內設開啟頁面,為「限標準字、鍵盤展開」——
要改哪裡,才能內設開啟頁面,為「不限標準字、鍵盤收起」?
(用「倉頡輸入法」的人,不太需要用到「類聚鍵盤」也!)
蓋本人都用「隱私視窗」(無痕視窗)開啟使用,所以頁面無「記憶」,每次開啟,都得重設。
之所以用「無痕視窗」,因時常會開很多頁面,這樣就不會有瀏覽記錄——
關了網頁,也就「船過水無痕」啦!(需要登入的,才不用無痕視窗。)
* * * *
今天一早起來,將早先的「構想」,給付諸行動——
把「部件檢索」,修改為《倉頡碼檢索》與《漢文注音檢索》——
一個輸入倉頡碼,即可檢索字。(將「類聚鍵盤」,修改為倉碼碼。)
一個輸入注音、拼音,即可檢索字。(將「類聚鍵盤」,修改為注音、拼音,方便輸入,即可檢索有注音的漢字——台客國語皆可。)
呵呵!真的可行也!
(所以‥其它任何輸入法,其實都可以自行修改。)
改天,搞好一點,再寄給你,修改美觀、實用一點。
(遇到編寫程式,也就沒轍啦!)
還有一個構想是‥利用「部首、筆畫」檢索!譬如‥
按一下木部,會檢出所有木字的字。
按一下木部、外畫三畫,即檢出所有木部外畫三畫的字。
按一下木部、總畫十畫,即檢出所有木部總畫十畫的字。
你有空的話,就研究研究吧!
蓋「部件檢索」,拆分字,真是拆分得頭昏腦脹——
有的字,真的是很難「拆」呀!
用「部首、筆畫」檢索,反而便利。
未來,這《部件檢索》,要改為《多功能漢字檢系統》——
才能方便快速地,在十七萬字中暢遊——
想要找哪個字,都能「信手拈來、手到擒來」。
兄修改 492 行及 536 行的 GetCookie() 括號裡面的數字(1改0,)即可。
刪除阿文兄改改「部件檢索」,玩玩無妨,真要較真,十七萬字得要標上注音、拼音、部首、筆畫等等資訊才行。況且兄是倉頡高手,直接用倉頡打出來是最快的,根本輪不到「部件檢索」出場啊,呵呵!
當初「剎那字引」是有加入筆畫檢字的,可是我做「部件檢索」時,幾經考慮後卻放棄了,原因無他,因為我覺得對使用者而言並不友善。我自認從小是個「好學生」,呵呵!部首啦、筆順啦、筆畫啦也算是學得不錯,但很多字要正確算出筆畫還是有困難(各地區的定義也不一樣),可想見其他人一定也有困難,況且檢個字還要一筆一筆算筆畫(算還算不清),太麻煩也太慢了。對部首的認定,每本字典的分類也可能不同,要使用者猜出「正確的」部首,也真是強人所難。所以利用「部首、筆畫」檢索,不是我沒想過,而是經過考慮後才決定放棄。
WFG‥
回覆刪除《手寫字形》,目前進度,已輸入五千個「倉頡碼」。
新版的《部件檢索》,使用查詢,其反應速度,變得很慢,不知是啥問題?
(前一版的,雖然慢了些,但還算可以接受。)
回去找最初的《部件檢索(完拆比對)》來用——
哇勢……在「即時查詢」的狀態下,速度真的是飛快呀!
實在不禁要問‥怎麼新版的,就不行了呢?
或許你當試試看,把「資料檔」的部分另存,用呼叫的方式帶入,如檔案‥
decompose_完拆.js 1,710 KB
部件檢索(完拆比對).htm 4 KB
《部件檢索(完拆比對)》網頁檔,僅有4 KB,
今之《部件檢索》(含資料),有 3,046 KB,
連用“EmEditor”開啟,都不是很暢快哩!(電腦8GB記憶體。)
前一版的(155070字, 2,687 KB),開啟就很暢快。
資料檔外帶,修改資料時,是比較方便的呀!
今天,想了個法子,寫了個「上下分割」的網頁,將《部件檢索》與《倉頡碼檢索》,給放在同一視窗中——呵呵!真是超級便利呀!
就算不會倉頡輸入法的,只要將「倉頡碼」給「複製~貼上」,也就能很快地,查看有無字啦!
* * * *
若你工作累了,想換個「姿勢」的話——需要你幫忙,將《倉頡碼檢索》,改成「資料檔外帶」的形式(一筆一行),以後整修,會比較方便。(如附錄。)
中間用「taB」隔開。
再者,同一字,不同的倉頡碼,是否能放在一起,中間用「;」號隔開?
可以的話,就不用列那麼多行。
以後要編「注音、拼音檢索」,也就可以將同音的注音、拼音,擺在一起——方便對照。
注音與拼音,可以檢索國台客語字,反向查詢其讀音。
蓋台客語用字很「多樣」——未知「正字」者,每每會以「同音字」替代,
用注音、拼音查詢出同音字,再去判斷,用哪個字才正確、才適合。
阿文
■附錄
一 M
乙 NU
丁 MN
七 JU;p
乂 K
乃 NHS
乜 PN
九 KN
�� hmvi;hmvk;hmvo;hmvp;hmvq;hqi;hqj;hqk;hqo
人 ㄖㄣˊ
人 ㆢㄧㄣˊ;jin5
人 ㄌㄧㄣˊ;lin5
人 ㄌㄤˊ;lang5
人 ㄌㄤ˙;lang0
◇附圖片
https://www.facebook.com/groups/978821105480673/posts/5348597165169690/
阿文兄,您想想,檢索七萬字跟十七萬字,速度會一樣嗎?呵呵!資料檔另存,方便的是我這個編修者,對使用者而言反而是個麻煩,多一個「拖油瓶」,還要擔心版本有沒有弄混,所以我「刻意」將所有東西都收在一個 html 裡,連 css 也不分檔出來,就是站在使用者的角度思考,讓他們能有最簡單的使用體驗。
刪除EmEditor 的開啟速度跟是否「按視窗換行」有很大關係,如果不換行,即使開啟很大的檔案也幾乎是瞬開(但是開始長行橫向捲動時還是會頓,事情就是這麼多,不過是朝三暮四、朝四暮三的差別),反之,速度會慢上幾十倍。
WFG‥
回覆刪除使用者嘛!快速方便第一,一般人,哪會去理會「幕後」的……苦辛呢?
下載《部件檢索》解壓縮,就是個「資料夾」,沒另存的話,就會教人「選擇」是否覆蓋——都是在一個資料夾裡。(大概也沒幾個,會像阿文,會喜歡保留「舊版本」的。)
一般使用者,也不會去管那個資料檔啦!
到網上搜尋引用《部件檢索》者‥好市得、漢典……
使用起來,都是「頓頓」的,果真要使用「即時查詢」,那更是「自苦討吃」。
這十七萬字版的,輸入部件,按下「Enter」之,可以數個七、八、九秒,才會顯示查詢結果。(阿文以為是自己電腦的關係,還去朋友那裡,用較新的電腦、較大記憶體的,去試試看……也快不了多少,使用起來,就是會有「延遲感」,慢了好幾拍。)
阿文是不懂得,其中的「運作原理」啦!
只是想‥一個網頁裡,基本就十七萬三、四千字……
每次查詢,等於重新刷新頁面——十七萬多字,重新刷一次,不慢也得慢。
若是資料檔「外帶」的話,程式是跑到資料檔裡去,找到符合的,才叫出來,顯示在頁面——感覺這樣子,應該會比較順暢吧?
阿文每言‥「動動腦,萬事好;不動腦,費手腳。」
凡事「不會死人」的話——何妨嘗「嘗試」一下呢?
或許會更好呀——就算沒有更好,也只是浪費一些時間,換取一些「行不通、不成功的經驗」罷啦!
果真當使用者是「傻瓜」(只會使用傻瓜相機)的話,就用一個「單一網頁版」的;另一個,則是資料檔外帶的「專業版」好啦!
* * * *
《手寫字形》,輸入倉頡碼,已八千筆。
另外,今天,想法設法,將十七萬字的「倉頡碼」與「拆分碼」,整合為一,置於Excel中,一字一列,如是,可以利用倉頡、拆分來「排序」,查看字形是否重複,也可用「過濾」去查看——更便利大批新增字之拆分輸入作業。
改天,檢查無誤後,再寄給你——在Excel中整修,很方便的啦!
阿文
如何判斷「@」有理拆分、「!」無理拆分?
序 倉頡碼 字 拆分
94 c;ih 丷 !丶㇒
95 kni 丸 !九丶
96 by;bim 丹 @冂亠@丶!一
97 iksi 为 !𬼀𠃌丶!丶力丶
98 yg 主 @丶!丶王!亠土
99 tti 丼 @井丶
100 mbmbi;mmbib 丽 @
101 fcq 举 @兴𰀁
※保留@!,方便複製到“EmEditor”中,取代為所需形式。
"丹@丶!一",
簡單說,不是把資料拆開不在同一個網頁裡速度就會變快,如果是這樣我早把它拆成100個檔案,豈不會快100倍?阿文兄這是「鴕鳥」式的思考,凡是看不見的就不存在,呵呵!
刪除要處理的資料就是那麼多,不管你拆成多少個檔案,運算就是要花那麼多的時間,這是「袜走閃ㄟ」,不會因為把資料拆出去就會變快,天下沒有那麼「好康的代誌」。我自己使用的開發測試版本,一直就是拆開來的,從來沒有變快過,呵呵!
阿文兄的體驗也太慢了吧,我之前用了十多年的老電腦應該也沒那麼慢。這反應速度跟瀏覽器有很大關係,我用目前的很低階的電腦測試了一下(勾選包容異體與無理拆分),用 IE 跑反應最慢,一個查詢約 5.7 秒;Firefox 約 4 秒;Edge 約 3 秒;Chrome 約 2.6 秒。也就是說快與慢會差到一倍的速度。
「部件檢索」的程式我幾乎已經最佳化到極致了,也就是說要再更快,網頁版大概不太可能了,除非用 C/C++ 改寫成原生的桌機版本程式,或許能再快上一些。
有理拆分、無理拆分,我在以前的發文裡提過,目前僅是把這個概念實踐出來,不保證我目前的區分是正確的。如何判定有理與無理,這需要有精通字理的專家,根據字學研究的成果來認定,我不具備如此的學養,只是把架構先做出來,期待有一天能有專家幫忙完善。
當程式無法再最佳化時,就要回頭考慮資料結構。八萬字的複合部件檢索可以做到亞秒級的。參考看看 https://hanziku.github.io/hanziyin/index.html 。
刪除久聞葉兄大名,始終未有機會當面請益,頗有遺憾。不想葉兄今日留言,正好前幾日阿良兄即給了葉兄新作的網址,我稍微玩了一下,由於不了解您的運作邏輯,有很多疑問,藉機請教。
刪除例如我輸入「日月」,只能檢得3字。根據說明,反序會有不同結果,故我再輸入「月日」,也僅能再檢得8字。根據我的檢字,若剔除私造字,同時包含「日月」部件的漢字至少超過百字,何以會有如此大的差距?是否我使用的方式不對?
葉兄謂「八萬字的複合部件檢索可以做到亞秒級的」,這我極有興趣,若真能實現,對中文檢字幫助極大。由於不了解您的檢字方法,我還抓不到方向,兄可否略述您的實踐邏輯,我才能思考如何改進資料結構,希望兄有以教我。
因為目前不做遞迴檢索。就是用「日」是檢不出以「明」為構件的字。
刪除我主要是考慮手機用戶不必輸入任何部件(用選筆劃的方式),輸出結果越少越好。
像「口」「木」這樣的部件,如果允許遞迴的話,會找到成千上萬個字。
實作的細節在 https://github.com/hanziku/hanziyin/blob/main/implementation.md 。
另外,我初步完成 漢字拼形 https://github.io/hanziku/hzpx/index.html ,這是基於 Kage 和 Glyphwiki 的動態組字。
目前我遇到的麻煩是 CHISE 和 GlyphWiki 的拆分結構並不一致,我也沒有精力去考證那個較為正確。
目前八萬字的向量字庫最多只能壓到 4.2MB,如果能將「檢字用的拆分結構」和「繪字結構」統一的話,我計算的理論值是全CJK字集是 2.5MB~3MB之間(八萬字加以八萬字為基礎的所有組字)。
我剛看你的檢字軟體(3MB的HTML) 已收了 17萬字的拆分,好傢伙,比CHISE多了近十萬字!!!這背後付出的的汗水和辛勞,能深刻體會的人不多呀。
我可以用gmail 回嗎?因為這裡編輯不太方便,也不太習慣。
嗯,若不做遞迴確實可以很快,不過檢字的結果可能就不符使用者的期待,這是難處。
刪除Kage 我也曾經玩過一陣子,後來玩不出什麼有用的實作就沒再繼續。
我的字庫已經突破十八萬漢字,正在做收尾的整理,近日應該就會發布更新。一路走來確實辛苦,不過有幾位志同道合的好友傾力襄助,倒也不孤單。
這裡的編輯確實很難用,歡迎用 Gmail 聯繫,有您可以相互討論的話,應該可以激盪出更多想法。Blogger 沒有悄悄話功能,為保護您的個資,您可以將 e-mail 留言,然後立刻刪除,我仍會收到通知,就可以與您通信聯繫。
看了一下葉兄的說明,我終於比較了解了。我倆最大的差別在於「孳乳表」的應用,「孳乳表」可以大幅加快檢字速度,但代價就是要佔用大量空間,而且必須先用程式構建出來,拆分數據一有更動,「孳乳表」就必須重新建立。
刪除這又是個兩難的取捨:我沒有使用「孳乳表」,所以檢字速度較慢,但佔用空間較小,拆分數據可隨時修改,容易維護。若改用「孳乳表」,檢字速度可以加快,但以十八萬漢字來建「孳乳表」,佔用空間恐怕很驚人,拆分數據的維護也變得不容易。
我得仔細思考思考。
WFG‥
回覆刪除先擱下整編《臺語詞海》,卯起勁來,整編《手寫字形》的倉頡碼,現已完成「一二五〇字」。
《部件檢索》(模糊),加上《倉頡碼檢索》(精確),對於阿文整編《手寫字形》(新增字)而言,可真是「相輔相成」,便利無比。
啊可惜就是《部件檢索》,反應慢好幾拍……真的只能耐著性子使用!
今日搜著利用《部件檢索》而改的《字嗨漢字部件檢索》,見其「說明」‥
「將十萬字的資料庫,切成100份,每50毫秒搜尋1000字,
讓整個搜尋拉到最5秒完成,
比起原先在我的電腦上,大約3秒比起來,是慢了點,但換來的好處很多。
首先當觸發新的查詢時,舊的查詢,會即時結束,
過時的查詢,不再拖延使用效能。
…………」
程式運作的原理,阿文是一點也不懂啦!只是想‥
若將東西,全混在一個抽屜裡,要找就挺累的!
若一個抽屜裡,還有分格,能將東西,稍加分類,要找東西,當是容易些。
若用二個抽屜,乃至十個抽屜,將東西分類擺放,外頭標籤,要找也容易——
倘若未分類,只是隨便裝進十個抽屜裡,那可就跟全混在一個抽屜裡,沒啥兩樣,乃至開關抽屜,更加費時。
想起DOS、倚天、PE2的時代……
倚天中文,有《片語輸入法、詞庫輸入法》,真是超級便利好用!
《詞庫輸入法》,以「Ctrl+ space」 開啟,輸入一個詞之後,自動跳回之前輸入法(如倉頡輸入法),使用倉頡輸入法的人,可以自行編輯詞庫,至多打五個碼,即可輸入二字詞、三字詞、成語,乃至十個字一句,譬如‥
MMMHF 一石二鳥
NNNON 阿彌陀佛
THKTM 觀自在菩薩
還可以分成好幾個檔。(資料檔最後一行,有個連結下一個檔案的程式碼。)
用倉頡輸入法的人,要打成語,就切換為《詞庫輸入法》,打五個碼,即輸入四個字,然後,自動跳回倉頡輸入法——完全可以「盲打」。
阿文就分門別類的,做了好幾個檔‥成語、詩詞、佛學名相……
可奈何,進入「Windows」時代,記得倚天所用的倉頡、注音等輸入法,是被「Windows」給「繼承」了——但《片語輸入法、詞庫輸入法》,並沒有被延續下來。
因為「注音輸入」麻煩,阿文還搞了一套「用倉頡碼」打注音——
mk(天) ㄊㄧㄢ
my(下) ㄒㄧㄚˋ
otf(無) ㄨˊ
toog(難) ㄋㄢˊ
jlln(事) ㄕˋ
阿文還整編了,當時Big5字集的《注音檢索》——
後來,因緣際會,免費給了 WD2(pe2的中文版)公司。
(那個還在用五吋、三.五吋軟碟片的時代。)
呵呵!原來,阿文老早就在「當傻瓜」啦!
* * * *
《倉頡碼檢索》,有個狀況,想麻煩你,看看是否能改善?
一、以字檢索結果倉頡、注音、拼音後的結果,
能否有「點擊複製」的功能?(如檢索出來的字。)
二、能否分開每個倉頡碼或讀音?以便於「點擊複製」?
如:hmvi;hmvk;hmvo;hmvp;hmvq;hqi;hqj;hqk;hqo
變成:hmvi hmvk hmvo hmvp hmvq hqi hqj hqk hqo
ㄖㄣˊ ㆢㄧㄣˊ;jin5 ㄌㄧㄣˊ;lin5 ㄌㄤˊ;lang5
ㄌㄤ˙;lang0
ㄖㄣˊ ㆢㄧㄣˊ jin5 ㄌㄧㄣˊ lin5 ㄌㄤˊ lang5
ㄌㄤ˙ lang0
如此,可以「點擊複製」後,可貼到查尋框,方便尋找其它同碼字、同音字。
能做到,那就很方便啦!
若不能做到,也只好將就囉!
阿文
※附圖
https://www.facebook.com/groups/978821105480673/posts/5363297397033000/
◇字嗨 漢字部件檢索
https://zi-hi.com/sp/uni/CJKSeeker
◇漢字部件檢索修改說明
https://github.com/ButTaiwan/hanseeker
現已完成「一二五〇〇字」。
刪除「字嗨」的版主曾留言跟我打過招呼,我也針對他的改寫給過回應。他的構想很好,將查詢拆分用多個執行緒來執行,增強了使用者的互動感受,但也因此有了一個「致命傷」,那就是「精確命中」不再能保證列出。「精確命中」保證列出是我設計「部件檢索」的一項重要精神,是不可被犧牲的功能,因為如此使用者才能確認要查詢的字在字庫中是否收錄,而不是「運氣不好」沒有被列出。沒了這項功能,我認為「部件檢索」基本上只是個很炫的玩具,查字全憑運氣,已不具備真正的實用價值。
刪除阿文兄說的片語輸入、詞庫輸入,我跟您提的「倉頡平台2012」都能達成,而且不須切換,suns99 兄便都是這樣使用。只要自己編好碼表,要輸入什麼片語、詞庫都可以自訂。
WFG‥
回覆刪除「倚天中文」的輸入法,是內定的,也不是一般人,可以去編輯,故有可以自定的《片語輸入法、詞庫輸入法》,做為輔助。
windows,有「自定輸入法編緝器」,故能增修自定輸入法——
大概因此故,所以沒再保留《片語輸入法、詞庫輸入法》。
(win7,居然就沒了,但能用WinXP的。
所以‥有能力寫程式的,紛紛寫自定輸入法的程式。)
《片語輸入》,是利用二十六個英文字母鍵,可以隨時設定,比如寫小說的,一直要打「阿甘說:」,就可以將按鍵「a」,設為「阿甘說:」——
好像是按「Shift+space」後,再按「a」鍵,也就能輸入「阿甘說:」,
輸入後,自動跳回原輸入法——等於是按「三個鍵」,即可輸入片語。
(阿文是用《片語輸入》,設定鍵盤上,打不出的標點符號,如‥「」『』《》……——等。)
使用《倉頡輸入法》,好處是‥
一、只用到二十六個鍵。
二、以字形取碼——不會讀音,也能輸入。
三、最多輸入五碼。(不限單字,也可設定詞、成語,乃至一長串句子。)
四、候選字率低。
出現候選字,除非常用,不然,就得「用眼睛」去看、去選啦!
《詞庫輸入法》所設定的碼與字詞句子,只要加入《倉頡碼》裡,一樣也能用。
《詞庫輸入法》的好處就是‥有用到時,才去開啟!
譬如‥冬天到了,要穿的衣服,就掛到衣樹裡,容易取放;夏天的衣物,暫時不用,就收到抽屜裡,久久不用再去動到。
想當年的Big字集,還得分「常用字、次常用字」的區塊呀!無非是擔心載入太多,記憶體不堪負荷,處理不來。
誰又料到‥電腦科技,飛速前進,unicode 字集,漢字越造越多?還得一直增加區域——還不知何時才能了結哩!
* * * *
《手寫字形》,已完成倉頡碼,也作了初步的比對。
接下來的日子,得逐字去檢查、拆分……
急也急不得,還是「別太認真」,要不然,會累死!
* * * *
收到修改後的《倉頡碼檢索》,效果很好,用「即時查詢」,也沒問題。
將《倉頡碼檢索》,改為《漢文檢索》——
輸入漢字、倉頡碼、國台語客注音、拼音檢索。
日前,也已整編好了「國語、台語、客語(待完善)注音、拼音」的資料檔。
問題是‥
一、可以共用一個檢索頁面嗎?(將四個分類的資料檔,互相連結。)
二、注音(方音符號)、拼音、調符,須要「輔助鍵盤」。
三、檢索結果,為區分「倉頡碼、國語、台語、客語注音拼音」,
大概要依資料檔的檢索結果,分類顯示。
(簡單的另行起,或加"hr"區隔線。)
四、輔助鍵盤的字,宜設為「標楷體」——
「注音調符」,才不會變「半型」的,好看些!
五、「較大字形」,開啟可內設為「關閉」——網頁用滑鼠滾輪,即可放大縮小。
阿文想得太多,不會寫程式,終究有心無力。
有勞王兄費心了!
每當有網友問及‥「你的台語注音,是怎麼輸入的?」
阿文都得問他‥「你真的有心要玩嗎?真的有心,我再跟你說!」
得以完成這個《漢文檢索》,也算得上是一件利器啦!
※資料檔:
倉頡:decompose.js (原檔,為省kb,上傳快些,未附。)
國語:decompose-1.js
台語:decompose-2.js
客語:decompose-3.js
※輔助鍵盤參考:Ey.htm
昔日,為了輸入台語注音,模仿《教育部新編國語辭典》的注音輸入做的。
想當年,一鍵一符、一字、一詞地,初步整編了《臺語字詞海》……
還真的不得不佩服,自己的「毅力」呀!
後來,用〈彰化一整天〉的「 Exce批次轉換」,輸入拼音,再轉為注音。
如今,用「烏衣行」的「漢字轉閩南語拼音」,
再用“EmEditor”,的「批次取代」功能,轉為台語注音,也就更加便利啦!
阿文
※漢文檢索.7z
http://nas.taigubun.org:8080/share.cgi?ssid=0jnczux
如果不做分類的話,直接把四種數據合併是最快的。
刪除WFG:
回覆刪除打拚了一天,《手寫字形》,逐步整編七百五十字。
眼睛實在受不了,只好休息啦!(就說不要太認真,可是一旦投入,就沒完沒了。)
以一天五百字的話,「一三八二七字」……好吧!預計一個,可以完成。
由於新版《部件檢索》,使用起來,慢到實在很想放棄——
後來,想說利用《倉頡碼檢索》,來改個「精確檢索」的——
至少只要「拆對了」,就能找到字。(少了不對的,速度應該會加快吧!)
但嘗試之後,卻沒能成功——也不知問題出在哪裡? 這下也沒轍啦!
"不:一𡭔;丆卜",
"丑:彐丨;十;一",
"丒:刃一",
"专:丶",
"且:𠀇一;𠀃二;一",
"丕:不一",
"丘:𠂆丅一;𠀉丨",
一般倉頡碼的資料檔,是以「TAB」做區隔,比如‥
a 日
a 曰
a 𫩏
其實,也可以這麼編‥
a 日 曰 𫩏 ←中間空半格。
打「a」後,一樣出現候選字
1.日 2.曰 3.𫩏
當然,設定「詞、成語」等「字串」都行——只要以「空半格」做區分。
《部件精準檢索》無法作用,也只得煩你「修理」啦!
若可行的話,阿文還有個構想‥
整編一個「構字部件檢索」,比如‥
、:丶 ⺀ 冫 丷 𠁼 氵 灬
亠: 𰁜 𣅀 㐫 𤣥 玄 亯 𨐌 𤇯
丿:㇒ 𰀪 彡 𠂆 ⺁ 𠂉 龵 𧰨 𧘇 𠂢
丩:𠁡 𠁢 𠂈 𠂎 乡 乆 𠃔 丱 𤕰 𣇓 鼎
冂:𠔼 𠔽 冋 𠔿 冈 𦉪 𦉰 罓 冈 网 𦉯 𦉳
⺈:⺈口比 ⺈囚八 ⺈𠔿比 ⺈𠔿冖 ⺈𠔿𠂡
也就是說‥以「起筆」來分類,或者是某個某個字為主,相似、相關的部件。
其實,從以前開始搞「拆分」,就建立了個《漢字拆分部件參考檔》——
雖然有稍加分類,但用「人眼掃瞄」,總不如用電腦檢索來得快嘛!
如是,打一個字,就找出相似的部件,同在一個頁面,要找就容易多啦!
還有,沒「部件」可用的,看來也只好打「?」,做「萬用碼」了!
有的字,沒部件,無法拆呀!硬是拆得「離離落落」,真是挺「難看」的!
呵呵!看到‥
「國教院提供的《異體字字典》構形數據,並不完整,
很多無法輸入、顯示的部件,都被直接略去,
導致大部分的構形數據,都是『缺了胳膊,少了腿』……」
說真的,「拆字」挺累人的!所以‥除了「感謝前人的貢獻」之外,其它的任何話,都是「多餘」的啦!
如啦!休息了。
阿文
◇《部件精準檢索》
http://nas.taigubun.org:8080/share.cgi?ssid=0DyB8pZ
由於兄需要反查,所以目前的設計是「輸入非中文進行查字;輸入中文進行反查」。部件拆分幾乎全部都是中文,程式會當成是反查,自然不能如您的預期正常工作。
刪除WFG‥
刪除《手寫字形》整編至第「一二七〇」字。
用《倉頡碼檢索》,挺便利的!列出同碼字,或可找到「同形的字」(重複的字)——無有相符者,則試改不同的拆碼方式,若還是沒有,那只好去「拆字」來檢索啦!偏偏《部件檢索》,很「不給力」,只好另外想法子啦!
想來,電腦跟人腦的差別,還在於‥人腦有「記憶」——
譬如‥常到超市買鮮奶的人,會記得擺放的位置,一進超市,就直往該位置拿取。
而電腦嘛!你告訴他要「某某鮮奶」,他每次都得從頭開始去找——
但因為人的動作慢,電腦的動作比人快,雖然總是「從頭找起」,但也會比人「直往放鮮奶」的位置去拿還要快。
阿文倒是有個構想‥
查詢框,可以設成左右兩個。
左邊可輸入「字」,檢索(列出)該字之「拆分」。
右邊可輸入「拆分字串」,檢索(列出)相同拆分之「字」。
(大概以「A橺、B橺」的概念。
冒號(:)左側為「A橺」、右側為「B橺」。)
譬如:查「」。列出「拆分」:
丷王戈丿小兮 丷王禾八丂丶 丷王禾兮丶 羊戈丿小兮 羊禾八丂丶
羊禾兮丶 羲八
查拆分「茂貝」,列出:蕆
查拆分「林足」,列出:䠂 𣙳
查拆分「一一」,列出:二 𠄞 𠄟 𠄠
如此「精準查詢‥完全相符條件」的,方才列出結果,在速度上,應該是會快很多很多吧!
如‥《台語辭典(台日大辭典台語譯本查詢》,可分別在「讀音、漢字、解釋、例句」的欄位裡查詢,而列出相關字詞。
◇台語辭典(台日大辭典台語譯本查詢
https://taigi.fhl.net/dict/
其實我覺得阿文兄按呢「想空想縫」毋卡緊啦,呵呵!若是依您的想法做個「精準部件檢索」,其實會「很難用」,因為必須與拆分資料「一模一樣」才會命中,只要部件的排列順序不同或是含有異體,都不會列出,這樣能找出的字比例應該會很低,純粹只是碰運氣。何況現階段拆分數據還不健全(國教院的數據還沒修整完),用這樣的「精準部件檢索」徒然只是浪費時間。
刪除每個人拆的倉頡碼雖然也可能不同,但佔比應該很低,所以現階段來說還是倉頡碼的可靠度較高。我是覺得 suns99 兄的檢查方式最簡單、最有效率,直接在 EmEditor 裏用倉頡試打,不用切來換去地再用什麼《倉頡碼檢索》、《精準部件檢索》查字,這樣只是浪費更多力氣,得到的結果卻很有限。對於倉頡打字高手而言,完全只在 EmEditor 裏作業才是最快的,兄何苦自廢武功,卻去用些「旁門左道」的招式,這些「旁門左道」的招式是我們這些不會打倉頡的人,不得已才會去用的,呵呵!
恭喜你,把異體字字典完成了。
回覆刪除字型優化了,看得出來。
F5947,光以美觀來講,我個人偏向於舊的字形。
https://imgur.com/aHHWueR
謝謝,《異體字字典》要真正完成還有很長的路要走。這些字形優化是批量作業,由於數量龐大不可能兼顧到每一個字的細節,原則上以「台灣的宋體風格」為優先,儘量讓字庫裏的字形風格一致。後續有「看不順眼」的,就邊用邊修吧!不過靠我一人之力難以負荷這麼多工作,還是需要多一點朋友幫忙。如果有空的話,或許能幫忙把「看不順眼」的字形按「台灣的宋體風格」優化一下再提供給我,我好替換上去。
刪除嗯好的。
刪除我當時想也許有的優化字形是針對異體字字典而改的,不知幕後因素,所以只提美觀方面。
您的考慮是對的,不過不用擔心,要替換上去之前我還是會經過查證,必要時會對字形再做微調。若能幫忙先把字形造好,會減輕我不少負擔。
刪除這個字形,我查了關鍵文獻,應該依正常宋體筆法即可(如您說的大陸字形一般),當初的造字人可能是依手寫稿造字,反而弄出了個不符合風格的筆形來,我已經重新造字,下一版更新,感謝您的提醒。
WFG‥
回覆刪除阿文還是喜歡說‥「動動腦,萬事好;不動腦,費手腳。」
動動腦嘛!可以增加「工作的樂趣」——
試得成,可以增加工作效率;試不成,也算是換得一個‥「不成功」的經驗啦!
《倉頡碼檢索》,好用得很哪!
(《倉頡碼檢索》,目的不在於「文章打字輸入」——目的只是為了‥方便找字。
完成《手寫字形》後,也就會「擱置」啦!
蓋平時打文章,沒事也用不到,那些「異體字」呀!)
你推薦給 suns99 兄用用看——保證他也會愛上的!
比如‥「nnmrb」這個碼,有「五十三」個同碼字——
想想‥有哪個輸入法,可以「同一頁面顯示」的?
「候選字」,大概要叫人翻個五、六面吧?
字形看不清楚,還可以隨時給它「放大放大放大……」
呵呵!來聊聊阿文對《手寫字形》的作業方式吧!(經驗花錢買不到,有興趣「整編」的人,就參考參考!)
一、把字形檔,複製~貼到 Excel裡。
二、努力編寫,完成所有字的倉頡碼。
三、編個批次取代檔,
利用將“EmEditor”的批次取代功能,
將《手寫字形》的倉頡碼,轉換為「既有漢字」。
(十七萬字,也不知電腦跑了多久?阿文去菜園除草、摘菜啦!
同碼字,只會取代成第一個。圖片J欄中,即是。)
如此,就可以很方便地,與「手寫字形」對照了!
四、接下來,也不得不逐字查驗啦!
或有倉頡碼打錯、編錯、不同的取碼方式,也只能一一嘗試。
五、在Excel裡,還可以利用排序、篩選(過濾)、取代的功能,
將一些「拆分碼」給「優化」,如「彐彐」,全取代為「��」。
六、在Excel裡作業的缺點‥
各區段的字,無法全都顯現,還得去「選擇字型」,才能看到字形。
《手寫字形》,處理剩餘一萬字。
好啦!今天,早點「收工」啦!
阿文
※附圖
https://www.facebook.com/groups/978821105480673/posts/5385231924839547/
辛苦了,阿文兄加油!改好的程式應該可以讓您繼續「動動腦」,呵呵!
刪除WFG‥
回覆刪除《手寫字形》處理,剩餘九千字。
昨晚,躺到床上,有個構想,早上起來,也就趕緊「試試看」,想弄個《構字部件檢索》。
《倉頡碼檢索》,既然設定「非漢字與漢字」之間的檢索——
那就用「數字、英文字母(拼音)、注音」來檢索、反檢索吧!
結果‥
只能「單數」不能「十進位」,1至9可設,「0」則無效。
「10」以上就無敦。
英文、注音符號,也不能用二個字母、符號以上。
這個《構字部件檢索》的構想,其實就是傳統的「倉頡、注音、四角號碼檢索」的綜合——
反正「左側」隨自己的「慣用」的輸入法,或特定的分類,乃至隨「自己高興」,去設定「右側」想要檢索的「字、詞」結果,也就行啦!如‥
i:丶 ⺀ 冫 丷 𠁼 氵 灬 乊 爫 爫 ⺤ 䒑
m:一 丅 丄 𠃍 𪛙 乛 𠫔 𠫓 𠮛 㔿 𤓯 帀 𢁓 厈
mm:二 㠪 𠄞 𠄟 𠄠
nxu:龜 龟 𪛉 亀 黾 𠃾 𠁴 𤕣 龜 ⻱ 龜 ⿔ 䶰 𧑴 𪚦 𪚧 ……
ybysp:龍 竜 𦱉 𢅛 𠊋 㰍 𥫈 龒 䰱
hxvyv:鼠 鼡 𤔆 䑕 𣆎
ㄕㄨˇ:鼠 鼡 𤔆 䑕 𣆎
ㄘㄞˊ:財 财 㒲 戝 𧴶 𧵤 𧸄 ㊖
用倉頡輸入法的好處,就是可以盲打——
一邊聽音樂、一邊閉著眼睛打字,也沒問題——
但要是聽到「嗶」的一聲,那就表示「有重複」字,常用的,也能知道該按那個數字鍵去選字,要是不常用的,就得用眼睛去看、去選——
如果候選字太多,得「翻到第二頁、第三頁……」,那「效率」就變低了!
還得瞪大眼睛,仔細去「挑字」,真是折磨眼睛啊——阿文老花二百五十度啦!
《倉頡碼檢索、構字部件檢索》——
檢索結果,能一頁顯示,還可以隨時「放大」,找字多容易啊!
《構字部件檢索》,可以方便檢索所需部件(有的部件,實在是奇形怪狀),乃至可以做「異體字檢索」,就看使用者,怎麼去運用啦!
對於不會倉頡輸入法的人,就算用「注音、拼音」去設定——
除了得「複製貼上」(不能直接輸入)之外,在找字上,當是比任何輸入法,還要便利的。
勞你有空多費心,將之完善,利益世人也!
阿文
2022.01.20.四
※右側當不限於檢索「字」,也能設檢索「詞、句」等。
※檢索結果,全都變成「其它」(深灰色),若無法修正,
其字背景色,宜改為淡色,字才會明顯。
※請用這個去修改!↓
◇構字部件檢索.7Z
https://onedrive.live.com/?id=3AB1CB8A20E303FE%218861&cid=3AB1CB8A20E303FE
阿文兄,程式都是按事前的需求原則設計的,您這樣隨意地把數據倒過來,程式當然是不會正常運作的。我不是改了一版用「\」反查的版本給您嗎?您若是需要這樣「高度自由」的變化數據,用這個版本應該就可以運作。
刪除WFG‥
回覆刪除用「\」反查的版本,試用結果,不甚理想也!
本來還單純的,輸入「倉頡碼查漢字、輸入漢字查倉頡碼」,也就可以啦!現在得加個「\」去反查,感覺就是「多此一舉」,還常會「忘記加」哩!
本來,右手可以一直抓著滑鼠,還得回來鍵盤,加打個「\」,實也不便,
後來,想在輔助楗盤上,加個「\」,只要用滑鼠點擊就好,結果也加不了。
(輔助鍵盤,其實也用不到,總是將它關了,好讓出檢索顯示空間。
想來,得恢復《部件檢索》,輸入查詢框旁的「\」,使用才會方便些。)
以「資料檔」編排而言,這個《構字部件檢索》,當是更加人性、更加便利呀!
同音字、同碼字,都歸於音、碼之右側,總比每個字,都去加注音、拼音、倉頡碼,來得「省容量」呀!如果能夠使用正則符號「|」(和,兩項之間,選擇一項),那就不用「注音、拼音、倉頡碼」,各設一次,也就更加便利。譬如‥
nxu|ㄍㄨㄟ|ɡui|ㄍㄨ|ku1:龜 龟 𪛉 亀 黾 𠃾 𠁴 𤕣 龜 ⻱ 龜 ⿔ 䶰 𧑴 𪚦 𪚧 𪚨 𪚿 𮯛 𮯜 𮯝 𮯞 𮯟 龜 𥦣 𪚺
如是,不管輸入倉頡碼、國語注音、拼音,台語注音、拼音(會四角號碼的,也可加上),都可以檢索「龜」字,及其「異體」;再如《倉頡碼檢索》,不用加「\」,即可反查其「倉頡碼、國語注音、拼音,台語注音、拼音」——
這樣可真是太便利、太完美啦!
如是,將同部首的,歸於一列,即是「部首檢索」,比如‥
sqsf|ㄇㄚˇ|ma3|ㆠㆤˋ|e2:馬 馭 馮 馯 馱 馲 馳 馴 馵 馹 駁 駃 ……
如是,將同筆畫的,歸於一列,即是「筆畫檢索」‥
5:玄 玉 瓜 瓦 甘 生 用 田 疋 疒 癶 白 皮 皿 目 矛 矢 石 示 禸 ……
9:面 革 韋 韭 音 頁 風 飛 食 首 香
不好用「|」,那就各分一個資料檔,再予以「串連」——
用《行列輸入法》(王志攀就用行列輸入法)的人,可以編個《行列輸入法》檔;
用《大易輸入法》的人,可以編個《大易輸入法》檔;
只會《注音輸入法》的人,可以編個《注音輸入法》檔;
會用《四角號碼》的人,可以編個《四角號碼》檔。
…………
除了得「複製~貼上(到其它文件上)」之外,再多的候選字,都能「一頁顯示」,還能「隨時放大」,而「任君挑選」——真是太美啦!
這樣,就真的能成為《漢字多樣檢索系統》啦!
廣告說‥「科技始終來自於人性。」
或當說‥「科技始終服務於人性。」
程式嘛!可以改來改去,而能夠更符合「人性需求」,令使用者,更加便利,可真是美哉!善哉!樂哉!
有了這個《漢字多樣檢索》,還可成為《部件檢索》的「最佳助手」哩!
(其功用,當是比《部件檢索》的「輔助鍵盤」,更加強大而便利的。)
王兄要是工作累了,想「換個口味」時,再來「修善」這個《構字部件檢索》(要改名為《漢字多樣檢索》啦)就好!得以完成,那便是大眾之福也!
阿文
到我這個年紀了,終於可以說這半輩子幾乎都在做程式設計了,呵呵!做程式設計最不喜歡的就是幫客戶量身打造的「客製化設計」了(程式設計師們應該都會猛點頭吧!),所以我幾乎都是做系統性開發,按照自己的分析來設計,免除掉「客製化」的溝通障礙。
刪除很多客戶總是想:一套系統要賣這麼貴,我不如找個程式設計師,花個幾萬塊就能搞定。結果通常是不歡而散,一方認為我錢花了想要的功能卻沒有;一方卻認為從頭到尾亂改一通害我浪費時間精力做白工。這樣的客製化場景幾乎每天都在上演,真正能成功的案例,比例非常之低。
為什麼會這樣?關鍵在於一般人總是習慣於直覺式的思考,「就是這樣、這樣」;而不善於「邏輯性」的思考(不是不會而是不習慣去用)。如果細究其「這樣、這樣」是哪樣?使用者通常是說不清楚的,非得等到看到東西不合己意了,才會迸出一句「不是這樣,應該是這樣、這樣」。對程式設計師而言,改成「這樣、這樣」程式的邏輯很可能就會完全不同,等於推倒重來,原先做的等於白工,誰又會有好氣呢?而這「說不清的需求」常常就是雙方不歡而散的癥結所在。美其名說是「科技始終來自人性」,但事實是「科技始終本於邏輯」,「邏輯」沒抓出來,再好的科技都不會有人性,呵呵!
用「\」反查的版本不合阿文兄的意,其實早在我預料之中。從阿文兄的需求一變再變,再一次印證我的「說不清需求論」真是「不變的真理」啊,哈哈!其實阿文兄的需求真有那麼複雜嗎?咱們不妨來釐清一下:
數據中冒號左邊的我們姑且稱之為「詞頭」(簡稱為 A),冒號右邊的我們稱之為「關聯項目」(簡稱為 Bs,複數所以加 s),想要的不過就是輸入「A」查得「B」;輸入「B」反查得「A」。好,命題完成了,這不過是簡單的搜尋而已。我們再進一步細想,怎麼樣才能知道輸入的是「A」還是「B」?不知道這個就不會有「人性」了,呵呵!但別笑,這就是阿文兄一直說不清楚的關鍵。
如果照最原始的「倉頡碼檢索」,A 一定是漢字;B 一定是英文字母。所以「邏輯」出來了,輸入的若是漢字那麼就是 A;輸入的若是英文字母那麼就是 B。好,若 A 不一定是漢字,而是「包山包海」什麼都可以,B
也同樣是「包山包海」什麼都可以,那麼我沒有「讀心術」,不可能猜出阿文兄輸入的是 A 還是 B,人腦都不行了,電腦當然就更不行,因為沒有「邏輯」了。如果堅持 A 與 B 都必須「包山包海」什麼都能通吃,那麼最容易的解法就是加個帶頭碼來辨識,例如「\」,或者就是另外加一個切換選項或是輸入框。如果阿文兄覺得加個「\」是「多此一舉」還常會「忘記」,那麼加個切換選項或是輸入框大概也會是同一回事。如此一來就表示阿文兄的命題是「無解」的,因為沒有「邏輯」可循了。
說這些只是希望阿文兄能了解「找人設計程式」是怎麼一回事,不是募一些款找個程式設計師來就萬事OK這麼簡單,更重要的是有沒有把命題想清楚,「邏輯」有沒有抓到,否則程式設計師也幫不上忙。
阿文兄仔細想想,再把您的「邏輯」告訴我,我才有辦法創造出「人性」來,呵呵!
WFG‥
回覆刪除從《部件檢索》成型之後,其實就想到要試試《倉頡碼檢索》的——
只是《倉頡輸入法》,平常打字,根本也用不著那麼多字——
前一版的《部件檢索》,還算便利,所以也就懶得去試。
阿文看你那一萬三千多字的《手寫字形》——既有的字,皆已編了「倉頡碼」,想想‥若將《手寫字形》,編好倉頡碼,再轉換為既有的字,來加以對照,應該也就能較快整編完成。
如今「十七萬字」,只因為《部件檢索》不給力——
只好嘗試《倉頡碼檢索》啦!果然效果很好!
《倉頡碼檢索》,找不到的字,只好用「拆分」去《部件檢索》查字啦!
(《手寫字形》所附的簡略拆分,往往得加以「優化」呀!)
《倉頡碼檢索》的資料檔,以阿文這個完全不會程式的人而言,當然就是仿造《部件檢索》資料檔的方式,去整編啦!(冒號左側漢字,右側倉頡碼‥二十六個英文字母。)
但一般倉頡輸入法、大易輸入法、注音輸入法等等,都是‥
左側「詞頭」(英文字母、數字、注音),右側「關聯項目」(漢字、詞、句)。
(全宋體所附倉頡碼,便是如此形式呀!)
所以,簡單的說‥這個《漢字多樣檢索》,
冒號左側「詞頭」,就是「英文字母、數字、注音符號」(非漢字),
右側「關聯項目」,就是‥漢字、漢詞、漢句。
四角號碼,字根是以「4個數字」,去檢索「一個字」。
倉頡碼碼,字根最多是「5個英文字母」。
注音輸入法,是四個全型注音符號,字根大概算是「8」吧!
本來,《構字部件檢索》,只是為了便利找到所需的部件罷啦!
只要打個簡單的「倉頡碼」(英文字母或數字),就可以列出所設的「關聯項目」,也就不用每個「部件」,都用倉頡碼去輸入(遇到候選字太多,翻頁就挺沒效率的。)比如‥
想找部件,有關「、(點)」的,就設「i」(倉頡「戈」)‥
i:、 灬 丷 𠁼 ⺀ 冫 氵乊 爫 爫 ⺤ 䒑
想找部件,有關「一(橫)」開始的,就設「m」(倉頡「一」‥
m:一 丅 丄 𠃍 𪛙 乛 𠫔 𠫓 𠮛 㔿 𤓯 帀 𢁓 厈 𠨭 𧰧 𬺻 豖
ki:㐅 乂 义 𠂭 (㐅與、的。)
ei:又 叉 㕚 㕛 㕛 叒 叕 (又與、的。)
(不會「倉頡」的,就用自己熟悉的「注音、拼音」去設,也行呀!
呵呵!大概也沒幾個「傻子」,會願意做這種費時、傷眼、勞神的事吧!)
比如部首「食、金」的等等偏旁,也有好幾個,都可以設「C(金)、oiav(食)」,去列出「關聯項目」——
如是,要找想用的部件,也就更容易、更快啦!
這「網頁檢索」,一大的好處,就是‥
隨時增修「資料檔」,存檔之後,也就能用了——
遇到奇形怪狀的「部件」,按自己的方式,去分類加入,下次遇到,就可以快速地,檢索出來用了。
比如‥看到構字部件有「𡆵」的,倉頡碼?w……(還真猜不出來。)沒關係!只要加入「W」列,也就行啦‥
w:田 龱 𡆵 𡆪 囬 囙 囧 𡆫
hw: 囟 囪 囱 甶 𠒇 𫤘 (丿與的。)
yw:𠧚 𠧪 卤 卥 鹵 (⺊與的。)
倉頡輸入法之快,還在於「重複低」,倘若「候選字」多到得翻面去找,那其效率,這時也就跟注音輸入法,差不多啦!
如是《構字部件檢索》,就跟過去倚天的「詞庫輸入法」類似——
能自己設定「詞頭、關聯項目」。
《構字部件檢索》,待《手寫字形》,整編完之後,也就「功成身退」啦!
以後,再編個「台語注音、拼音檢索」的資料檔,便又能發揮其效用了。
阿文
整編《手寫字形》,剩餘八千三百字,一不經意,又超時加工,累到不行……
其實您要的檢索工具跟「部件檢索」完全是不同的,背後的演算邏輯南轅北轍。
刪除資料表漢字在左或是在右對程式的設計而言無關緊要,重點是阿文兄若要「人性」不要「\」,左與右必須有「可判定的差異」才行。一邊是漢字,另一邊是非漢字,這是比較合理的安排,但如此阿文兄便不能一邊放漢字一邊放部件,因為部件也是漢字,要「人性」還是要「彈性」這是必須取捨的第一個問題。
再回來左、右的問題。阿文兄若是要比照倉頡碼的定義方式,漢字在右,那麼如果要像您「夢想」的方式,倉頡、注音、拼音、四角、筆畫、部首(注意:部首也是漢字喔,除非改用康熙部首的編碼字,但一般的輸入法大概就打不出來)都可以混查,那就必須倉頡一行、注音一行……,因為詞頭都不一樣(關聯項卻都一樣)。反之如果漢字在左,那麼只要一行,倉頡、注音、拼音、四角、筆畫、部首等等都是同一個詞頭的關聯項。從資料庫整理的角度來看,漢字在左是較好的安排,因為可以做到詞頭的唯一性(不會有兩筆詞頭是相同的),可以加速搜尋的速度;反之例如倉頡與拼音詞頭就可能重複,無法確保詞頭的唯一性。所以不是人家這樣排您就應該這樣排,人家這樣排有他背後的「邏輯」,跟您的情況不見得相同,您還是必須依您的實際情形做出最適當的安排。要「彈性」還是要「速度」,這是必須取捨的第二個問題。
阿文兄再仔細想想,回答我這兩個取捨問題,呵呵!
WFG‥
回覆刪除台諺道‥「頭家一下指,工仔做𠇺死。」
阿文國中畢業,開始做水電(後來有換途);當兵回來,也做水電(後來也換途),故對於這句俗諺,頗有感觸也!
遇到那種,很有想法的頭家(顧主),也是很頭大。
有次,是遇到一個設計師,翻修自己的房子——設計圖,畫了好幾張,今天這樣,明天又改個樣,一個插座位置,改來改去——電線管道,就得打來打去;做好了,不滿意,他筆畫一畫,又得重做。
木工釘好了衣櫃,他才想到要在下頭,加個插座(可以用來插電風扇,想得真周到),你就得想法子,去生給他。
廚房磁磚都貼好了,他才想到要做個烤箱專用插座(二百二的電)——牽明線,嫌不好看,只好敲掉幾片磁磚,做好插座,土水師,再來貼磁磚。
台諺又有話說‥「主順主人意,著是好師傅。」
有時,也真會被「主人家」給氣死!明明「甲樣不好、乙樣好」,他就偏偏要「甲樣」——真要順著他的意去做,以後,他肯定要後悔!
有次,主人家,要給孩子房間的書桌,加個插座。(房屋整修還沒完成,書桌還沒去買。)
阿文有經驗嘛!看他畫的位置,大概會被「抽屜」擋住,就給他建議‥
「要嘛!高一點(在桌面),要嘛!偏一點(在桌下放倚子的空間)——
這樣,要插拔插頭,也就比較方便。」
他堅持‥「沒關係!就在那裡!」
阿文也懶得去「說服他」,牆壁管道,就給他敲下去;接線盒,就給他裝下去。
隔兩天,他便打電話來,要阿文去「修改」啦!(他想想,還是跑去賣場,量了桌書的尺寸——是那種上面附有書架的書桌。)
還好,牆壁還沒抹水泥粗胚,改改位置,也不至於太費工。
故知‥專業、非專業;有經驗、無經驗——總會有差別的!
事前若能充份了解雇主的意思、需求,不善之處,予以建議,彼此溝通,當能避免「做白工」吧!
阿文不會程式,也不懂那些程式的邏輯,是故只會「想當然耳」!
想是「廢話」講一堆,也沒講在「重點」上,故教人搞不清楚‥「你到底要怎樣」吧?
上篇拉拉雜雜,說了一堆,未知是否能讓你了解意思?
《倉頡碼檢索》的資料檔編輯方式是‥
左側 :右側
詞頭(漢字):關聯項目(非漢字)
而《構字部件檢索》的資料檔編輯方式,則是‥
左側 :右側
詞頭(非漢字):關聯項目(漢字、詞、句)
非漢字,包含‥數字、英文字母、注音符號。
比如阿文的倉頡碼有設‥
eyi:潘文良 (eyi「潘文良」倉頡碼的首碼。)
og:台北市南港區研究院路…… (og「住址」的倉頡碼首碼。)
這樣的設定,是很「個人化」的——自己記得,自己用得方便而已。
如依各種輸入法去設,當然是也就人人可用——
ybysp:龍 竜 𦱉 𢅛 𠊋 㰍 𥫈 龒 䰱 (用倉頡的。)
long2:龍 竜 𦱉 𢅛 𠊋 㰍 𥫈 龒 䰱 (用拼音的。)
01211:龍 竜 𦱉 𢅛 𠊋 㰍 𥫈 龒 䰱 (用四角號碼的。)
若以《倉頡碼檢索》資料檔的編法,就得每個字去加「拼音」或「倉頡碼」等。
"龍:long2;ybysp,01211","竜:long2;ybysp,01211","𦱉:long2;ybysp,01211","𢅛:long2;ybysp,01211",…………
這樣,雖有其好處,但也有所不便,還會增加其容量。
希望這說,你能真的了解!
有勞你費心、費工,真心感謝你!
語謂‥「工欲善其事,必先利其器。」
《構字部件檢索》,得以完善,那整編《手寫字形》的「拆分」,也就得以更加便利。
(徜若《部件檢索》夠給力,阿文大概也不會這麼「想孔想縫」了!
阿文用「振興券」,去買了兩顆「固態硬碟」——
聽說用來安裝作業系統,速度會加快很多很多。
只是裝上去,居然讀取不到新硬碟……還得安裝「補件」什麼的,沒能搞定。
只得待友人有空來幫忙了。)
好啦!累了、餓了,準備午餐去。
阿文
命題清楚了程式就好寫,這一版應該能符合阿文兄的需求,您試試。
刪除只要遵守非漢字在左,漢字在右的原則,您要檢索什麼資料您就自行整編。
WFG‥
回覆刪除真是太感謝你了!
人謂‥「上帝把你關了一扇門,也會幫你開一扇窗。」
因為不給力的《部件檢索》,反而讓阿文,賺到了二個超好用的網頁程式!
用《倉頡碼檢索》,做字形精準查詢——找不到字,再用《部件檢索》,試著找找看,(呵呵!雖然不給力,也還是得用啊!)真的沒字,再用《構字部件檢索》,快速地,找到所想要的部件,去整編字形拆分——這樣的搭配,真是太完美啦!(見圖。)
昨晚,一邊整編《手寫字形》、一邊整編《構字部件檢索》,搞到凌晨三點多,累到手腕疼、眼睛痛,想說休息一下再上(好完成《構字部件檢索》資料檔),躺到床上,結果就睡著了。
整編《手寫字形》,剩餘七千五百字。
去泡杯麥片粉,吃吃早餐,再繼續努力啦!
阿文
2022.01.25.二
※附圖
https://www.facebook.com/groups/978821105480673/posts/5419454858083920/
每個人都有他使用工具的習慣與「眉角」,很高興新的程式能為阿文兄所用。阿文兄,咱們都上了年紀了,別太拼命了,身體要顧啊,呵呵!
刪除WFG‥
回覆刪除有疑處‥
𥥘 重複收錄,後者註銷(2022/01/01)
以字形風格而論,當收後字「」如(𥤲),而註銷「𥥘」。
重複收錄,後者註銷(2022/01/17)
《集韻考證》‥巨
〔注〕《說文》䂓巨也!古作「」
〔案〕■从工,此作「巨」,非。
注「䂓」當作「規」,古文作■(當作「」)。
※篆文形似「」。
看來「」才是正字,而「」方為別字——故可別「註銷」了!
建議設個《漢字回收桶》(字型),將有疑問的字、不同風格的字,全都丟進去!
如「、」,二字亦可視為異寫——
若數錄後字(),則前字(),就丟到《漢字回收桶》(字型)去!
書法家寫字,未必會寫「正字」——
若「思」字的「心」,少寫一點(丶乚丶),謂之「少點心思」;
文章的「章」,寫成「」,謂之「文章貫日月」——
於是‥明明寫了「錯別字」,後來也變成「異體字」啦!
阿文
◇教育部異體字典。巨
https://dict.variants.moe.edu.tw/variants/rbt/word_attribute.rbt?quote_code=QTAxMTQ5LTAwNw
註銷的原則是按收錄的先後順序而定,先收者可能已被大家利用,故不動;後收者應該還沒被其他人使用,當註銷。
刪除𥥘 兄所列(𥤲)四字中有三字風格同前者,卻言當註銷前者,莫明所以?
後者註銷,但字形依後者,沒弄錯。
太過微小的部件差異(例如⺕、),除非字典有兼收情形,否則原則上儘量不重複收錄。「、」二字完全相同,只因前者掃描時略有瑕疵,造成形似斷筆,其實二形完全沒有差異,並非異體。
「」如「𥤲」等,「穴」之「八」,皆如「」下之二點。
刪除「𥥘」,「穴」之「八」如「儿」,與「𥤲」之風格不一。
故言‥當保留字形「」,而非字形「𥥘」者。
若前者先收錄,則當將後字形「」者,覆蓋前字形「𥥘」之字碼者。
故凡有取代「字碼」者,皆當標注‥
刪除後者註銷,字形依後者。
「」放大來看,果然可判斷為‥掃瞄失真。
所謂「錯別字」,字典「字頭」未收錄,卻常會用於「註解」舉例之中。
若「」者,一旦註銷其一,那《集韻考證》,可又得打「■」了。
收錄字,其實也不嫌多——凡異形者,難免成「異體、異寫」。
如「𰛄、𰛅」,其實僅為前人「文字遊戲」(打油詩)之造字——
後人在編字詞典時,雖非「非收不可」,確往往也「兼收」之,而加註說明。
【𰛄𰛅】ㄒㄧ└ ㄙㄨㄞ├ si7~3 suai7
⊕流水、濺水聲。船劃破水面聲。{例}𰍧𰍨一隻舟,𰛄𰛅水中流。
《澎湖西嶼怪字詩》:
乒乓一隻舟,𰛄𰛅水中流。𠁣𠃛搖船櫓,彳亍到揚州。
(乒乓,有作「𰍧𰍨」者。)
「穴」這個部件,台灣的規範字形作「儿」,大陸的規範字形作「八」,其字一也。歷代字書多作「儿」形,應該是直接繼承自小篆字形而來;也有作「八」形者,如《康熙》。目前字型中,台灣提交者作「儿」,大陸提交者作「八」,雜亂紛呈,我無力去一一統一,故堅持這風格問題無甚意義。只不過阿文兄認為該保留「八」者而棄「儿」者,卻與台灣規範相反。
刪除凡勘誤註銷者,註銷其後收者字碼,先收者字形則擇其優者而冠之。差距較隱者不另加注,差距較顯者,加注「依後者」。
刪除有時用字不能完全泥於「字形」,以《集韻考正》之例,考的是《集韻》,故字頭當然是抄自《集韻》,抄而有異,是抄者失誤,又或是伊覺得並無不同。其文並無二形對立之語,立文者「無心」而後來者卻堅持「有異」,這又何必?一如《異體字字典》的造字,多把手寫之「草頭」造成「羊頭」,泥於「字形」而不本其意,失之矣!「𰛄、𰛅」字見於《龍龕手鏡》,怕是與佛經有關,其本恐非兄所謂前人的「遊戲之作」。
請問 ⿱艹吐 有加入最新的字型?
回覆刪除您沒仔細看發文啦,呵呵!文內有清楚交待,不僅「⿱艹吐」,共有 75 個臺、客語缺字,全部以宋體風格造字補入字庫。
刪除請問如何輸入? 用最新的部件檢索找不到。
刪除應該是有的,就用「艹吐」即可查到,您是不是沒有把「限標準字」的選項給取消掉?沒有取消勾選的話會只侷限於 Unicode 已收錄字,補充字會被排除。
刪除感謝,可以輸入了。常常忘掉把「限標準字」的選項給取消掉
刪除我本來以為 𡞋 是類推簡化字,後來發現來自 TF(CNS 15)-3422;你的《說文》也當做異體字。教育部異體字字典,雖有有参,並沒有𡞋,我見到的字典都沒收這個字,讓我疑惑。這個字怎麼加入CNS?
回覆刪除「𡞋」這個字是怎麼加入CNS的?我並不確定,官網上只籠統地標示為戶政用字。不過根據我的經驗,很多字還是可以另外追蹤出字源,並不一定只是人名、地名用字。陸系的大型字典如《漢字海》、《中華字海》都標示此字為類推簡化字,這大概是目前僅有的線索。
刪除如果從拆開的部件來追蹤,雖然各大字典對「参」字多半也只標示為「參」的簡體、異體,但還是可以找到稍微多一點的線索。《中文大辭典》:「参,參之俗字。《新字典拾遺》:参,俗參字。」這裡終於出現了一個書證,不過仍屬近代。另外在《教育部異體字字典》可以找到《經典文字辨證書》:「曑,正亦作𠻝,同。參,通。参,俗。」這是更早的書證(清・畢沅撰),而且明確指出「參」是通行字,「参」是其俗體。
所以我的結論是:早在簡體字出現之前,「𡞋」應該就是「㜗」的俗體字,應該不乏書證。只是早期在數位化文獻時(可能 B 區字尚未定義或普及),或許「𡞋」字都被替換成「㜗」字,以至於現在用「𡞋」字搜尋幾乎都找不到線索。
您對幾本字典的字頭處理原則也是避用補充字,而以編碼字代之,雖然以現下的檢索角度是有利的,但若干年後來看,或許也會落入今日之嘆,呵呵!
數位化過程中俗字被替換了,這揣測很合理,而且這現象不限制於數位化的資料,所有先秦文字都被漢代學者規範化。
刪除關於俗體,我做了個6,800字的簡繁轉換表,從部件檢索抽出一堆應該是類推簡化字,後來發現有幾百字原是康熙字典的字頭,雖然表面上是類推。所以注意到這個案子。
看來我得找一本《漢字海》、《中華字海》。原來以為手上已經夠用呵呵。
若干年後亦落入今日之嘆,這問題哈哈我也稍微想過,好處是還有線索,那群字都擺在一個字型文件裏,到時候可以翻出來。Unicode 動作超慢,如果將來真有這個必要,我說不定已經不玩這類東東了。
是的,有不少被大家認定的「簡體字」實際上原先是「俗體字」,陸系的字典大概都不會特別標示出來,只能自己再小心求證。
刪除我也曾整理了約6900筆的簡繁轉換表,但正因為這種「簡體」、「俗體」角色重複的情形,用處不是很大。退而求其次,我比較想要的反而是所有「在繁體中不可能出現的簡體字」對照表,譬如鱼、鸟、钅、讠、页這些偏旁的類推字等等,這樣就可以放心的批量置換,把不應該出現的簡體字給還原成繁體。只是時間不夠用,遲遲沒有動手整理,呵呵!
漢字要單靠 Unicode 確實是緩不濟急,所以我才會整理、收錄那麼多「補充字」。我的原則是:儘可能遵循 Unicode,畢竟它是大家共同認定的標準;但不侷限於 Unicode,因為連最基本的字、辭典都涵蓋不了,遑論其他典籍。我的「補充字」並非是「為衝高數量」而胡亂收錄,基本上都是從各大字典的字頭整理而來,背後我也幾乎記錄下了每一個補充字的來歷,所以在使用上我對「補充字」與 Unicode 字是一視同仁的,「補充字」不過是「尚未被編碼的 Unicode 字」而已。
我也想作個現代簡體字表,目的不在簡繁轉換,而在找出不可能出現在古書的字,方便糾正mdx錯誤。(比方說,帶“参”部件的字,經常出現在古漢語mdx字頭索引,甚至官方資料也有。)目前這個表有分類:新簡、古字等,不求完善,能用就夠了。
回覆刪除對於補充字,我理解你的立場。像那個私有區字轉成Extension G字的表很有用。我的處理方式,一個劣點是不能用這種批量更新的工具。
咱們的想法倒是很一致,呵呵!
刪除這些拆分重出:
回覆刪除 @主
@扌亠吅己爻衣
@亠吅己爻衣攵
@虫巛内用
@虫八内用
@亻二丨丷
@亻丩一八
@糹𠫓内
多謝,除第一組外,這些都是國教院提供的數據,很多瑕疵,我尚在緩慢整理中。從農曆年後大概只整理了一千多字,目前清理到 FFD7F,您列的這些都還在很後面,距離還很遙遠!
刪除這幾字我就先修了。我在想,要等全部清理完不知何年何月,或許每清理完一兩千字就先發布一次更新,大家就能先用到部份完善後的結果,只是如此一來我的負擔又會加重了,呵呵!
邊用邊改,我支持修一批就發一批。
刪除目前有三十字拆分用 龜F908 部件;部件適合換成 龜9F9C。
回覆刪除異體改變功能,考慮加這些替換:
叟:叟
乗:乘
:肉
𤣥:玄
甾:甾
亜:亞
只有一個相關字,不知是否值得加:
𡯁:尢
𠄑:𡳾
𡯁 尢
𠄑 𡳾
「𤣥:玄」已經有了。若只有少數相關字,不值得加。
刪除舎:舍
回覆刪除收到。
刪除才注意到 F908 、9F9C 字形稍微不同。那麼,加異體替換:
回覆刪除龜:龜
已經有了。
刪除拆分:“兓日”合併為“”。
回覆刪除:朁
收到。
刪除F0471 部件有58字。
回覆刪除F0414 部件有523字。
F0471組理應當包含F0414組,但兩組之間只有幾個字重疊。
免得費工調理拆分,方便的解決方式是加上異體替換:
:
有點不懂您的意思。「」含有「一」的拆分,故含有「」的字一定隱含有「」,不可再設定「:」。我猜您對這裡的關係一定有所誤解。
刪除「」與「」這兩個部件我目前不是很有把握,「」在某些字中是「甘」義,例如「其」、「甚」,但是否全面如此我不敢確定。而「」字理上是否就是「甘一」?可能還有待查證。
刪除 @訁𢆶𫠠丿
回覆刪除 @訁𢆶𫠠
夫 @一大‖㇏
关 @丷天‖䒑大‖𦍍㇏
@車兓貝𮚋
@釒𮚋
@亻𣄼
𱀲 @⻖兂兓
𣩳 @歹兓曰!歹朁 ???
糣 @米曰!米朁 ???
有些分式,部件未合併:
兓貝>𮚋
兂兂>兓
曰>朁
玄玄>玆
幺幺>𢆶
夫夫>㚘
先先>兟
我自己用的加了這些異體替換:
乗:乘
:兓
叟:叟
冏:囧
𡯁:尢
𡰣:尸
甾:甾
:肉
舎:舍
龜:龜
𡳾:𠄑
:(或許把“!一”換成“@一”)
𤮺:
𡔜:声
「:肉」、「𤮺:」、「𡔜:声」這三組可能不是很恰當,應再斟酌。「:肉」兩字是異體沒錯,但由「」組成的字中似乎多半沒有「肉義」,反而跟「𠧪」比較相關。「𤮺:」、「𡔜:声」這兩組本身就是不同字,所組成的字是否多有異體關係,宜再詳考。
刪除「𡰣:尸」已經有。
刪除謝謝指教。我昨天試探了 :丌 異體替換,發現效果不良,:肉 同樣不妥。(𡔜:声,校對中華大字典mdx時,碰到一個相關案子,現在想不起來,但也不值得追究。)
回覆刪除除了形義相通兩個條件,又要考慮具體搜尋結果,現在知道替換不能隨便加的呵呵。
我也考慮另一方面:多了一個異體替換,我用的‘部件鍵盤’也可以省略一個罕用的‘鈕’。
我常用“”部件,但偶爾找不到東西,所以也備份了“”。比方說,“𭭡”(應該是@止||正),“”部件查不到“𭭡”---除非勾選“無理拆分”。看來,我對“無理拆分”的功能不是很有把握,一方面使用者要理解字的具體分式狀況才能預測搜尋的效果。
是的,很多朋友經常要我加這個關聯、加那個關聯,我通常相對保守,因為要考慮的遠比他們的理解多。您因為有實際動手,所以我一提您就能理解了,呵呵!
刪除我把「」與「」的相關拆分又全面地整理過一遍。除了極少數應是「𠮛」的變形外,基本上都屬「甘」,都是「其」、「甚」的衍生變化。為了方便統整,我新加了一個補充字「𠤭!亾」,是「甚」的異體,如此就可以把這些字與「甚」關聯起來,不會這麼零亂了。
「甚」字的下方部件,由「匹」不斷訛變,作「𠤭」、作「」、作「正」、作「」。這一系列都是「甚」的俗字。
刪除這兩個條件
回覆刪除門@𠁣𠃛
"𠁣":"戶"
讓“包容異體”行為怪怪的。如果勾選“包容異體”,然後查“戶”,所有“門”部件的字也都會冒出來。
也許“門”的分式該改成“!𠁣𠃛”。
「查“戶”,所有“門”部件的字也都會冒出來」這有問題嗎?完全合乎字理呀!「門」从二「戶」,並非獨體,改成「!𠁣𠃛」並不合理。
刪除沒錯,這樣合乎字理。只不過 戶、門 各為部首,如此混合,查尋效果有點怪怪。(比方說,人、儿,義同形近,皆為部首,使用者查字時會想分辨。)
刪除具體來說,要查 三戶(戶戸户)的字,勾選"包容異體"會把 門 不部件的字也帶進來了。看來,三戶只能分別查尋。
除非再設計一個更細的分類(異體包容再分層級?),否則很難面面俱到,只是更細的分類也代表著更複雜的工作負擔,目前只能在現有架構下求取一個比較合理的平衡點。
刪除三戶問題不重要,但我最近也想起設定兩種"包容異體"的功能。我一般不想看到非古代的簡體字,所以考慮把這些異體替換都去掉。問題是偶爾也需要用,到時候又得手工補回去,太麻煩了。不如設兩種“包容異體"功能,一個不包括簡化偏旁。有這個念頭,但我沒去研究如何調整JS程序才能達到這個效果呵呵。
刪除先把這個想法放在腦袋裏醞釀一下,等日後成熟了再來想辦法實踐,呵呵!
刪除2F9CB 字形與台源字例不合,而且重複了278AE字形。
回覆刪除嗯,這字形對應當初應該來自 BabelStone Font。不過即便改了,字形還是會重複 U+4695,因為根據 CNS,T5-7A38 是對應到 U+4695,不是 U+2F9CB,與 Unicode 文件不一致(或許是 CNS 後來有調整),或許因為如此 BabelStone 才將這字對應到 U+278AE 去。
刪除總之,對兩岸來說,這一字碼不該使用,而該用 U+4695 或 U+278AE。這樣好了,我還是會調整這字字形,把它改成 U+4695 的 K 源字形,略略與兩岸字形有些差異,聊勝於無。
𬿪𭯣𰣗𰻘,字形用奧,分式用奥
回覆刪除陸標作「奥」,台、日標作「奧」常有不一致的情形。字形暫時不動,偏向台標,修改拆分以符合字形。
刪除好主意。2F9CB 字碼掛 4695 的 K 源字形,這樣康熙體可以展現出來了。
回覆刪除這個字的康熙體未必是 2F9CB 喔,殿刻本字形實際上作 4695,校改本則比較像是 2F9CB,不過是否是解析度不足造成的錯覺,我不敢確認。
刪除𭳌@氵緒(非緖)
回覆刪除修正。
刪除䏞43DE 𦚜2669C
回覆刪除全宋體兩個字形幾乎重複。
43DE來自康熙字典;也許2669C該棄用。
這兩個字,還是老問題,兩岸字形差異造成的困擾。若是按台標,43DE 字形該从「未」,2669C 字形該从「末」,那麼字形就不重複,可是台標卻很有問題。
刪除根據《異體字字典》从「未」的 43DE 見於《集韻》,但查證五個主要版本的《集韻》:楝亭本、明州本、述古堂本(《異體字字典》引用此本)、潭州本、金州本,字形幾乎都从「末」,只有明州本與述古堂本較為曖昧,兩橫筆幾乎等長(明州本較像「未」,述古堂本較像「末」)。此字歸在第十三末韻的末小韻,字形聲符當从「末」不从「未」,《異體字字典》字形明顯錯了,或者該說台標字形明顯錯了。
根據《異體字字典》从「未」的手寫字形見於《類篇》,查證四個主要版本的《類篇》:汲古閣本、楝亭本、姚刊本(《異體字字典》引用此本)、宋鈔本,字形確實都从「未」,可是莫葛切與《集韻》音同,當从「末」不从「未」,可見《類篇》的字形是個訛字。
台標將 43DE 定作訛形,顯有失當。而後來再補上 2669C 的正形,不知是將錯就錯,還是仍未發現失誤?所以 43DE 我改按陸標从「末」而不从「未」,但若將 2669C 改作从「未」又牴觸了 Unicode 標準,真是進退兩難,所以暫時擱置,未作進一步處理。
一種方式就是將錯就錯按台標處理,只是如此的話正形就要對應至 2669C 而不是 43DE。
嗯嗯 我之前已經揣測你的難處和處事用意。之所以我沒提起全宋體43DE與台源字例不合。
回覆刪除我碰到這個案子時,本來懷疑其中一個是否該从月,後來發現並不是,但从未的字形又不規範,哈哈真是難搞。
我說 2669C 該棄用,實際上是提醒自己,而不建議全宋體該怎樣。
目前有三個方案:
刪除A. 將錯就錯按台標處理。但明知台標失當,還要我矇著眼裝不知道,這我吞不下,呵呵!
B. 43DE 改按陸標从「末」,2669C 改从「未」,不理 Unicode 標準。反正是你有錯在先,不能怪我不遵守規範,呵呵!
C. 43DE 改按陸標从「末」,2669C 屬台標的兼容字予以棄用。另造从「未」的補充字,以表達《類篇》的訛字。
方案 C 有點疊床架屋,我比較傾向方案 B,不過如此就要擔「不符標準的罵名」,所以還沒下決定,呵呵!
方案 B,類似曾經再次挪平面0的棄用兼容字。撿起來回收,更環保哈哈。
刪除意見一致,就採方案 B。
刪除𦍉26349,也許Unicode後來改了字例。目前所有商業字型都跟規範字例不合。
回覆刪除或許是,目前我是照全字庫的 CNS 字形。
刪除(其越南簡化字是𡚎2168E,右邊部件也是“奇”,不是“竒”。)
回覆刪除𦍉26349,剛查了官網的小圖片是从“竒”,可見原先是从“竒”沒錯,不知是後來的文件錯了,還是真的改過。
刪除請問 穴角 有加入最新的字型?
回覆刪除應該沒有,煩請提供該字出處的截圖與書名,我會進行評估,如果可以,下一版或許就會加上。
刪除台語聖經
刪除https://imgur.com/a/L8TU5jJ
查了一下,台灣聖經公會的網站作:「12:4 𥦁街路的門關啲,挨磨的聲細細,鳥仔一下哮,人就起來,唱歌的查某囝仔也攏降低。」字作「𥦁」與您截圖的紙本形似但略有不同。
刪除查《漢語方言大詞典》:「𥦁,tòng ㄊㄨㄥˋ〈動〉穿透;一直通到。閩語。福建廈門[t‘aŋ21] ~過透過 ‖ ~心入心 ‖ 即條路~廈門。」音義與經文合。
因此不知「⿱穴角」是「𥦁」的異體字?還是訛字?有待進一步查證。
請問 竹口日隻 有加入最新的字型?
回覆刪除台語聖經 https://imgur.com/a/W8RyJZu
您的截圖不夠清晰,我無法辨清筆畫。不過「竹口日隻」不像是有這樣的字,我看起來像是個「籰」字,台灣聖經公會的網站也作「籰」字。可能要麻煩您用放大鏡再把這個字的筆畫看清楚再告訴我,呵呵!
刪除https://imgur.com/a/Niv5VuS 可能是竹口口隻
刪除如果是「口」應該不至於糊成這樣,「口」中間應該還有橫筆。我覺得應該就是「籰」字沒錯,字義與經文也合,況且台灣聖經公會的台語聖經就是用這字。
刪除補充一下,《教育部重編國語辭典》:「籰子,用以繞絲、紗、線等的竹製器具。」
刪除