tag:blogger.com,1999:blog-8083418832420346104.post1292421692659818309..comments2024-03-29T10:44:39.652+08:00Comments on WFG: 《說文解字》字典及全宋體更新WFGhttp://www.blogger.com/profile/14004240365298046569noreply@blogger.comBlogger16125tag:blogger.com,1999:blog-8083418832420346104.post-69182983585715096042023-05-31T16:37:51.189+08:002023-05-31T16:37:51.189+08:00全宋體的拆分資料就在「部件檢索」裡,都是純文字的資料,直接取用即可。至於收字來源,我也一直在思考該用...全宋體的拆分資料就在「部件檢索」裡,都是純文字的資料,直接取用即可。至於收字來源,我也一直在思考該用什麼方式呈現。曾想過做成一個 mdx,涵蓋四大字典及各個收字來源的索引。但字頭的對應我仍在頻繁地勘誤,釋出這樣一個大型 mdx,會造成我維護上的額外負擔,因此還在猶豫之中。<br /><br />把缺字字圖做成字型檔的方法,我在〈十五萬漢字粉墨登場〉一文中曾大概提過:「我採用的方法是將掃描的字頭點陣圖片,利用開源的軟體 Potrace 批量轉成 SVG 向量圖檔,再利用開源軟體 FontForge 撰寫 Python script,批量將 SVG 圖檔整合為一個字型,縮放成一致大小並調整居中,讓它們排列整齊。」所以您只差最後一步,數量太大是不可能用手工完成的,要撰寫 Python 程序來操作,網路上應該不難搜到教程,但前提是您得會 Python。<br /><br />您說得對,每個人都有不同的認定原則與習慣,但這可以克服。目前大多是由 suns99 兄協助做前期的處理,然後再由我做最後的複驗與統合,為一致性把關。<br /><br />大型的漢字資料庫大概都已處理,爾後的目標可能就會是針對特定的「字書」進行字頭的清理,例如《龍龕手鑑》、《四聲篇海》等等,您若是有興趣,隨時歡迎加入幫忙。<br /><br /><br />WFGhttps://www.blogger.com/profile/14004240365298046569noreply@blogger.comtag:blogger.com,1999:blog-8083418832420346104.post-81004475093423879622023-05-31T12:33:45.719+08:002023-05-31T12:33:45.719+08:00CBETA由於字圖模糊,完全只能依靠組字式來對應,但其實是我沒找到全宋體的拆分資料表,所以缺字就沒補...CBETA由於字圖模糊,完全只能依靠組字式來對應,但其實是我沒找到全宋體的拆分資料表,所以缺字就沒補進CBETA對照表。事實上我也希望能製作全宋體的字表,希望您手上告一段落後可以釋出全宋體的相關資料。(例如:收字來源、構字式、訛字不收等資料)<br /><br />至於把缺字字圖做成字型檔我很有興趣,不知可否分享如何製作?我之前嚐試使用 FontForge 把 svg 一張一張拉進去,但數萬張字圖實在沒辦法人力完工,所以才改為製作對照表。<br /><br />補全漢字應該是眾人都希望達成的目標,但經之前與您討論「教育部異體字字典」缺字問題後,我發現每個人的字型認定與拆字習慣都不同,混參製作反而會破壞全宋體的精良品質;目前我也還在製作其他的mdx辭典,就暫不加入了。<br /><br />再次感謝您製作了全宋體並免費釋出,對古籍文字數位化真的是一大助力。yukihttps://www.blogger.com/profile/17279912001433539726noreply@blogger.comtag:blogger.com,1999:blog-8083418832420346104.post-44423682186730920012023-05-31T00:16:52.144+08:002023-05-31T00:16:52.144+08:00您好!我看過您發布的對照表,當時的第一個念頭是:好可惜,重複做工了。如果您對漢字的整理也有興趣,或許...您好!我看過您發布的對照表,當時的第一個念頭是:好可惜,重複做工了。如果您對漢字的整理也有興趣,或許大家可以分工合作,針對特定的項目來進行清理,多一個人就能多一份力量。<br /><br />在〈中醫藥用字全宋體更新〉一文的「計畫與變化」一節我就提到:「十月中,字頭排查的工作暫告一段落,正式啟動了 CBETA 的缺字清理。老方法,將字圖先做成一個工作字型檔,把待清理的一萬六千字分成四包,每包四千字,煩請 suns99 兄出手幫忙。至十一月中,suns99 兄已完成了初步清理,我則開始進行複驗。」所以 CBETA 的缺字基本上去年我就已經完成初步清理,只是複驗時發現問題較多所以暫時擱置了下來。<br /><br />暫時擱置有兩個理由:一是 CBETA 誤收的訛字查證太過耗時;一是 CBETA 提供的缺字圖片品質參差,轉製成字型的效果不算太好。因此我轉而先清理「漢字構形資料庫」的漢字,它有現成的字型、現成的拆分資料可以利用,目前已接近完成,預計年中應該可以發布。「漢字構形資料庫」的漢字會涵蓋到一部分 CBETA 缺字,也就是說這部分可以替代掉由圖片轉製而成的較差字型,將 CBETA 的缺字縮減到最少。等下半年,我應該就會繼續完成 CBETA 的缺字清理。<br /><br />您的對照表中,有不少「全宋體」的已收字,您並未對應上來,可能是我的拆分資料尚不夠完善。總之,感謝您願意投入時間與精力協助漢字的整理,希望有機會能進一步的合作,統合力量來有計劃地整理,再次感謝您的留言及提供的相關資料。WFGhttps://www.blogger.com/profile/14004240365298046569noreply@blogger.comtag:blogger.com,1999:blog-8083418832420346104.post-8913854838376996812023-05-30T11:15:50.832+08:002023-05-30T11:15:50.832+08:00你好,我製作了「CBETA與WFG全宋體對照表」發現有許多古籍佛典用字未收錄進全宋體,例如「⿰貝蹙」...你好,我製作了「CBETA與WFG全宋體對照表」發現有許多古籍佛典用字未收錄進全宋體,例如「⿰貝蹙」「⿰車奚」「⿱釆異」「⿰卷見」等字全宋體皆未見,由於字數眾多,用留言版一一確認進度太慢,請下載我製作的對照表,希望能幫助全宋體完善缺字。<br />字表下載:https://cloud.freemdict.com/index.php/s/gzQYAeAfmNMt7WA<br />解壓縮打開 cbeta.html 即為「CBETA與WFG全宋體對照表」<br />離線字體包:https://cloud.freemdict.com/index.php/s/nei2GYBZH6C7z9B<br />(內為 全字庫楷體、全字庫宋體、WFG全宋體 3個字型,請覆蓋fonts\)yukihttps://www.blogger.com/profile/17279912001433539726noreply@blogger.comtag:blogger.com,1999:blog-8083418832420346104.post-90925991715480844602023-05-02T23:06:47.952+08:002023-05-02T23:06:47.952+08:00感謝查證,如此,則不必再造新字。
原字表資料也只寫說來自73年3月的異體字表,考無文獻,或許是當年就...感謝查證,如此,則不必再造新字。<br />原字表資料也只寫說來自73年3月的異體字表,考無文獻,或許是當年就抄錯的。yukihttps://www.blogger.com/profile/17279912001433539726noreply@blogger.comtag:blogger.com,1999:blog-8083418832420346104.post-38742244395687315712023-05-02T11:24:25.740+08:002023-05-02T11:24:25.740+08:00《教育部異體字字典》的待考正字應該都尚未有實際詞條,我把它們全部都還原成純文字後,結果便只有這個[⿰...《教育部異體字字典》的待考正字應該都尚未有實際詞條,我把它們全部都還原成純文字後,結果便只有這個[⿰牜芋]查無對應。經過一番搜尋查證,證實此字就是「𤙢」字。臺灣的 CNS 標準字形此字誤作[⿰牜芋],而實際上歷代字書均作「⿰牜⺸」。目前 Unicode 的 T 源樣字 T5-334B 已經獲得更正,但全字庫的 CNS 官方頁面仍是錯誤的[⿰牜芋],《教育部異體字字典》同樣未作更正。總之此字無需新增,它就是「𤙢」字。<br />WFGhttps://www.blogger.com/profile/14004240365298046569noreply@blogger.comtag:blogger.com,1999:blog-8083418832420346104.post-79715450061160303842023-05-01T17:42:48.553+08:002023-05-01T17:42:48.553+08:00三個字出處皆為教育部異體字典的正字表,分類在罕用字表的待考正字
網址為:https://dict.v...三個字出處皆為教育部異體字典的正字表,分類在罕用字表的待考正字<br />網址為:https://dict.variants.moe.edu.tw/variants/rbt/research_required_tiles.rbt?pageId=2982192yukihttps://www.blogger.com/profile/17279912001433539726noreply@blogger.comtag:blogger.com,1999:blog-8083418832420346104.post-36444514489865453622023-05-01T16:09:59.781+08:002023-05-01T16:09:59.781+08:00您好!
1.[⿰穴瓦]=𡨍,此字不从「穴」,您拆成「穴瓦」所以檢索不到。
2.[⿰牛芋],應該沒有...您好!<br />1.[⿰穴瓦]=𡨍,此字不从「穴」,您拆成「穴瓦」所以檢索不到。<br />2.[⿰牛芋],應該沒有收錄,不知能否告知此字出處為何?<br />3.[⿱⿱⺾穴⿱人攵]=𦶨,同樣地此字亦不从「穴」,所以您檢索不到。<br /><br />WFGhttps://www.blogger.com/profile/14004240365298046569noreply@blogger.comtag:blogger.com,1999:blog-8083418832420346104.post-75234457029373683062023-05-01T15:33:25.900+08:002023-05-01T15:33:25.900+08:00你好,發現有3個字在02/23版的全宋體打不出來,請問下一版能否考慮加入呢?
⿰穴瓦:宀部-07-1...你好,發現有3個字在02/23版的全宋體打不出來,請問下一版能否考慮加入呢?<br />⿰穴瓦:宀部-07-10<br />⿰牛芋:牛部-07-11<br />⿱⿱⺾穴⿱人攵:艸部-10-14<br />圖片版:https://cloud.freemdict.com/index.php/s/Y3NppGGMng8r39H<br />yukihttps://www.blogger.com/profile/17279912001433539726noreply@blogger.comtag:blogger.com,1999:blog-8083418832420346104.post-35723631190993872532023-04-24T21:59:13.241+08:002023-04-24T21:59:13.241+08:00仁兄好,发现一个字字体里面没有收录,就是嘟字,但是在者下面日字的右上角有一个小点。这个字实际上同嘟字...仁兄好,发现一个字字体里面没有收录,就是嘟字,但是在者下面日字的右上角有一个小点。这个字实际上同嘟字,是三民大词典里面收录的字。毛小驴https://www.blogger.com/profile/18058820143874981357noreply@blogger.comtag:blogger.com,1999:blog-8083418832420346104.post-59020159312010438862023-02-23T22:58:54.147+08:002023-02-23T22:58:54.147+08:00先生的指教有其參考價值,何必刪呢,呵呵!先生的指教有其參考價值,何必刪呢,呵呵!WFGhttps://www.blogger.com/profile/14004240365298046569noreply@blogger.comtag:blogger.com,1999:blog-8083418832420346104.post-89034408339588972902023-02-23T19:55:37.327+08:002023-02-23T19:55:37.327+08:00我的問題太多了,自我肅清一下,呵呵~我的問題太多了,自我肅清一下,呵呵~Walter Paihttps://www.blogger.com/profile/08871044254072485928noreply@blogger.comtag:blogger.com,1999:blog-8083418832420346104.post-57672509275748752162023-02-23T18:35:44.021+08:002023-02-23T18:35:44.021+08:00竟然這麼快就更新了!真不好意思,只能再次說謝謝了!竟然這麼快就更新了!真不好意思,只能再次說謝謝了!Walter Paihttps://www.blogger.com/profile/08871044254072485928noreply@blogger.comtag:blogger.com,1999:blog-8083418832420346104.post-6332935979693079562023-02-23T18:22:04.253+08:002023-02-23T18:22:04.253+08:00感謝指教。我沒參閱過鈴木俊哉先生的研究,我只是個業餘的愛好者,不如先生這般專業,呵呵!
我調整了一...感謝指教。我沒參閱過鈴木俊哉先生的研究,我只是個業餘的愛好者,不如先生這般專業,呵呵!<br /><br />我調整了一下,把宋本頁碼提出折疊之外,先生當可如舊使用。如此也擴大了放大顯示區,可以把篆字放得更大更清楚,可謂「一舉兩得」。<br /><br />現在版面上所有的篆字圖,包含小徐及段注,點擊後都能顯示放大,請重新下載,更新即可。<br /><br />至於避諱字,我的用意不在保留,而是儘量忠於刻本,讓查閱者清楚真實的情況。對於某些研究版本的人,避諱字也是項重要資訊,可以佐證成書的時代。做為工具,我只儘量忠實呈現,至於有無意義,就交給使用者自行去評斷。<br />WFGhttps://www.blogger.com/profile/14004240365298046569noreply@blogger.comtag:blogger.com,1999:blog-8083418832420346104.post-41507018962544132352023-02-23T15:37:02.010+08:002023-02-23T15:37:02.010+08:00作者已經移除這則留言。Walter Paihttps://www.blogger.com/profile/08871044254072485928noreply@blogger.comtag:blogger.com,1999:blog-8083418832420346104.post-46941888748276434682023-02-23T15:10:33.503+08:002023-02-23T15:10:33.503+08:00作者已經移除這則留言。Walter Paihttps://www.blogger.com/profile/08871044254072485928noreply@blogger.com