倉頡之友
康熙与倉頡
主頁 自學 倉頡字典 康熙字典體

倉頡平台2022 網上輸入法 九萬漢字

論壇 聯絡 康熙字典網上版 捐助本站

康熙字典論壇

康熙字頭自動切割程式
  • 1# 阿勤
  • 7813513-9-2021 21:17:53
前個帖子討論關於 舊康熙字頭PNG與SVG向量圖比較,我們正打算一一更新舊康熙字頭,順便逐一校對四萬七千餘個康熙字頭與unicode 13 的編碼。我們打算人工逐一的把康熙字頭剪下來,上周我與蓼汀花溆兄先試從收字較少的部及部開始人工剪圖,新舊字頭圖例子對照如下:
47476613f50a6189f0.png

確實新字頭比舊字頭更美觀了,主要採用更清晰的武英殿版本做字頭切割。不過這種切割採用電腦人工切割方法,也不知要花費多少時間,故而一直想找尋是否可有一種自動切割字頭的方法?

找了好久,看了許多文字識别OCR、版面切割的文章,但一直没法實現。至到本月初,看到賢超師父推出OCR網站:《中文古籍OCR 》https://ocr.gj.cool/ 如獲至寶,於是乎趕緊找我的好友阿宏兄一起測試使用……

78498613f59e27f556.png

一試之下不得了,所有文字座標都能檢測得到,於是阿宏兄負責用C# 編寫前台程式,同時調用 中文古籍OCR API,《康熙字頭自動切割程式》就這么産生了。
96936613f56586be2e.png

程式用了約用14小時,掃描7738頁,把所有康熙字典幾百萬字都一一檢測做文字座標,同時程式過濾只取大字頭,并一一照字書排序,再補上所要的字圖尺寸。成果圖如下:

8162613f583db5cd9.png

至此終於可以用程式自動切割,省了好多時間,《康熙字典》校對的後續工作又進一步了,特別感謝賢超師父推出OCR網站及好友阿宏兄、蓼汀花溆兄的幫忙。如果網友有意加入《康熙字典》校對義工,歡迎與我們聯絡。









倒序瀏覽 看全部 全部回復5
太好了!说说我的感受。我始终认为赠人玫瑰,手留余香,能为社会贡献是好的。但我人工切字等等,一天才做了大约10-20字,用除法一算,90000字也要大约900天,每天10个字,如果那一天没有机会做,便又延后一天了。以上的自动切字实在是大大增加了效率,实在是一大好消息。康熙字典的工作是一项温故知新的过程,回顾过去的心血,不但不过时,反而让我们的思想更加超前。举个例子,“龠”字本身第一撇的笔画更长,这让我们看见古人审美观的不同,这让我们反思,为何字形一定要左右对称呢?这样一来,既尊重了历史,也帮助我们跳开思想框框。
不要害怕自己时间不够所以不敢加入,我时间表也是满满地,挤一挤总会有时间的
阿宏兄用C# 編寫的前台程式可否分享呢
  • 4# 阿勤
  • 21-9-2021 09:33:28
一苇呀 發表於 19-9-2021 05:44 PM
阿宏兄用C# 編寫的前台程式可否分享呢

不必急,機緣到了事情自然成。在機緣未到時,中文OCR編程大家仍需努力。
  • 5# 阿勤
  • 24-10-2021 22:35:54
切割程式再度升級,可以自動放大邊沿切割文字,讓切割康熙字頭更為完美,以《龠》部字頭為例,準確率幾乎已逹到100%,其他部首字也逹98%以上的準確率。


4205961756e5fd2988.png


  • 6# 阿勤
  • 25-10-2021 10:25:57
25482617614a5d7691.png

有時切割時會上下左右不齊,為了更美觀端正,今日增强程式功能,自動做字體下邊水平對齊。

11830617615915765f.png
回復 收藏 淘帖