倉頡之友 .自學倉頡輸入法
主頁 | 最新消息 | 自學課程 | 倉頡字典 |
倉頡平台2022 | 論壇 | 網上輸入法 |
Unicode九萬漢字 | 聯絡 | 捐助本站
康熙字頭自動切割程式 - 康熙字典論壇 - 康熙字典与倉頡之友 - Powered by Discuz!
請選擇 進入手機版 | 繼續訪問電腦版

康熙字典与倉頡之友

 找回密碼
 注册
搜索
熱搜: 活動 交友 discuz
查看: 160|回復: 2

康熙字頭自動切割程式

[複製鏈接]
發表於 7 天前 | 顯示全部樓層 |閱讀模式
前個帖子討論關於 舊康熙字頭PNG與SVG向量圖比較,我們正打算一一更新舊康熙字頭,順便逐一校對四萬七千餘個康熙字頭與unicode 13 的編碼。我們打算人工逐一的把康熙字頭剪下來,上周我與蓼汀花溆兄先試從收字較少的部及部開始人工剪圖,新舊字頭圖例子對照如下:
47476613f50a6189f0.png

確實新字頭比舊字頭更美觀了,主要採用更清晰的武英殿版本做字頭切割。不過這種切割採用電腦人工切割方法,也不知要花費多少時間,故而一直想找尋是否可有一種自動切割字頭的方法?

找了好久,看了許多文字識别OCR、版面切割的文章,但一直没法實現。至到本月初,看到賢超師父推出OCR網站:《中文古籍OCR 》https://ocr.gj.cool/ 如獲至寶,於是乎趕緊找我的好友阿宏兄一起測試使用……

78498613f59e27f556.png

一試之下不得了,所有文字座標都能檢測得到,於是阿宏兄負責用C# 編寫前台程式,同時調用 中文古籍OCR API,《康熙字頭自動切割程式》就這么産生了。
96936613f56586be2e.png

程式用了約用14小時,掃描7738頁,把所有康熙字典幾百萬字都一一檢測做文字座標,同時程式過濾只取大字頭,并一一照字書排序,再補上所要的字圖尺寸。成果圖如下:

8162613f583db5cd9.png

至此終於可以用程式自動切割,省了好多時間,《康熙字典》校對的後續工作又進一步了,特別感謝賢超師父推出OCR網站及好友阿宏兄、蓼汀花溆兄的幫忙。如果網友有意加入《康熙字典》校對義工,歡迎與我們聯絡。









發表於 7 天前 | 顯示全部樓層
太好了!说说我的感受。我始终认为赠人玫瑰,手留余香,能为社会贡献是好的。但我人工切字等等,一天才做了大约10-20字,用除法一算,90000字也要大约900天,每天10个字,如果那一天没有机会做,便又延后一天了。以上的自动切字实在是大大增加了效率,实在是一大好消息。康熙字典的工作是一项温故知新的过程,回顾过去的心血,不但不过时,反而让我们的思想更加超前。举个例子,“龠”字本身第一撇的笔画更长,这让我们看见古人审美观的不同,这让我们反思,为何字形一定要左右对称呢?这样一来,既尊重了历史,也帮助我们跳开思想框框。
不要害怕自己时间不够所以不敢加入,我时间表也是满满地,挤一挤总会有时间的
發表於 昨天 05:44 PM | 顯示全部樓層
阿宏兄用C# 編寫的前台程式可否分享呢
您需要登錄後才可以回帖 登錄 | 注册

本版積分規則

Archiver|手機版|小黑屋|康熙字典与倉頡之友

GMT+8, 20-9-2021 07:36 PM , Processed in 0.062112 second(s), 7 queries , File On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回復 返回頂部 返回列表