前個帖子討論關於
舊康熙字頭PNG與SVG向量圖比較,我們正打算一一更新舊康熙字頭,順便逐一校對四萬七千餘個康熙字頭與unicode 13 的編碼。我們打算人工逐一的把康熙字頭剪下來,上周我與蓼汀花溆兄先試從收字較少的
龠部及
爻部開始人工剪圖,新舊字頭圖例子對照如下:
確實新字頭比舊字頭更美觀了,主要採用更清晰的武英殿版本做字頭切割。不過這種切割採用電腦人工切割方法,也不知要花費多少時間,故而一直想找尋是否可有一種自動切割字頭的方法?
找了好久,看了許多文字識别OCR、版面切割的文章,但一直没法實現。至到本月初,看到賢超師父推出OCR網站:《中文古籍OCR 》
https://ocr.gj.cool/ 如獲至寶,於是乎趕緊找我的好友阿宏兄一起測試使用……
一試之下不得了,所有文字座標都能檢測得到,於是阿宏兄負責用C# 編寫前台程式,同時調用 中文古籍OCR API,《康熙字頭自動切割程式》就這么産生了。
程式用了約用14小時,掃描7738頁,把所有康熙字典幾百萬字都一一檢測做文字座標,同時程式過濾只取大字頭,并一一照字書排序,再補上所要的字圖尺寸。成果圖如下:
至此終於可以用程式自動切割,省了好多時間,《康熙字典》校對的後續工作又進一步了,特別感謝賢超師父推出OCR網站及好友阿宏兄、蓼汀花溆兄的幫忙。如果網友有意加入《康熙字典》校對義工,歡迎與我們聯絡。