倉頡之友
康熙与倉頡
主頁 自學 倉頡字典 康熙字典體

倉頡平台2022 網上輸入法 九萬漢字

論壇 聯絡 康熙字典網上版 捐助本站
蒼頡檢字法《內碼對照表》文本化計劃 - 倉頡論壇 - 康熙字典与倉頡之友 - Powered by Discuz!



 找回密碼
 注册
查看: 63|回復: 6

蒼頡檢字法《內碼對照表》文本化計劃

[複製鏈接]
發表於 昨天 06:45 PM | 顯示全部樓層 |閱讀模式
長久以來,坊間流傳的蒼頡檢字法(蒼頡六代)碼表,由於整理時間較早,且編寫者最初對蒼頡檢字法的輔助字形與規則等理解不足,導致存在許多錯誤和不自洽之處,與官方碼表牴牾,甚至出現了出於作者喜好而修改常見字編碼的情況。
然而,由於倉頡官方使用的內碼系統不同於現今流行的 Unicode,官方交予坊間的資料僅有一份 PDF 文件和一份文本化不完全的 Word 文件。在這份 Word 文件中,僅有部分基本區和少數 A 區漢字得以文本化,其餘漢字則以 &~倉頡碼;的形式代替,例如:
字符
蒼檢編碼
2003 版五代倉頡編碼
&~IKYAJ;
IKYAJ
IKYAJ
IL
IL
由於文本化的不完全以及其中存在的 Unicode 對應錯誤,這份 Word 中的編碼無法滿足日常使用。因此,蒼頡檢字法用戶不得不繼續使用坊間存在諸多錯訛的碼表,導致許多新用戶被錯誤編碼誤導。
出於改善倉頡輸入法生態、為社區盡一份力的意願,我與 @InSb 共同啟動了蒼頡文本化計劃,將《內碼對照表》PDF 中的內容,在 Word 文件的基礎上逐行輸入至電腦,以期讓基於 Unicode 的計算機也能使用到原汁原味的蒼頡檢字法碼表。

 樓主| 發表於 昨天 06:48 PM | 顯示全部樓層
特點

① 完全忠實於官方編碼

本碼表完全忠實於官方蒼頡檢字法碼表,不更改《內碼對照表》的編碼,即使其中存在筆誤亦然,完全體現蒼頡檢字法原貌。

② 採用 IDS 表示未收錄漢字

對於尚未收錄於 Unicode 的漢字,我們採用表意文字描述符(IDS,Ideograph Description Sequence)表示,例如:&~AABDD; 目前尚未收入 Unicode,暫以「⿱昍冧」代之。

③ 增設「全碼」欄位

除了官方的「蒼頡檢字法官方內碼」與「2003 版五代內碼」以外,我們另增二欄,以方便用戶使用:

1. 蒼頡檢字法全碼

《內碼對照表》中收錄的蒼頡檢字法編碼與 2003 版五代編碼皆為內碼,為保證唯一性,蒼頡檢字法編碼後面可能帶有數字。

碼長小於五時: 數字不會佔去編碼,例如:「已」SU1 (全碼 SU)。
碼長等於五時: 數字可能佔去編碼,例如:「𢻽」MVIY1 (全碼 MVIYE)。
此欄會參考蒼頡檢字法輔助字形和重碼情況,刪去或補足編碼,以提供完整的編碼。

2. 2003 版五代倉頡全碼

由於該項資料已於《漢文庫典》中提供,我們使用 Danny Lin @Danny0838 爬取的《漢文庫典》數據。

④ 碼表排列形式

文本化後的碼表以以下形式排列:
漢字或 IDS蒼頡檢字法官方內碼蒼頡檢字法全碼2003 版五代內碼2003 版五代全碼

 樓主| 發表於 昨天 06:49 PM | 顯示全部樓層
本帖最後由 馬拉一個錘子 於 2-11-2025 07:06 PM 編輯

經過文本化,若不計入同一Unicode字符不同編碼的情況,則本碼表目前收錄以下區域的漢字,日後若 Unicode 擴增,此處統計可能更新。
Unicode區塊
字數
Unicode CJK基本區
20916
Unicode CJK康熙部首增補
7
Unicode CJK擴展A區
6577
Unicode CJK擴展B區
30542
Unicode CJK擴展C區
183
Unicode CJK擴展D區
6
Unicode CJK擴展E區
214
Unicode CJK擴展F區
332
Unicode CJK擴展G區
140
Unicode CJK擴展H區
104
Unicode CJK擴展I區
20
Unicode CJK擴展J區
126
Unicode CJK相容表意字符
16
Unicode CJK筆劃
4
Unicode未收錄字符
5226
其他字符
78




 樓主| 發表於 昨天 06:50 PM | 顯示全部樓層
下面不完全列舉本碼表與坊間蒼頡檢字法碼表的不同之處:
漢字
本碼表(官方)
坊間蒼頡檢字法碼表
備注

SU1/SU
SYU
 

MN1/MN
MNI
坊間編寫時不知有「癶的左邊」輔助字形

MNLN
MNILN
同上

HNMN
HNMNI
同上

MNMN
MNMNI
同上

HNMZ
HNMHZ
 

HYBT
HBYT
未遵循「上下形上方為半封閉形與下分離時視作字首」規則

WMLL
AJ
坊間蒼頡檢字法取碼原因不明

LWLM
JA
坊間蒼頡檢字法取碼原因不明

JBNI
JMTN
坊間編寫時不知有相關輔助字形

OPY
OPYTH
坊間「产」部件取碼不統一,此處錯誤地未使用「产」輔助字形

TNLY
TNLY
坊間「萨」編碼正確,但與前述「铲」取碼矛盾

OMPNO
OPNO
未使用「反字身」規則

OMPOG
OPOG
同上

OPTQR
OPTGR
不存在的字形

YOK
YOK/YONK
坊間蒼頡檢字法編碼時不知有“夜的右下角”輔助字形

HLAI
HLUI
誤用不存在的輔助字形

RRMBR
RRMOR
 
𩰲
NZ
NNMRB
未使用「Z」部的輔助字形,與「鬻」取碼矛盾

CWA
CWFA
「CWFA」編碼僅適用於上部寫「八」的字形
𡆵
WX
WLLL
未使用「止」部的輔助字形,因坊間編寫時不知有此輔助字形


 樓主| 發表於 昨天 06:51 PM | 顯示全部樓層
下載本碼表,及瞭解更多,請到GitHub專案頁
 樓主| 發表於 昨天 07:10 PM | 顯示全部樓層
感謝 @wcshds、@yi-bai 先生,為我和 @Insb 的文本化工作提供了許多支持,若沒有這些協助,蒼頡檢字法文本化計劃不會以如此高的品質與大家見面。

感謝 @Danny0838 爬取的漢文庫典資料,使得我們可以方便準確地补全2003版五代倉頡的全碼。
發表於 昨天 08:28 PM | 顯示全部樓層
感謝大家的幫助!

專案現歸於我名下,如有疑問可於專案留言,或在本帖回覆。
您需要登錄後才可以回帖 登錄 | 注册

本版積分規則

Archiver|手機版|小黑屋|康熙字典与倉頡之友

GMT+8, 3-11-2025 01:35 PM , Processed in 0.047649 second(s), 9 queries , File On.

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回復 返回頂部 返回列表






倉頡之友 .自學倉頡輸入法    1997 - 2025   
馬來西亞    https://www.chinesecj.com
姐妹站:康熙字典網上版