Categorygithub.com/imetool/dtool
repositorypackage
0.7.3
Repository: https://github.com/imetool/dtool.git
Documentation: pkg.go.dev

# Packages

No description provided by the author

# README

词库处理工具

GitHub Repo stars GitHub forks GitHub release (latest by date) GitHub Workflow Status GitHub repo size GitHub

词库处理工具,词库编码,词库格式转换,词库校验,出简不出全。

关于词库格式的详细解析可以到我的博客查看。

拼音词库转换

纯文本:

描述代号词条格式编码格式
搜狗拼音sogou拼音('分隔)
qq 拼音qq拼音('分隔) 词频
百度拼音baidu\t拼音('分隔)\t词频
谷歌拼音google\t词频\t拼音(空格分隔)
拼音加加pyjj字音字音字音...
纯汉字word_only一词一行

纯汉字词库会自动注音,所以你可以当成注音工具使用。

二进制:

加粗项支持输出

描述代号格式
搜狗细胞词库、qq6.0 以上词库sogou_scel.scel|.qcel
搜狗拼音备份词库sogou_bin.bin
qq6.0 以下词库qq_qpyd.qpyd
百度分类词库baidu_bdict.bdict|.bcd
紫光(华宇)ziguang_uwl.uwl
微软用户自定义短语mspy_dat.dat
微软拼音自学习词汇mspy_udl.dat

字词码表转换

纯文本:

描述代号词条格式编码格式
多多duoduo\t编码
冰凌bingling编码\tUTF-16LE
极点jidian编码\t词 1 词 2...

二进制:

加粗项支持输出

描述代号格式
百度手机自定义方案baidu_def.def
微软用户自定义短语msudp_dat.dat
极点jidian_mb.mb
fcitx4fcitx4_mb.mb
小胖输入法pang.bin
小胖输入法 assocpang_assoc.assoc.bin

转双拼词库

全拼词库转为双拼四码定长码表,需要一个双拼映射表,格式为手心输入法,具体可以看示例

词库编码和校验

仅支持多多格式,其他格式需先行转换

编码选择纯词词库,校验选择带编码的多多格式词库。

形如 2=AaAbBaBb,3=AaAbBaCa,0=AaBaCaZa ,等号前数字表示词长,0 表示未指定的词长。

也可以简写为 2=AABB,3=AABC,0=ABCZ

对于整句,ab...(必须以...结尾) 表示取每个字编码的前两码

全码转简码码表

仅支持多多格式,其他格式需先行转换

出简不出全规则:逗号,冒号分隔,默认 1,n 无限

例子: "1:0, 2:3, 3:2, 6:n"
#  无 1 简,2 码 3 重,3 码 2 重,4 码 1 重,5 码 1 重,6 码无限重