收集了一些输入法词库,希望能对后来者有用.
如果觉得不错,点点 star.
- 上一次更新是在 2023 年末尾.
- 过去了一年多,我对词库以及输入法有了新的理解.
- 所以我决定重构词库.
主要做五件事
- 重新对词库分类,并新增一些类别
- 添加码表(汉字集,常用汉字集,全拼,86五笔,98五笔,笔画,拆字,小鹤辅助码,自然码辅助码)
- 使用新的格式,将 txt 转换成 json 格式
- 生成可供 AI 训练的,文本和拼音对应的语料
- 将数据同步到 huggingface
全部更新,计划预计将于 2025 年年底完成.
在此之前,你可以使用旧版本.
git clone https://github.com/yanghao5/lexicon.git
git checkout 44a62328996be19c6d2d5383a8713bcf8971054b
码表部分包含,汉字集,常用汉字集,全拼码表,86五笔码表,98五笔码表,笔画码表,小鹤辅助码,自然码辅助码,拆字码表
- 汉字集: 一个包含许多汉字的集合
- 常用汉字集: 通用规范汉字表中包含的 8105 个汉字,和一些补充汉字
- 全拼码表: 包含汉字集中的所有汉字拼音编码,和补充汉字
- 86 五笔码表
- 98 五笔码表
- 小鹤辅助码表
- 自然码辅助码表
- 拆字码表
汉字集中包含的汉字,并非以诸如 GB2312 GB18030—2022
等标准中包含汉字为准.
而是根据流行字体中所包含的汉字,整理得到的汉字表.
这个汉字表会随着字体的更新而更新.
# 当前汉字集所涵盖的字体
# 安卓 思源黑体
Fonts Version 2.004R
https://github.com/adobe-fonts/source-han-sans
# 苹果 苹方
Fonts Version 19.0d5e3
https://developer.apple.com/fonts/system-fonts/
# 微软雅黑
Fonts Version 6.25
https://learn.microsoft.com/en-us/typography/fonts/windows_11_font_list
为什么要这么做?
汉字的显示需要字体的支持.
99.9999% 的普通人不会为了显示某个汉字而去安装特别的字体.
所以,我们需要一个在主流电子设备中,能正常显示的汉字集合.
而不是为了追求大而全,把 Unicode 标准中的所有汉字搞到一起.
为了显示码表中所有的汉字集合,你需要额外安装字体
https://kamichikoichi.github.io/jigmo/
type MataData struct {
Token string `json:"token"` \\ 汉字对应的文本
Unicode [][]string `json:"unicode"` \\ 汉字所对应的 Unicode
Encode [][]string `json:"encode"` \\ 对应的编码(全拼,86,98,拆字,笔画,辅助码)
ErrorEncode [][]string `json:"error_encode"` \\ 某些错误编码(仅在 全拼 和 98 提供,其他编码为空)
TextFrequency float64 `json:"textfreq"` \\ token 在文本出现的频率
PronFrequency []float64 `json:"pronfreq"` \\ token 的发音频率,对应 Encode 中的编码(仅在全拼中提供,其他为空)
Note string `json:"note"` \\ 备注
}
词库的使用具有边际效应,并不是越大越好,适合自己的才是最好的
- 词库使用 json 文本存储数据.
- 每一个 json 存储一个数组
- 数组元素格式,参考以下 go 或 py 代码
go
type MataData struct {
Token string `json:"token"` \\ 对应的文本
Encode [][]string `json:"encode"` \\ 对应的拼音编码
ErrorEncode [][]string `json:"error_encode"` \\ 某些错误拼音
TextFrequency float64 `json:"textfreq"` \\ token 在文本出现的频率
PronFrequency []float64 `json:"pronfreq"` \\ token 的发音频率,对应 Encode 中的编码
Note string `json:"note"` \\ 备注
}
py
class MataData:
def __init__(self, token, encode, error_encode, textfreq, pronfreq, note):
self.token = token
self.encode = encode
self.error_encode = error_encode
self.textfreq = textfreq
self.pronfreq = pronfreq
self.note = note
[
{
"token": "但为君故",
"encode": [
["dan","wei","jun","gu"]
],
"error_encode": [],
"textfreq": 0,
"pronfreq": [0],
"note": ""
},
{
"token": "沉吟至今",
"encode": [
["chen","yin","zhi","jin"]
],
"error_encode": [],
"textfreq": 0,
"pronfreq": [0],
"note": ""
}
]
词库名 | 介绍 |
---|---|
小词库 | 收录了 76168 条词汇,适合五笔输入法使用 |
大词库 | 收录了 265766 条词汇,适合拼音输入法使用 |
网络流行新词 | 收录了 38836 条网络词汇 |
常用聊天语 | 收录了 6451 条聊天词汇 |
缩写词库 | 收录了 858 条缩写词汇 |
词库名 | 介绍 |
---|---|
数学专业词汇 | 收录数学专业词汇,共计 15992 条 |
物理学 | 收录物理专业词汇,共计 13207 条 |
化学 | 收录化学专业词汇,共计 13264 条 |
IT | 收录 IT 词汇,共计 18530 条 |
医学 | 收录医学词汇,共计 121023 条 |
中医 | 收录中医词汇,共计 34651 条 |
植物 | 收录数学专业词汇,共计 59641 条 |
动物和生物 | 收录动物、生物和动物疾病词汇,共计 94552 条 |
法律 | 收录法律词汇,共计 13272 条 |
经济金融 | 收录经济金融,共计 13777 条 |
化学 | 收录化学词汇,共计 13264 条 |
农业 | 收录农业专业词汇,共计 8874 条 |
服装 | 收录现代服装专业和汉服的相关词汇,共计 2276 条 |
冶金 | 收录冶金词汇,共计 88284 条 |
绘画美术 | 收录绘画美术词汇,共计 6317 条 |
考古 | 收录考古专业词汇,共计 5001 条 |
船舶 | 收录船舶专业词汇,共计 4277 条 |
天文学 | 收录天文学词汇,共计 2471 条 |
建筑学 | 收录建筑学词汇,共计 7479 条 |
机械 | 收录机械专业词汇,共计 1147 条 |
电子 | 收录电子专业词汇,共计 5596 条 |
书法 | 收录书法相关词汇,共计 5977 条 |
哲学 | 收录哲学词汇,共计 3752 条 |
世界史 | 收录世界史词汇,共计 1781 条 |
古文名句 | 收录古文名句,共计 13703 条 |
汉语语法 | 收录汉语语法词汇,共计 26 条 |
英语语法术语 | 收录英语语法词汇,共计 286 条 |
石油 | 收录石油词汇,共计 2906 条 |
武术 | 收录武术词汇,共计 482 条 |
红色 | 收录红色思想词汇,共计 896 条 |
地理 | 收录地理专业词汇,共计 3124 条 |
水利 | 收录水利词汇,共计 11904 条 |
八字命理,风水玄学 | 收录玄学相关词汇,共计 505 条 |
象棋 | 收录象棋词汇,共计 1772 条 |
音乐 | 收录音乐词汇,共计 169 条 |
测绘 | 收录测绘专业词汇,共计 2586 条 |
节日 | 收录节日相关词汇,共计 212 条 |
日本 | 收录日本相关词汇,共计 1655 条 |
职称大全 | 收录职称相关词汇,共计 152 条 |
词库名 | 介绍 |
---|---|
人名 | 收录了 5022 条常见人名 |
名人 | 收录了 9673 条名人姓名 |
外国人名 | 收录了 6973 条外国人姓名 |
影视明星人名 | 收录了 1784 条外国人姓名 |
满族人名 | 收录了 820 条满族人名 |
词库名 | 介绍 |
---|---|
全国县及县以上行政区划地名 | 收录了中国行政区词汇,共计 47325 条 |
中国风景名胜 | 收录了中国风景名胜词汇,共计 1565 条 |
词库名 | 介绍 |
---|---|
食物 | 收录食物词汇,共计 10819 条 |
菜谱 | 收录菜谱,共计 1165 条 |
词库名 | 介绍 |
---|---|
古代 | 收录古代时期相关词汇,共计 32025 条 |
古典文献名录 | 收录古典文献名录共计 7537 条 |
古汉语常用词汇 | 收录古汉语常用词汇共计 910 条 |
先秦 | 收录先秦时期相关词汇,共计 1048 条 |
秦 | 收录秦朝时期相关词汇,共计 183 条 |
汉 | 收录两汉时期相关词汇,共计 304 条 |
三国 | 收录三国时期包括《三国演义》的相关词汇,共计 6994 条 |
南北朝和五代十国 | 收录南北朝和五代十国时期相关词汇,共计 2289 条 |
唐 | 收录唐朝时期相关词汇,共计 519 条 |
宋 | 收录北宋和南宋两朝相关词汇,共计 4580 条 |
元 | 收录元朝相关词汇,共计 249 条 |
明 | 收录明朝时期相关词汇,共计 300 条 |
清 | 收录清朝时期相关词汇,共计 31 条 |
曲牌名 | 收录曲牌名共计 526 条 |
词牌名 | 收录词牌名共计 1652 条 |
元代杂剧名 | 收录元代杂剧名共计 673 条 |
词库名 | 介绍 |
---|---|
道教 | 收录道教共计 1229 条 |
佛教 | 收录佛教共计 20705 条 |
伊斯兰教 | 收录伊斯兰教共计 2034 条 |
基督教 | 收录基督教共计 20 条 |
词库名 | 介绍 |
---|---|
广东话 | 收录广东地区方言 |
四川话 | 收录四川地区方言 |
庄河话 | 收录庄河地区方言 |
揭阳话 | 收录了揭阳地区方言 |
淮北话 | 收录了淮北地区方言 |
湖口话 | 收录了湖口地区方言 |
辽宁话 | 收录了辽宁地区方言 |
镇巴话 | 收录了镇巴地区方言 |
词库名 | 介绍 |
---|---|
中国高等院校名称 | 收录全国高校名称,共计 7192 条 |
精简大学名称 | 收录 985 高校名称及其缩写,共计 76 条 |
高校专业 | 收录高校专业名称,共计 441 条 |
- yy小说词库.txt
- 写作常用三字词.txt
- 头发描写.txt
- 美女形容词.txt
- 人物性格.txt
- 写作总论.txt
- 描写脸庞的词汇.txt
- 公文写作.txt
- 外貌描写大全.txt
- 神态动作.txt
- 2007-8-18 汉语新词选目.txt
- 2008-2-26 十七大报告新词.txt
- 2008-3-1 网络爱情数字代码.txt
- 2009-5-10 网络流行语.txt
- 2013-3-26 颜文字词汇.txt
- 2014-10-25 网络语言用词.txt
- 2014-11-17 实用流行新词.txt
- 2014-网络流行语.txt
- 2015-网络用语.txt
- 2016-网络词.txt
- 百度贴吧.txt
- 网络热词.txt
等待更新