Skip to content

yanghao5/lexicon

Repository files navigation

输入法词库整理

收集了一些输入法词库,希望能对后来者有用.

如果觉得不错,点点 star.

更新说明(2025.05.09)

  • 上一次更新是在 2023 年末尾.
  • 过去了一年多,我对词库以及输入法有了新的理解.
  • 所以我决定重构词库.

主要做五件事

  • 重新对词库分类,并新增一些类别
  • 添加码表(汉字集,常用汉字集,全拼,86五笔,98五笔,笔画,拆字,小鹤辅助码,自然码辅助码)
  • 使用新的格式,将 txt 转换成 json 格式
  • 生成可供 AI 训练的,文本和拼音对应的语料
  • 将数据同步到 huggingface

全部更新,计划预计将于 2025 年年底完成.

在此之前,你可以使用旧版本.

git clone https://github.com/yanghao5/lexicon.git
git checkout 44a62328996be19c6d2d5383a8713bcf8971054b

码表说明(experimental)

码表部分包含,汉字集,常用汉字集,全拼码表,86五笔码表,98五笔码表,笔画码表,小鹤辅助码,自然码辅助码,拆字码表

  • 汉字集: 一个包含许多汉字的集合
  • 常用汉字集: 通用规范汉字表中包含的 8105 个汉字,和一些补充汉字
  • 全拼码表: 包含汉字集中的所有汉字拼音编码,和补充汉字
  • 86 五笔码表
  • 98 五笔码表
  • 小鹤辅助码表
  • 自然码辅助码表
  • 拆字码表

汉字集特别说明

汉字集中包含的汉字,并非以诸如 GB2312 GB18030—2022 等标准中包含汉字为准.

而是根据流行字体中所包含的汉字,整理得到的汉字表.

这个汉字表会随着字体的更新而更新.

# 当前汉字集所涵盖的字体

# 安卓 思源黑体 
Fonts Version 2.004R
https://github.com/adobe-fonts/source-han-sans 

# 苹果 苹方
Fonts Version 19.0d5e3
https://developer.apple.com/fonts/system-fonts/

# 微软雅黑
Fonts Version 6.25
https://learn.microsoft.com/en-us/typography/fonts/windows_11_font_list

为什么要这么做?

汉字的显示需要字体的支持.

99.9999% 的普通人不会为了显示某个汉字而去安装特别的字体.

所以,我们需要一个在主流电子设备中,能正常显示的汉字集合.

而不是为了追求大而全,把 Unicode 标准中的所有汉字搞到一起.

字体安装

为了显示码表中所有的汉字集合,你需要额外安装字体

https://kamichikoichi.github.io/jigmo/

结构

type MataData struct {
	Token         string     `json:"token"` \\ 汉字对应的文本
	Unicode       [][]string `json:"unicode"` \\ 汉字所对应的 Unicode
	Encode        [][]string `json:"encode"` \\ 对应的编码全拼8698拆字笔画辅助码ErrorEncode   [][]string `json:"error_encode"` \\ 某些错误编码仅在 全拼  98 提供其他编码为空TextFrequency float64    `json:"textfreq"` \\ token 在文本出现的频率
	PronFrequency []float64  `json:"pronfreq"` \\ token 的发音频率对应 Encode 中的编码仅在全拼中提供其他为空Note          string     `json:"note"` \\ 备注
}

词库说明(experimental)

词库的使用具有边际效应,并不是越大越好,适合自己的才是最好的

词库文件结构 (experimental)

  • 词库使用 json 文本存储数据.
  • 每一个 json 存储一个数组
  • 数组元素格式,参考以下 go 或 py 代码

go

type MataData struct {
	Token         string     `json:"token"` \\ 对应的文本
	Encode        [][]string `json:"encode"` \\ 对应的拼音编码
	ErrorEncode   [][]string `json:"error_encode"` \\ 某些错误拼音
	TextFrequency float64    `json:"textfreq"` \\ token 在文本出现的频率
	PronFrequency []float64  `json:"pronfreq"` \\ token 的发音频率对应 Encode 中的编码
	Note          string     `json:"note"` \\ 备注
}

py

class MataData:
    def __init__(self, token, encode, error_encode, textfreq, pronfreq, note):
        self.token = token
        self.encode = encode              
        self.error_encode = error_encode  
        self.textfreq = textfreq         
        self.pronfreq = pronfreq          
        self.note = note

示例

[
    {
        "token": "但为君故",
        "encode": [
            ["dan","wei","jun","gu"]
        ],
        "error_encode": [],
        "textfreq": 0,
        "pronfreq": [0],
        "note": ""
    },
    {
        "token": "沉吟至今",
        "encode": [
            ["chen","yin","zhi","jin"]
        ],
        "error_encode": [],
        "textfreq": 0,
        "pronfreq": [0],
        "note": ""
    }
]

词库一览(experimental)

词库名 介绍
小词库 收录了 76168 条词汇,适合五笔输入法使用
大词库 收录了 265766 条词汇,适合拼音输入法使用
网络流行新词 收录了 38836 条网络词汇
常用聊天语 收录了 6451 条聊天词汇
缩写词库 收录了 858 条缩写词汇

专业性词库(experimental)

词库名 介绍
数学专业词汇 收录数学专业词汇,共计 15992 条
物理学 收录物理专业词汇,共计 13207 条
化学 收录化学专业词汇,共计 13264 条
IT 收录 IT 词汇,共计 18530 条
医学 收录医学词汇,共计 121023 条
中医 收录中医词汇,共计 34651 条
植物 收录数学专业词汇,共计 59641 条
动物和生物 收录动物、生物和动物疾病词汇,共计 94552 条
法律 收录法律词汇,共计 13272 条
经济金融 收录经济金融,共计 13777 条
化学 收录化学词汇,共计 13264 条
农业 收录农业专业词汇,共计 8874 条
服装 收录现代服装专业和汉服的相关词汇,共计 2276 条
冶金 收录冶金词汇,共计 88284 条
绘画美术 收录绘画美术词汇,共计 6317 条
考古 收录考古专业词汇,共计 5001 条
船舶 收录船舶专业词汇,共计 4277 条
天文学 收录天文学词汇,共计 2471 条
建筑学 收录建筑学词汇,共计 7479 条
机械 收录机械专业词汇,共计 1147 条
电子 收录电子专业词汇,共计 5596 条
书法 收录书法相关词汇,共计 5977 条
哲学 收录哲学词汇,共计 3752 条
世界史 收录世界史词汇,共计 1781 条
古文名句 收录古文名句,共计 13703 条
汉语语法 收录汉语语法词汇,共计 26 条
英语语法术语 收录英语语法词汇,共计 286 条
石油 收录石油词汇,共计 2906 条
武术 收录武术词汇,共计 482 条
红色 收录红色思想词汇,共计 896 条
地理 收录地理专业词汇,共计 3124 条
水利 收录水利词汇,共计 11904 条
八字命理,风水玄学 收录玄学相关词汇,共计 505 条
象棋 收录象棋词汇,共计 1772 条
音乐 收录音乐词汇,共计 169 条
测绘 收录测绘专业词汇,共计 2586 条
节日 收录节日相关词汇,共计 212 条
日本 收录日本相关词汇,共计 1655 条
职称大全 收录职称相关词汇,共计 152 条

人名 (experimental)

词库名 介绍
人名 收录了 5022 条常见人名
名人 收录了 9673 条名人姓名
外国人名 收录了 6973 条外国人姓名
影视明星人名 收录了 1784 条外国人姓名
满族人名 收录了 820 条满族人名

地名 (experimental)

词库名 介绍
全国县及县以上行政区划地名 收录了中国行政区词汇,共计 47325 条
中国风景名胜 收录了中国风景名胜词汇,共计 1565 条

食物(experimental)

词库名 介绍
食物 收录食物词汇,共计 10819 条
菜谱 收录菜谱,共计 1165 条

古代(experimental)

词库名 介绍
古代 收录古代时期相关词汇,共计 32025 条
古典文献名录 收录古典文献名录共计 7537 条
古汉语常用词汇 收录古汉语常用词汇共计 910 条
先秦 收录先秦时期相关词汇,共计 1048 条
收录秦朝时期相关词汇,共计 183 条
收录两汉时期相关词汇,共计 304 条
三国 收录三国时期包括《三国演义》的相关词汇,共计 6994 条
南北朝和五代十国 收录南北朝和五代十国时期相关词汇,共计 2289 条
收录唐朝时期相关词汇,共计 519 条
收录北宋和南宋两朝相关词汇,共计 4580 条
收录元朝相关词汇,共计 249 条
收录明朝时期相关词汇,共计 300 条
收录清朝时期相关词汇,共计 31 条
曲牌名 收录曲牌名共计 526 条
词牌名 收录词牌名共计 1652 条
元代杂剧名 收录元代杂剧名共计 673 条

宗教(experimental)

词库名 介绍
道教 收录道教共计 1229 条
佛教 收录佛教共计 20705 条
伊斯兰教 收录伊斯兰教共计 2034 条
基督教 收录基督教共计 20 条

方言(experimental)

词库名 介绍
广东话 收录广东地区方言
四川话 收录四川地区方言
庄河话 收录庄河地区方言
揭阳话 收录了揭阳地区方言
淮北话 收录了淮北地区方言
湖口话 收录了湖口地区方言
辽宁话 收录了辽宁地区方言
镇巴话 收录了镇巴地区方言

高校及专业名(experimental)

词库名 介绍
中国高等院校名称 收录全国高校名称,共计 7192 条
精简大学名称 收录 985 高校名称及其缩写,共计 76 条
高校专业 收录高校专业名称,共计 441 条

写作(experimental)

  • yy小说词库.txt
  • 写作常用三字词.txt
  • 头发描写.txt
  • 美女形容词.txt
  • 人物性格.txt
  • 写作总论.txt
  • 描写脸庞的词汇.txt
  • 公文写作.txt
  • 外貌描写大全.txt
  • 神态动作.txt

流行词库(experimental)

  • 2007-8-18 汉语新词选目.txt
  • 2008-2-26 十七大报告新词.txt
  • 2008-3-1 网络爱情数字代码.txt
  • 2009-5-10 网络流行语.txt
  • 2013-3-26 颜文字词汇.txt
  • 2014-10-25 网络语言用词.txt
  • 2014-11-17 实用流行新词.txt
  • 2014-网络流行语.txt
  • 2015-网络用语.txt
  • 2016-网络词.txt
  • 百度贴吧.txt
  • 网络热词.txt

AI 语言模型语料(experimental)

等待更新

参考(experimental)

About

输入法词库整理

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published