Skip to content

mozillazg/pinyin-data

Folders and files

NameName
Last commit message
Last commit date

Latest commit

fa9761f · Jan 12, 2025
Mar 13, 2021
Dec 11, 2023
Jun 21, 2020
Jan 12, 2025
Sep 19, 2021
Sep 19, 2021
Jun 6, 2020
Jan 12, 2025
Sep 24, 2016
Feb 22, 2016
Nov 13, 2021
Jan 12, 2025
Jul 30, 2022
Jul 12, 2016
Apr 24, 2020
Jan 12, 2025
Jul 30, 2022
Nov 13, 2021
Jun 21, 2020
Dec 11, 2023
Jun 1, 2019
Jan 12, 2025
Mar 18, 2018
Jan 12, 2025
Jan 12, 2025
Dec 12, 2024

Repository files navigation

pinyin-data Build Status

汉字拼音数据。

数据介绍

拼音数据的格式:

{code point}: {pinyins}  # {hanzi} {comments}
  • # 开头的行是注释,行内 # 后面的字符也是注释

  • {pinyins} 中使用逗号分隔多个拼音

  • 示例:

      # 注释
      U+4E2D: zhōng,zhòng  # 中
    

拼音文件介绍:

  • kTGHZ2013.txt: Unihan DatabasekTGHZ2013 部分的拼音数据(来源于《通用规范汉字字典》的拼音数据)
  • kHanyuPinyin.txt: Unihan DatabasekHanyuPinyin 部分的拼音数据(来源于《漢語大字典》的拼音数据)
  • kXHC1983.txt: Unihan DatabasekXHC1983 部分的拼音数据(来源于《现代汉语词典》的拼音数据)
  • kHanyuPinlu.txt: Unihan DatabasekHanyuPinlu 部分的拼音数据(来源于《現代漢語頻率詞典》的拼音数据)
  • kMandarin.txt: Unihan DatabasekMandarin 部分的拼音数据(普通话中最常用的一个读音。zh-CN 为主,如果 zh-CN 中没有则使用 zh-TW 中的拼音)
  • kMandarin_overwrite.txt: 手工纠正 kMandarin.txt 中有误的拼音数据(可以修改
  • GBK_PUA.txt: Private Use Area 中有拼音的汉字,参考 GB 18030 - 维基百科,自由的百科全书可以修改
  • nonCJKUI.txt: 不属于 CJK Unified Ideograph 但是却有拼音的字符(可以修改
  • kanji.txt: 日本自造汉字 的拼音数据 (可以修改
  • kMandarin_8105.txt: 《通用规范汉字表》(2013 年版)里 8105 个汉字最常用的一个读音 (可以修改)
  • overwrite.txt: 手工纠正的拼音数据(可以修改
  • pinyin.txt: 合并上述文件后的拼音数据
  • zdic.txt: 汉典网 的拼音数据(可以修改
  • cc_cedict.txt: 根据 cc-cedict.org 的词语拼音数据生成的单个汉字拼音数据

Unihan Database 数据版本:

Date: 2024-07-31 00:00:00 GMT [KL]

Unicode version: 16.0.0

修改数据

  • 上面标注了 可以修改 字样的文件都可以直接修改
  • 如果汉字的拼音不需要修改,只是调整第一个读音的话,可以直接修改 kMandarin_8105.txt 这个文件
  • 执行 merge_unihan 命令可以按照合并规则生成最新的 pinyin.txt 文件
  • 进入 unihan 目录,执行 make update 命令可以更新最新的 Unihan 数据

参考资料

相关项目