Skip to content
This repository has been archived by the owner on May 14, 2024. It is now read-only.

Taiwanese Corpus語料

薛丞宏 edited this page Nov 9, 2017 · 22 revisions

目前語料都放在Taiwanese-Corpus,佮匯入專案

各專案詳細內容請洽各專案README。

若對匯入細節有興趣,可以參考臺灣語言資料庫資料匯入

全部匯入

提供一個方便匯入的指令,不過匯入相當耗時。建議可以邊匯入,邊編譯安裝環境時的moses

python manage.py migrate
python manage.py 匯入資料 \
https://Taiwanese-Corpus.github.io/moedict-data-twblg/轉到臺灣言語資料庫/資料/xls整理.yaml \
https://Taiwanese-Corpus.github.io/moedict-data-twblg/轉到臺灣言語資料庫/資料/異用字.yaml \
https://Taiwanese-Corpus.github.io/moe_minkalaok/閩南語卡拉OK正字字表.yaml \
https://Taiwanese-Corpus.github.io/icorpus_ka1_han3-ji7/臺華平行新聞語料庫.yaml \
https://taiwanese-corpus.github.io/nmtl_dadwt/台語文數位典藏資料庫.yaml \
https://Taiwanese-Corpus.github.io/Linya-Huang_2014_taiwanesecharacters/咱的字你敢捌.yaml \
https://taiwanese-corpus.github.io/Ungian_2009_KIPsupin/教育部臺灣閩南語字詞頻調查工作.yaml \
https://taiwanese-corpus.github.io/kok4hau7-kho3pun2/臺語國校仔課本.yaml \
https://Taiwanese-Corpus.github.io/Pakhelke-1916_KoTan-1975_hiantaiekpun-2008_taiwanese-bible/新約聖經語料.yaml \
https://Taiwanese-Corpus.github.io/moedict-data-hakka/臺灣客家語常用詞辭典網路版語料.yaml \
https://Taiwanese-Corpus.github.io/hakka_elearning/臺灣客話詞彙資料庫語料.yaml \
https://Taiwanese-Corpus.github.io/klokah_data_extract/族語E樂園.yaml \
https://Taiwanese-Corpus.github.io/amis-data/dict-amis.yaml

臺語/閩南語

  • xls→臺灣言語資料庫yaml
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moedict-data-twblg/轉到臺灣言語資料庫/資料/xls整理.yaml https://Taiwanese-Corpus.github.io/moedict-data-twblg/轉到臺灣言語資料庫/資料/異用字.yaml
  • pdf→純文字→臺灣言語資料庫yaml
  • 臺語→臺語
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moe_minkalaok/閩南語卡拉OK正字字表.yaml
  • 純文字→臺灣言語資料庫yaml
  • 白話字→全漢全羅
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/icorpus_ka1_han3-ji7/臺華平行新聞語料庫.yaml
  • 純文字→臺灣言語工具分詞→臺灣言語資料庫yaml
  • 全漢全羅
  • 329476筆文本資料
  • https://taiwanese-corpus.github.io/nmtl_dadwt/台語文數位典藏資料庫.yaml
  • html→臺灣言語資料庫yaml
  • 臺語→臺語
  • 988筆文本資料
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/Linya-Huang_2014_taiwanesecharacters/咱的字你敢捌.yaml
  • 純文字→臺灣言語工具分詞
  • 201466筆文本資料
  • https://taiwanese-corpus.github.io/Ungian_2005_guliau-supin/台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計.yaml
  • 允言整理過的doc→json→臺灣言語資料庫yaml
  • 全漢全羅
  • 59558筆文本資料
  • https://taiwanese-corpus.github.io/Ungian_2009_KIPsupin/教育部臺灣閩南語字詞頻調查工作.yaml
  • 允言整理過的doc→json→臺灣言語資料庫yaml
  • 全漢全羅
  • https://taiwanese-corpus.github.io/kok4hau7-kho3pun2/臺語國校仔課本.yaml
  • 允言整理過的doc→json→臺灣言語資料庫yaml
  • 全漢全羅
  • https://Taiwanese-Corpus.github.io/Pakhelke-1916_KoTan-1975_hiantaiekpun-2008_taiwanese-bible/新約聖經語料.yaml

猶未整理

遮的語料攏猶未提供臺灣言語資料庫yaml格式,毋過大部份攏好處理。語料專案照處理方法排:%8F%E8%B3%87%E6%96%99%E5%BA%AB.yaml`

客家話

python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moedict-data-hakka/臺灣客家語常用詞辭典網路版語料.yaml
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/hakka_elearning/臺灣客話詞彙資料庫語料.yaml

猶未整理

族語

python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/klokah_data_extract/族語E樂園.yaml
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/amis-data/dict-amis.yaml

猶未整理