This repository has been archived by the owner on May 14, 2024. It is now read-only.
-
Notifications
You must be signed in to change notification settings - Fork 10
Taiwanese Corpus語料
薛丞宏 edited this page Nov 9, 2017
·
22 revisions
目前語料都放在Taiwanese-Corpus,佮匯入專案。
各專案詳細內容請洽各專案README。
若對匯入細節有興趣,可以參考臺灣語言資料庫
的資料匯入。
提供一個方便匯入的指令,不過匯入相當耗時。建議可以邊匯入,邊編譯安裝環境時的moses
python manage.py migrate
python manage.py 匯入資料 \
https://Taiwanese-Corpus.github.io/moedict-data-twblg/轉到臺灣言語資料庫/資料/xls整理.yaml \
https://Taiwanese-Corpus.github.io/moedict-data-twblg/轉到臺灣言語資料庫/資料/異用字.yaml \
https://Taiwanese-Corpus.github.io/moe_minkalaok/閩南語卡拉OK正字字表.yaml \
https://Taiwanese-Corpus.github.io/icorpus_ka1_han3-ji7/臺華平行新聞語料庫.yaml \
https://taiwanese-corpus.github.io/nmtl_dadwt/台語文數位典藏資料庫.yaml \
https://Taiwanese-Corpus.github.io/Linya-Huang_2014_taiwanesecharacters/咱的字你敢捌.yaml \
https://taiwanese-corpus.github.io/Ungian_2009_KIPsupin/教育部臺灣閩南語字詞頻調查工作.yaml \
https://taiwanese-corpus.github.io/kok4hau7-kho3pun2/臺語國校仔課本.yaml \
https://Taiwanese-Corpus.github.io/Pakhelke-1916_KoTan-1975_hiantaiekpun-2008_taiwanese-bible/新約聖經語料.yaml \
https://Taiwanese-Corpus.github.io/moedict-data-hakka/臺灣客家語常用詞辭典網路版語料.yaml \
https://Taiwanese-Corpus.github.io/hakka_elearning/臺灣客話詞彙資料庫語料.yaml \
https://Taiwanese-Corpus.github.io/klokah_data_extract/族語E樂園.yaml \
https://Taiwanese-Corpus.github.io/amis-data/dict-amis.yaml
- xls→臺灣言語資料庫yaml
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moedict-data-twblg/轉到臺灣言語資料庫/資料/xls整理.yaml https://Taiwanese-Corpus.github.io/moedict-data-twblg/轉到臺灣言語資料庫/資料/異用字.yaml
- pdf→純文字→臺灣言語資料庫yaml
- 臺語→臺語
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moe_minkalaok/閩南語卡拉OK正字字表.yaml
- 純文字→臺灣言語資料庫yaml
- 白話字→全漢全羅
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/icorpus_ka1_han3-ji7/臺華平行新聞語料庫.yaml
- 純文字→臺灣言語工具分詞→臺灣言語資料庫yaml
- 全漢全羅
- 329476筆文本資料
https://taiwanese-corpus.github.io/nmtl_dadwt/台語文數位典藏資料庫.yaml
- html→臺灣言語資料庫yaml
- 臺語→臺語
- 988筆文本資料
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/Linya-Huang_2014_taiwanesecharacters/咱的字你敢捌.yaml
- 純文字→臺灣言語工具分詞
- 201466筆文本資料
https://taiwanese-corpus.github.io/Ungian_2005_guliau-supin/台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計.yaml
- 允言整理過的doc→json→臺灣言語資料庫yaml
- 全漢全羅
- 59558筆文本資料
https://taiwanese-corpus.github.io/Ungian_2009_KIPsupin/教育部臺灣閩南語字詞頻調查工作.yaml
- 允言整理過的doc→json→臺灣言語資料庫yaml
- 全漢全羅
https://taiwanese-corpus.github.io/kok4hau7-kho3pun2/臺語國校仔課本.yaml
- 允言整理過的doc→json→臺灣言語資料庫yaml
- 全漢全羅
https://Taiwanese-Corpus.github.io/Pakhelke-1916_KoTan-1975_hiantaiekpun-2008_taiwanese-bible/新約聖經語料.yaml
遮的語料攏猶未提供臺灣言語資料庫yaml格式,毋過大部份攏好處理。語料專案照處理方法排:%8F%E8%B3%87%E6%96%99%E5%BA%AB.yaml`
-
荷華文語類參
- xls
-
厦荷詞典
- xls
-
駱嘉鵬老師華語臺語客語文件-字典、對應表
- xls
-
Embree台英辭典
- xls
-
台文/華文線頂辭典
- xls
-
廈英大辭典
- doc→csv
-
台日大辭典台語譯本
- sql→csv
-
吳守禮《國臺對照活用辭典》電子化
- 專案內,有parser會當轉做jade格式
-
華台語文對譯
- html+xls+pdf
- (華語→)臺語
-
猶未整理的語料
- csv、xls…
- 網路語料
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moedict-data-hakka/臺灣客家語常用詞辭典網路版語料.yaml
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/hakka_elearning/臺灣客話詞彙資料庫語料.yaml
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/klokah_data_extract/族語E樂園.yaml
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/amis-data/dict-amis.yaml