Skip to content

g0v/hakka_elearning

Repository files navigation

客語能力認證資料檔

資料來源

下載語料

sudo apt-get install -y python3 python-virtualenv g++ libxml2-dev libxslt-dev python-dev
virtualenv --python=python3 venv
. venv/bin/activate
pip install -r requirements.txt
python 下載資料/臺灣客語詞彙資料庫.py 
  • 合併/原始.csv是合併臺灣客話詞彙資料庫全部的xls
  • 合併/網站詞目.csv是臺灣客話詞彙資料庫網頁上的資料

兩個檔除了少部份(14條)詞目不同外,合併/網站詞目.csv多包含外來語。

針對合併/網站詞目.csv處理造字,並轉出網站詞目補造字.csv

產生資料庫格式

在使用臺灣言語資料庫的專案目錄下

sudo apt-get install -y python3 python-virtualenv
virtualenv --python=python3 venv
. venv/bin/activate
pip install -r requirements.txt
python 轉到臺灣言語資料庫/整合到資料庫.py

會產生臺灣客話詞彙資料庫語料.yaml語料檔

匯入臺灣言語資料庫

python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/hakka_elearning/臺灣客話詞彙資料庫語料.yaml

開發試驗

hakka_elearning專案目錄下

sudo apt-get install -y python-virtualenv g++ libxml2-dev libxslt-dev python-dev
virtualenv --python=python3 venv
. venv/bin/activate
python -m unittest 

About

客語能力認證 資料檔

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages