Skip to content

ChhoeTaigi/ChhoeTaigiDatabase

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

35 Commits
 
 
 
 

Repository files navigation

ChhoeTaigi 找台語:台語字詞資料庫

華文簡介

這裡的資料是「台文雞絲麵 Tâibûn Kesimī」計畫的一部份,若你想了解更多,請往這裡:


1. 內容紹介

Chia ê資料是「台文雞絲麵 Tâibûn Kesimī」計畫ê 1部份,若beh koh khah了解,請ùi chia去:

2. 版權說明

Chia ē無定期來更新字詞ê資料庫,ta̍k ê資料ê詳細說明tī ē-kha。 Beh使用進前請注意,ta̍k-ê字詞資料lóng有無kâng ê授權方式, 使用ê限制請先chim-chiok看!

3. 資料庫ê目標:

  • 數位化:Kā台語字詞ê文獻、紙本資料數位化,利便資料chhiau-chhōe kap後手運用。
  • 標準化:過去文獻資料因為無kâng ê因端致使文字格式無統一,tī chia ē標準化做2套羅馬字。
  • 做整合:收集、建立1-ê siōng大siōng完整ê台語字詞資料庫。
  • 服務化ê基礎:Chia ê資料ē chiâⁿ做「PhahTaigi」輸入法、「ChhoeTaigi」辭典ê資料來源。

4. 資料格式說明

4-1. 羅馬字

Chia ê台語字詞資料內底,羅馬字ê部份有整理做下底2款格式:

  1. 白話字,mā叫台灣羅馬字,是頭1套tī台灣有才調完整書寫台語ê文字系統,mā是siōng有文化、歷史、koh有siōng chē文獻ê台語文字,是台語ê正寫法。
  2. 另外1款是中華民國教育部臺灣閩南語羅馬字拼音方案,下底簡稱教育部羅馬拼音,主要是做漢字注音ê路用。

4-2. 輸入式kap萬國碼式

2套lóng有萬國碼ê字kap輸入用ê數字調號型式2款,利便使用者直接提去應用、學習。 文字ê部份lóng盡量保留原冊ê用字,利便讀文獻ê時khah好chhiau-chhōe。

4-3. 檔案格式

公開ê檔案lóng是用CSV (Comma-Separated Values) ê格式來khiām,ē-sái用Google文件、LibreOffice Calc Spreadsheet、Apple Numbers、Microsoft Office Excel等等軟體直接來phah開檔案。

4-4. 補充註解

Chia整理ê字詞資料來源若有重複--ê,kan-na ē保留來源hit份ê資料。

5. 資料位置說明:

https://github.com/ChhoeTaigi/ChhoeTaigiDatabase/tree/ChhoeTaigiDatabase/{字詞資料代碼}.csv

{字詞資料代碼}:請參考ta̍k-ê字詞資料ê說明。

../ChhoeTaigiDatabase/
   ├── ChhoeTaigi_EmbreeTaiengSutian.csv
   ├── ChhoeTaigi_iTaigiHoataiTuichiautian.csv
   ├── ChhoeTaigi_KamJitian.csv
   ├── ChhoeTaigi_KauiokpooTaigiSutian.csv
   ├── ChhoeTaigi_MaryknollTaiengSutian.csv
   ├── ChhoeTaigi_TaihoaSoanntengTuichiautian.csv
   ├── ChhoeTaigi_TaijitToaSutian.csv
   ├── ChhoeTaigi_TaioanPehoeKichhooGiku.csv
   └── ChhoeTaigi_TaioanSitbutMialui.csv

6. 字詞數量統計:

Ē-kha開始是ta̍k-ê字詞資料庫ê詳細說明, 以詞庫字詞ê數量來排列,siōng chē--ê排siōng頂koân。

字詞資料名稱 字詞數量
#1: 2002+ 台華線頂對照典 91339
#2: 1932 台日大辭典(台譯版) 69513
#3: 1976 Maryknoll台英辭典 55903
#4: 1973 Embree台英辭典 36800
#5: 2011+ 教育部台語辭典 24608
#6: 1913 甘字典 24367
#7: 2016+ iTaigi華台對照典 19046
#8: 1956 台灣白話基礎語句 5429
#9: 1928 台灣植物名彙 1722
#10: 其他索引資料 無公開
總共 353511

7. 字詞資料個別說明

#1: 2002+ 台華線頂對照典

字詞資料代號:

ChhoeTaigi_TaihoaSoanntengTuichiautian

資料內容說明:

            DictWordID: '番號',
            PojUnicode: '白話字',
            PojUnicodeOthers: '白話字(其他講法)',
            PojInput: '白話字輸入',
            PojInputOthers: '白話字輸入(其他講法)',
            HanLoTaibunPoj: '漢羅台文(白話字)',
            KipUnicode: '教育部羅馬拼音',
            KipUnicodeOthers: '教育部羅馬拼音(其他講法)',
            KipInput: '教育部羅馬拼音輸入',
            KipInputOthers: '教育部羅馬拼音輸入(其他講法)',
            HanLoTaibunKip: '漢羅台文(教育部羅馬拼音)',
            HoaBun: '對應華文',

授權說明:

【台文華文線頂辭典】
基礎資料提供:Tēⁿ Liông-úi(鄭良偉)教授
資料增加kap編修:Iûⁿ Ún-giân(楊允言)教授、眾phah字kap校對ê義工
以 姓名標示-Sio-kâng方式分享 4.0 國際 (CC BY-SA 4.0) 授權
https://creativecommons.org/licenses/by-sa/4.0/deed.zh_TW

補充說明:

多謝 Iûⁿ Ún-giân(楊允言)教授提供資料,koh同意 ChhoeTaigi 計畫使用kap公開授權。
原始網站:http://ip194097.ntcu.edu.tw/ungian/soannteng/chil/Taihoa.asp

#2: 1932 台日大辭典(台譯版)

字詞資料代號:

ChhoeTaigi_TaijitToaSutian

資料內容說明:

            DictWordID: '番號',
            PojUnicode: '白話字',
            PojUnicodeOthers: '白話字(其他講法)',
            PojInput: '白話字輸入',
            PojInputOthers: '白話字輸入(其他講法)',
            HanLoTaibunPoj: '漢羅台文(白話字)',
            KaisoehHanLoPoj: '漢羅台文解說(白話字)',
            LekuHanLoPoj: '漢羅台文例句(白話字)',
            KipUnicode: '教育部羅馬拼音',
            KipUnicodeOthers: '教育部羅馬拼音(其他講法)',
            KipInput: '教育部羅馬拼音輸入',
            KipInputOthers: '教育部羅馬拼音輸入(其他講法)',
            HanLoTaibunKip: '漢羅台文(教育部羅馬拼音)',
            KaisoehHanLoKip: '漢羅台文解說(教育部羅馬拼音)',
            LekuHanLoKip: '漢羅台文例句(教育部羅馬拼音)',
            PageNumber: '原冊頁數',
            GoanchhehPoochhiongChuliau: '原冊補充資料',

授權說明:

【台日大辭典(台文譯本)】
原作者:小川尚義
台文翻譯kap編修:Lîm Chùn-io̍k(林俊育)長老
以 姓名標示-非商業性-Sio-kâng方式分享 3.0 台灣 (CC BY-NC-SA 3.0 TW) 授權
https://creativecommons.org/licenses/by-nc-sa/3.0/tw/

補充說明:

多謝 Lîm Chùn-io̍k(林俊育)長老提供資料,koh同意 ChhoeTaigi 計畫使用kap公開授權。
原始網站:http://taigi.fhl.net/dict/
Github:https://github.com/fhl-net/Lim-Chun-iok_2008_Tai-jip-Tua-su-tian

#3: 1976 Maryknoll台英辭典

字詞資料代號:

ChhoeTaigi_MaryknollTaiengSutian

資料內容說明:

            DictWordID: '番號',
            PojUnicode: '白話字',
            PojInput: '白話字輸入',
            KipUnicode: '教育部羅馬拼音',
            KipInput: '教育部羅馬拼音輸入',
            HoaBun: '對應華文',
            EngBun: '對應英文',
            PageNumber: '原冊頁數(暫時無)',

授權說明:

【Maryknoll台英辭典】
(The Maryknoll Taiwanese-English Dictionary)
以 姓名標示-非商業性-Sio-kâng方式分享 3.0 台灣 (CC BY-NC-SA 3.0 TW) 授權
https://creativecommons.org/licenses/by-nc-sa/3.0/tw/

補充說明:

資料是ùi Maryknoll Language Service Center ê網站khe̍h--ê,照原本ê授權公開。
原始網站:http://www.taiwanesedictionary.org/

#4: 1973 Embree台英辭典

字詞資料代號:

ChhoeTaigi_EmbreeTaiengSutian

資料內容說明:

            DictWordID: '番號',
            PojUnicode: '白話字',
            PojInput: '白話字輸入',
            KipUnicode: '教育部羅馬拼音',
            KipInput: '教育部羅馬拼音輸入',
            Abbreviation: '詞類縮寫',
            NounClassifier: '單位量詞',
            Reduplication: '疊詞',
            HoaBun: '對應華文',
            EngBun: '對應英文',
            Synonym: 'Kāng義詞',
            Confer: '參照',
            PageNumber: '原冊頁數',

授權說明:

【Embree台語辭典】
(A dictionary of Southern Min: based on current usage in Taiwan and checked against the earlier works of Carstairs Douglas, Thomas Barclay, and Ernest Tipson)
作者:Bernard L. M. Embree
以 姓名標示-非商業性-Sio-kâng方式分享 3.0 台灣 (CC BY-NC-SA 3.0 TW) 授權
https://creativecommons.org/licenses/by-nc-sa/3.0/tw/

補充說明:

資料是ùi Taiwanese-Corpus ê網站khe̍h--ê,頂koân ê數位化資料是Iûⁿ Ún-giân(楊允言)教授提供--ê。
原始網站:https://github.com/Taiwanese-Corpus/Bernard-L.M.-Embree_1973_A-Dictionary-of-Southern-Min

#5: 2011+ 教育部台語辭典

字詞資料代號:

ChhoeTaigi_KauiokpooTaigiSutian

資料內容說明:

            DictWordID: '番號',
            PojUnicode: '白話字',
            PojUnicodeOthers: '白話字(其他講法)',
            PojInput: '白話字輸入',
            PojInputOthers: '白話字輸入(其他講法)',
            KipUnicode: '教育部羅馬拼音',
            KipUnicodeOthers: '教育部羅馬拼音(其他講法)',
            KipInput: '教育部羅馬拼音輸入',
            KipInputOthers: '教育部羅馬拼音輸入(其他講法)',
            HanLoTaibunPoj: '漢字台文',
            KipDictHanjiTaibunOthers: '漢字台文(其他寫法)',
            KipDictWordProperty: '字詞屬性',
            HoaBun: '對應華文',
            KaisoehHanLoPoj: '華文解說、詞性,台文例詞、例句(白話字)',
            KaisoehHanLoKip: '華文解說、詞性,台文例詞、例句(教育部羅馬拼音)',
            KipDictDialects: '無kāng所在ê講法(教育部羅馬拼音)',
            Synonym: 'Kāng義詞',
            Opposite: '反義詞',

授權說明:

【教育部台語辭典】
(教育部臺灣閩南語常用詞辭典)
以 姓名標示-禁止改作 3.0 台灣 (CC BY-ND 3.0 TW) 授權
https://creativecommons.org/licenses/by-nd/3.0/tw/

補充說明:

資料是中華民國教育部提供--ê,照原本ê授權公開。
原始網站:http://twblg.dict.edu.tw/holodict_new/index.html

#6: 1913 甘字典

字詞資料代號:

ChhoeTaigi_KamJitian

資料內容說明:

            DictWordID: '番號',
            PojUnicode: '白話字',
            PojInput: '白話字輸入',
            HanLoTaibunPoj: '漢字台文',
            HanbunImPojUnicode: '漢字文讀音(白話字)',
            HanbunImPojInput: '漢字文讀音(白話字輸入)',
            KaisoehPoj: '台文解說(白話字)',
            KaisoehHanLoPoj: '漢羅台文解說(白話字)',
            KipUnicode: '教育部羅馬拼音',
            KipInput: '教育部羅馬拼音輸入',
            HanbunImKipUnicode: '漢字文讀音(教育部羅馬拼音)',
            HanbunImKipInput: '漢字文讀音(教育部羅馬拼音輸入)',
            KaisoehKip: '台文解說(教育部羅馬拼音)',
            PageNumber: '原冊頁數',

授權說明:

【甘字典】
(廈門音新字典)
原作者:William Campbell / Kam Ûi-lîm(甘為霖)牧師
編修:Lîm Chùn-io̍k(林俊育)長老
以 姓名標示-非商業性-Sio-kâng方式分享 3.0 台灣 (CC BY-NC-SA 3.0 TW) 授權
https://creativecommons.org/licenses/by-nc-sa/3.0/tw/

補充說明:

多謝 Lîm Chùn-io̍k(林俊育)長老提供資料,koh同意 ChhoeTaigi 計畫使用kap公開授權。
原始網站:http://taigi.fhl.net/dick/
Github:https://github.com/fhl-net/Kam-Ui-lim_1913_Kam-Ji-tian

#7: 2016+ iTaigi華台對照典

字詞資料代號:

ChhoeTaigi_iTaigiHoataiTuichiautian

資料內容說明:

            DictWordID: '番號',
            PojUnicode: '白話字',
            PojInput: '白話字輸入',
            KipUnicode: '教育部羅馬拼音',
            KipInput: '教育部羅馬拼音輸入',
            HanLoTaibunPoj: '漢羅台文(白話字)',
            HanLoTaibunKip: '漢羅台文(教育部羅馬拼音)',
            HoaBun: '對應華文',
            DataProvidedBy: '資料來源',

授權說明:

【iTaigi華台辭典】
(iTaigi)
以「公眾領域貢獻宣告」(CC0)授權
http://creativecommons.tw/cc0

補充說明:

資料是iTaigi團隊提供--ê。
原始網站:https://itaigi.tw/

#8: 1956 台灣白話基礎語句

字詞資料代號:

ChhoeTaigi_TaioanPehoeKichhooGiku

資料內容說明:

            DictWordID: '番號',
            PojUnicode: '白話字',
            PojUnicodeOthers: '白話字(其他講法)',
            PojInput: '白話字輸入',
            PojInputOthers: '白話字輸入(其他講法)',
            KipUnicode: '教育部羅馬拼音',
            KipUnicodeOthers: '教育部羅馬拼音(其他講法)',
            KipInput: '教育部羅馬拼音輸入',
            KipInputOthers: '教育部羅馬拼音輸入(其他講法)',
            HoaBun: '對應華文',
            EngBun: '對應英文',
            KaisoehEngbun: '英文說明',
            NounClassifier: '單位量詞',
            LesuPoj: '例詞',
            Opposite: '反義詞',
            LekuPoj: '例句(白話字)',
            LekuEngbun: '例句(英文)',
            LekuHoabun: '例句(華文)',
            Confer: '參照',
            PageNumber: '原冊頁數',

授權說明:

【台灣白話基礎語句】
(A Basic Vocabulary for a Beginner in Taiwanese)
原作者:Ko Chek-hoàn(高積煥)、Tân Pang-tìn(陳邦鎮)
數位化kap編修:Lîm Bûn-cheng、Tēⁿ Tì-têng、Tân Kim-hoa、Chiúⁿ Ji̍t-êng
以 姓名標示-Sio-kâng方式分享 4.0 國際 (CC BY-SA 4.0) 授權
https://creativecommons.org/licenses/by-sa/4.0/deed.zh_TW

補充說明:

資料是ùi台語文記憶網站khe̍h--ê。
原始網站:http://ip194097.ntcu.edu.tw/memory/TGB/thak.asp?id=862

#9: 1928 台灣植物名彙

字詞資料代號:

ChhoeTaigi_TaioanSitbutMialui

資料內容說明:

            DictWordID: '番號',
            PojUnicode: '白話字',
            PojUnicodeOthers: '白話字(其他講法)',
            PojInput: '白話字輸入',
            PojInputOthers: '白話字輸入(其他講法)',
            HanLoTaibunPoj: '漢羅台文(白話字)',
            KaisoehHanLoPoj: '漢羅台文解說(白話字)',
            LekuHanLoPoj: '漢羅台文例句(白話字)',
            KipUnicode: '教育部羅馬拼音',
            KipUnicodeOthers: '教育部羅馬拼音(其他講法)',
            KipInput: '教育部羅馬拼音輸入',
            KipInputOthers: '教育部羅馬拼音輸入(其他講法)',
            HanLoTaibunKip: '漢羅台文(教育部羅馬拼音)',
            KaisoehHanLoKip: '漢羅台文解說(教育部羅馬拼音)',
            LekuHanLoKip: '漢羅台文例句(教育部羅馬拼音)',
            PageNumber: '原冊頁數',
            GoanchhehPoochhiongChuliau: '原冊補充資料',

授權說明:

【台灣植物名彙】
原作者:佐佐木舜一
數位化kap編修:Lîm Bûn-cheng、Tēⁿ Tì-têng、Tân Kim-hoa、Chiúⁿ Ji̍t-êng
以 姓名標示-Sio-kâng方式分享 4.0 國際 (CC BY-SA 4.0) 授權
https://creativecommons.org/licenses/by-sa/4.0/deed.zh_TW

補充說明:

資料是ùi台語文記憶網站khe̍h--ê。
原始網站:http://ip194097.ntcu.edu.tw/memory/TGB/thak.asp?id=59

8. 聯絡

Nā有任何問題kap建議,請寫批來: taibunkesimi@gmail.com

真多謝!