Skip to content

Vision and goals 願景與目標

Davidzdh edited this page Sep 28, 2021 · 6 revisions

願景

我們想欲建立一個閩東語語料庫。

什麼是語料庫

某種意義上,經過整理,有既定格式與標記的大量文本,就能夠成爲語料庫(維基百科)。

但學界有對語料庫更嚴格的定義(Anthony McEnery、Richard Xiao、Yukio Tono,Corpus-Based Language Studies: An Advanced Resource Book,2006年,第5頁):

A corpus is a collection of (1) machine-readable (2) authentic texts (including transcripts of spoken data) which is (3) sampled to be (4) representative of a particular language or language variety.

即,語料庫需要是㈠機器可讀的、㈡真實的、㈢抽樣的、㈣代表性的語料集合。

機器可讀,即資料是以電腦可直接讀取的形式儲存或呈現的。比起照片裏的書影,被光學識別或手動轉錄後的文字纔是機器可讀的。

真實,即要求是來自於自然生活中的自然語言,而非(比如爲了研究生成語法)硬造的句子。

抽樣,則要根據研究目的而提前規劃,再付實施。有些語料庫建設者會窮盡式地蒐集與研究目的關聯的語料,以達到全覆蓋;但出於能力、資源等的考慮,一般不會力求全覆蓋,而要科學地抽樣。抽樣是爲了求一個——

代表性。入庫的語料能夠良好的反映待研究對象的性質。

語料庫可以做到什麼份上

前面說了一般意義與嚴格意義上的語料庫。而一些細節決定了做出來的語料庫與本格的語料庫距離的遠近。

首先,語料庫裏的語料至少需要有元信息(meta-data)。元信息記載了該當語料的來自、日時等信息。脫離了這些信息,是做不成語料庫語言學研究的。試論語料庫與翻譯記憶庫(translation memory)的區別。翻譯記憶庫同樣可以做到有既定格式與標記(例如透過TMX語言編寫),但就沒有元信息。這主要是由兩者的使用目的不同而決定的。

又如對齊精度。句對齊能夠很大程度上平衡查詢需求與對齊成本。篇、段對齊,則精度不高。以詞對齊,則耗費心力;且有些語言之間,其差異非詞對詞可完譯者,則難上加難。這就是爲何很多平行語料庫(parallel corpus)是句對齊的。當然,做翻譯研究,可能更需要詞對詞。(又及,平行語料庫在設計上用於人類查詢,而非機器查詢。因此,那些會導致翻譯記憶庫運行錯誤的輕微對齊錯誤或小差異並不很重要。想瞭解平行語料庫的更多知識,請參考呂靖教授的課程。)

又如分詞。有些語料庫查詢軟件對不分詞的東亞文字支持程度低,則分詞語料更勝一籌。但是對漢語分詞需要有一定的標準。

又如對翻譯方向的標記。我們都知道「言爲心聲」,與自由自在的言說相比,翻譯受盡掣肘,勢必產生「歸化」「異化」之辨。故此,對孰爲原文、孰爲譯文的標記有時也很重要。

我們想做怎樣的語料庫

綜上考慮,做一個怎樣的語料庫,其實要隨着需求走。

如果可以,我們希望蒐集到的語料被廣泛應用於閩東語的研究與保育中。

唯從實際情況看,本庫最直接的服務對象,是閩東語在線詞典《榕典》。本庫的句篇能夠爲通過《榕典》學習閩東語詞彙的人士提供有益補充。爲此,本庫的語料至少需要能夠組成一個閩東語、普通話句對齊的平行語料庫。在這一需求上,平行語料庫和翻譯記憶庫的區別似乎變得模糊。當然,若能以詞爲單位解釋、註音,則對學習者提供的幫助,能夠更上一層樓。

此外,福州話保育團體真鳥囝正在進行福州話語音轉文字的探索,本庫的有聲語料也可爲此助力。這需要我們對一定量的音質相對清晰的有聲語料進行詞爲單位的註音、漢字標記。

我們也希望本庫的語料能夠儘可能地兼容廣泛的用途,但又要注意邊際效應,避免過度優化。

目前我們能做到的

我們姑且蒐集了一些語料。這樣看來,本庫嚴格意義上來說,並不是一個語料庫,而是一個話語材料庫。

蒐集到的語料覆蓋很多語體、使用場域,所以本庫有點均衡語料庫(balanced corpus,又譯平衡語料庫)的影子。

其中,有些內容還是生數據,有些做了一定程度的標註,而有些做了極精細的標註。

蒐集、整理工作仍在繼續中。

不管怎麼說,我們還是希望有朝一日,能夠建成(一個——corpus,或多個——corpora)閩東語語料庫,回應研究界、教學界、文藝界的查詢需求。

如果你願意出一份力……

聊聊自己有興趣、能力做些什麼,或者直接動手