Taibunkoan ke-ek e kaisiau

From: Iunn Un-gian
Date: 2007-03-06 16:03:13

台語白話文學的嶄新呈現──簡介台語文數位典藏資料庫計畫

楊允言

不知道大家對台語文學的印象是什麼?台語有文學嗎?翻開台灣文學史的相關書籍,幾乎對台語文學沒有任何的著墨,真的有台語文學嗎?

是的,台語有文學。1880年代開始出現的白話字作品,絕對是道道地地的台語文學作品。

當時的台灣,相較於書寫文言的漢詩、漢文的「孔子字」,以及書寫近代漢語的「唐人字」,「白話字」這個名稱,清楚地說明了這是書寫台灣人口語的文字。

白話字是羅馬字的一種,這個文字曾經有眾多出版品,出版地遍及島內外,還包括1885年創刊、亞洲發行最久的報紙《台南府城教會報》(目前為《台灣教會公報》)。她在漢字中心的觀念下被排擠,甚至遭受了不同時期台灣統治者的政治迫害,然而在講求國際化與在地化的當下,她卻算是非常有指標性、代表性的台灣文字。

文化資產保存研究中心(國家台灣文學館的前身)在2001年委託國立成功大學台灣文學系呂興昌教授執行的「台灣白話字文學資料蒐集整理」計畫,經過四年的努力,找出了千餘本台灣白話字書刊,並將當中較具文學性的作品予以打字建檔和翻寫成為漢羅合用文本。

接著,文學館委託國立台灣大學資訊工程系高成炎教授執行「台語文數位典藏資料庫」(Digital Archive Databse for Written Taiwanese,縮寫為DADWT)計畫,根據白話字文本,透過台文華文辭典找出對應的華文解釋,接著利用中研院詞庫小組所發行的中文電子辭典找出詞類,利用音節、語詞、詞類和句型等訊息,實作出台語變調系統,搭配事先錄製好的台語音節聲音檔,讓這些白話字文本發出聲音。台語變調是本計畫中最核心的技術,目前的變調正確率大概是90%,算是不錯的。

有了上述兩個研究計畫的成果,2006年文學館委託大漢技術學院資訊工程系楊允言助理教授執行的「台語文數位典藏資料庫(第二階段)」計畫,將上述的成果整合,一方面持續將文學資料建檔,補充近幾年書寫的文本,一方面做文稿校對及段落對齊,並架設網站、開發相關查詢工具及統計工具,以讓有興趣的使用者能夠免費、輕鬆使用這些研究成果。

累積這六年的努力成果,網站於去(2006)年12月正式上線,網址在 http://www2.nmtl.gov.tw/dadwt/,並有一份mirror網站置於 http://iug.csie.dahan.edu.tw/nmtl/dadwt/ 以便持續校對和更新。網站裡呈現了白話字及漢羅書寫以段落對齊的文本各258萬音節,您可以「聽」台語文學,看跨越120年、歷經三個統治時期的台語文學作品,也可以品味台語文學曾有的輝煌歲月,感受台灣人最基本的「我手寫我口」的尊嚴表現,以及白話字的相關背景知識。

到今(2007)年二月底,文章已被點閱超過10萬次,顯見這些文學資料的重要性及相關研究的需求。

呂興昌教授四年的努力,已經讓國家台灣文學館成為世界上最大的台灣白話字資料收藏中心,這也將會是文學館的重要特色之一。我們也希望,以這些文本為基礎,加上後繼者的努力,將這些文本做進一步的加值,不僅應該要重寫台灣文學史,更可利用這些素材做為教學內容,並向語料庫語言學(Coupus linguistics)方向發展,讓台語能和世界各其它重要語言平起平坐,提升台灣人的尊嚴與地位。

IuN Un-gian 楊允言

Tai-han Chu-kang-he Chou-li kau-siu大漢資工系助理教授

Tai-tai Chu-kang-he Phok-su hau-soan-jin 台大資工系博士候選人

http://iug.csie.dahan.edu.tw

 

Takke ho :

E-bin si goa tu-a sia ho e kaisiau bunchiuN, beh kau hou Taibunkoan e, engkai e khan ti "Taioan bunhak thongsin " tengbin.

Goa tng tih ka in soeh-hok, hibong i tong-i iong Taibun kahnteng.

ChhiaN takke phoepheng chi-kau, loulat !

Ungian 3.6