Taiwan Tongues台灣語言語料庫開源的奇航

Time

2025年8月09日 14:40 ~ 15:10

Speaker

胡長松 / 廖元甫 / 林緯 / IMA(中華民國資訊經理人協會)

Room

RB105

Collaborative Notes

https://hackmd.io/rkn9u5-uel

OthersElementary

Main Session Track

Abstract

在生成式AI的世界中，各區域非強勢語言可能面臨弱勢的情況。我們是如何號召以及整合在地語言及語料，結合IMA協會＆文學界(胡長松作家及眾多文學作家)、學術界(陽明交通大學廖元甫教授)、與AI工程界(群聯電子林緯技術長)，聯手打造更懂得台灣在地語言與語境的LLM !

邀請您來了解這段台灣在地語言開源的奇航，您會聽到：

號召台灣文學界開源台灣本土語料的奇幻旅程
開源語料庫Taiwan Tongues (台灣語言通用語料庫)介紹
如何運用Taiwan在地語料(以台語為例)，訓練一個最懂台灣語言的LLM
訓練方法及程式都開源，讓你也能隨手打造自己的台灣LLM
發揮創意打造自己的台灣在地語言LLM應用

About the Speaker

胡長松 / 廖元甫 / 林緯 / IMA(中華民國資訊經理人協會)

胡長松，國立清華大學資訊工程碩士，目前於台灣大哥大資訊群擔任處長。他同時也是一位台灣文學作家，曾獲吳三連獎文學獎和金鼎獎文學圖書出版獎。出版有小說集8本（其中6本以台語創作），以及2本台語詩集。2025年起他加入IMA發起的Taiwan Tongues計劃，號召作家貢獻語料，以讓全世界AI更能理解台灣語言，此行動受到社會各界關注。

廖元甫教授專注發展國家語言AI，已建立我國最大最完整本土語言語料庫，研發出華台客英語語音辨認、合成，翻譯與大語言模型等自主AI技術，打造台灣智慧島數位文字與語音基礎設施，已有多項文化、產業與語言復振創新應用落地或已商業化。

林緯博士現任群聯電子技術長，負責產品規劃、AI技術與NAND快閃記憶體相關演算法開發。他擁有200多項NAND專利，相關發明已應用於全球超過三十億顆控制IC出貨。曾主導多家海外子公司的設立並擔任副總與技術長。林博士畢業於交大電子所，目前亦為陽明交大兼任助理教授，推動群聯與學界的產學合作與先進記憶體技術開發。（由群聯電子經理陳思瑋 Kled Chen代表主講）

IMA(中華民國資訊經理人協會)，於2025年發起及倡議的Taiwan Tongues (台灣語言通用語料庫)專案，旨在彙整台灣各通行語言語料庫，盡可能建立完整索引，並透過台灣民間的力量，擴充台灣本土語言的語料庫，亦旨在讓世界各地的大型語言模型可以藉此索引及語料庫，更有效率地取得語料庫以進行合作，提升台灣語言在AI時代的影響力。