The Remarkable Journey of Open-Sourcing the Taiwan Tongues Language Corpus

Time
2025年8月09日 14:40 ~ 15:10
Speaker
胡長松 / 廖元甫 / 林緯 / IMA(中華民國資訊經理人協會)
Room
RB105
Collaborative Notes
https://hackmd.io/rkn9u5-uel
Multilingual: 漢語/台語/EnglishElementary
Main Session Track

Abstract

In the world of generative AI, non-dominant languages in various regions may face marginalization. How did we rally and integrate local languages and corpora, collaborating with the IMA Association, the literary community (writer Chang-Song Hu and numerous other literary figures), academia (Professor Yuan-Fu Liao from National Yang Ming Chiao Tung University), and the AI engineering sector (Phison Electronics) to create an LLM that better understands Taiwan’s local languages and contexts?

Join us to learn about this remarkable journey of open-sourcing Taiwan’s local languages. You will hear about:

The fantastical journey of rallying Taiwan’s literary community to open-source local language corpora. An introduction to the open-source corpus Taiwan Tongues (Taiwan General Language Corpus). How to use Taiwan’s local corpora (using Taiwanese Hokkien as an example) to train an LLM that deeply understands Taiwan’s languages. Open-sourced training methods and code, enabling you to easily create your own Taiwan-specific LLM. Unleashing creativity to build your own applications for Taiwan’s local language LLMs.

About the Speaker

胡長松 / 廖元甫 / 林緯 / IMA(中華民國資訊經理人協會)

胡長松 / 廖元甫 / 林緯 / IMA(中華民國資訊經理人協會)

胡長松,國立清華大學資訊工程碩士,目前於台灣大哥大資訊群擔任處長。他同時也是一位台灣文學作家,曾獲吳三連獎文學獎和金鼎獎文學圖書出版獎。出版有小說集8本(其中6本以台語創作),以及2本台語詩集。2025年起他加入IMA發起的Taiwan Tongues計劃,號召作家貢獻語料,以讓全世界AI更能理解台灣語言,此行動受到社會各界關注。

廖元甫教授專注發展國家語言AI,已建立我國最大最完整本土語言語料庫,研發出華台客英語語音辨認、合成,翻譯與大語言模型等自主AI技術,打造台灣智慧島數位文字與語音基礎設施,已有多項文化、產業與語言復振創新應用落地或已商業化。

林緯博士現任群聯電子技術長,負責產品規劃、AI技術與NAND快閃記憶體相關演算法開發。他擁有200多項NAND專利,相關發明已應用於全球超過三十億顆控制IC出貨。曾主導多家海外子公司的設立並擔任副總與技術長。林博士畢業於交大電子所,目前亦為陽明交大兼任助理教授,推動群聯與學界的產學合作與先進記憶體技術開發。(由群聯電子 經理 陳思瑋 Kled Chen代表主講)

IMA(中華民國資訊經理人協會),於2025年發起及倡議的Taiwan Tongues (台灣語言通用語料庫)專案,旨在彙整台灣各通行語言語料庫,盡可能建立完整索引,並透過台灣民間的力量,擴充台灣本土語言的語料庫,亦旨在讓世界各地的大型語言模型可以藉此索引及語料庫,更有效率地取得語料庫以進行合作,提升台灣語言在AI時代的影響力。