Taiwan Tongues台灣語言語料庫開源的奇航

時間
2025年8月09日 14:40 ~ 15:10
講者
胡長松 / 廖元甫 / 林緯 / IMA(中華民國資訊經理人協會)
位置
RB105
Multilingual: 漢語/台語/English入門
主議程軌 - Main Session Track

簡介

在生成式AI的世界中,各區域非強勢語言可能面臨弱勢的情況。我們是如何號召以及整合在地語言及語料,結合IMA協會&文學界(胡長松作家及眾多文學作家)、學術界(陽明交通大學廖元甫教授)、與AI工程界(群聯電子林緯技術長),聯手打造更懂得台灣在地語言與語境的LLM !

邀請您來了解這段台灣在地語言開源的奇航,您會聽到:

  1. 號召台灣文學界開源台灣本土語料的奇幻旅程
  2. 開源語料庫Taiwan Tongues (台灣語言通用語料庫)介紹
  3. 如何運用Taiwan在地語料(以台語為例),訓練一個最懂台灣語言的LLM
  4. 訓練方法及程式都開源,讓你也能隨手打造自己的台灣LLM
  5. 發揮創意打造自己的台灣在地語言LLM應用

關於講者

胡長松 / 廖元甫 / 林緯 / IMA(中華民國資訊經理人協會)

胡長松 / 廖元甫 / 林緯 / IMA(中華民國資訊經理人協會)

胡長松,國立清華大學資訊工程碩士,目前於台灣大哥大資訊群擔任處長。他同時也是一位台灣文學作家,曾獲吳三連獎文學獎和金鼎獎文學圖書出版獎。出版有小說集8本(其中6本以台語創作),以及2本台語詩集。2025年起他加入IMA發起的Taiwan Tongues計劃,號召作家貢獻語料,以讓全世界AI更能理解台灣語言,此行動受到社會各界關注。

廖元甫教授專注發展國家語言AI,已建立我國最大最完整本土語言語料庫,研發出華台客英語語音辨認、合成,翻譯與大語言模型等自主AI技術,打造台灣智慧島數位文字與語音基礎設施,已有多項文化、產業與語言復振創新應用落地或已商業化。

林緯博士現任群聯電子技術長,負責產品規劃、AI技術與NAND快閃記憶體相關演算法開發。他擁有200多項NAND專利,相關發明已應用於全球超過三十億顆控制IC出貨。曾主導多家海外子公司的設立並擔任副總與技術長。林博士畢業於交大電子所,目前亦為陽明交大兼任助理教授,推動群聯與學界的產學合作與先進記憶體技術開發。(由群聯電子 經理 陳思瑋 Kled Chen代表主講)

IMA(中華民國資訊經理人協會),於2025年發起及倡議的Taiwan Tongues (台灣語言通用語料庫)專案,旨在彙整台灣各通行語言語料庫,盡可能建立完整索引,並透過台灣民間的力量,擴充台灣本土語言的語料庫,亦旨在讓世界各地的大型語言模型可以藉此索引及語料庫,更有效率地取得語料庫以進行合作,提升台灣語言在AI時代的影響力。