Taiwan Tongues推動台灣語料庫 讓世界AI懂台灣

記者曹登華/台北報導 2025-07-07 17:24

主流AI模型以英文與簡體中文為基礎,台灣的語言卻不在數位語料中,造成世界對台灣文化或內容有所誤解,因此IMA中華民國資訊經理人協會發起Taiwan Tongues台灣通用語料庫計畫,除了保存語言外,更能成為全球AI模型學習的核心語料。

台灣文學作家,也是台灣通用語料庫執委胡長松老師,以使用了一輩子的台語,做出了一首詩《我佮我的語言》,在記者會上進行朗讀。而作家向陽、作家曾貴海的兒子曾澤民也表示,他們願意將手上的文學作品全都釋出,為的就是擴大台灣語料庫,包括台灣華語、台語、客語以及原住民語,要讓台灣的聲音讓全球AI理解,並且融會貫通。

生成式AI已經快速席捲全球,但是台灣的語言卻在數位語料中嚴重缺席,AI無法理解台灣語言和文化,造成資訊上的落差,因此IMA中華民國資訊經理人協會發起Taiwan Tongues台灣通用語料庫計畫,目前已有數十位作家授權成為Team Taiwan,累積超過500萬字。另外加上同樣是計畫委員群聯電子的通力合作,為企業訓練本地化的AI訓練框架;還有陽明交大廖元甫教授,把作家語料與公用語料庫進行模組訓練,Taiwan Tongues提供的是課本、教案與考卷,讓AI真正認識台灣。

Taiwan Tongues計畫希望能夠號召更多語言創作者加入,並且與國際大型語言平台合作,預計開啟台灣維基Wiki Taiwan工作項目,擴增台灣語言在國際上的能見度,未來持續結合產官學力量,擴大語料庫建置與應用場域,讓世界不只看見,更能從語言的力量中認識台灣。



房地產相關新聞

留言討論區

相關閱讀推薦
相關閱讀推薦