《下一步,AI。NEXT,愛》語意分析 (楊立偉)

訓練資料不足一直是AI面臨的難題,不過,隨著行動裝置、智慧型產品逐漸普及;網際網路、雲端技術變得成熟,人類邁入了大數據時代,雲端上的巨量資料,成為AI發展的堅實後盾。光是在台灣,網路上平均每天會產出多達60億個字(2019),源源不絕的資料,也讓科學家發現,一直以來的訓練方式,存在著盲點。

 

意藍資訊 董事總經理 楊立偉博士:

我們以前如果要訓練這個機器,譬如說要它認得某一種特別的文章,譬如說專利文章或者是學術文章,我們都要很辛苦地去準備這個訓練文件,可能數百篇數千篇等等。可是機器這樣學習的效果不夠好,的原因是什麼?後來發現不是它在這個領域不懂,而是它本來的國文能力不夠好,其實就代表它看的書不夠多。所以我們如果能夠預先把這種網路上面大量的資料都讓它先閱覽,它其實某種程度是已經能夠了解字跟字,句子跟句子、上下文之間的關係。 AI的國文能力先有了,這個時候它要拿來應用在財經、應用在專利,甚至是應用在醫學的語意分析上,都進步會非常多。