《下一步,AI。NEXT,愛》 語種辨識開發 (李宏毅)


 儘管目前語音辨識的應用已相當廣泛,但都還侷限在主流語種。全世界有七千多種語言,要達到真正的無國界,還有一段距離。

 

臺大電機系 李宏毅副教授:

youtube上有非常多的鄉土劇,那些鄉土劇往往是有上字幕的。我們就讓機器看了大概一千八百個小時的鄉土劇,然後希望它就可以學會聽一段台語的聲音訊號,就直接輸出一個中文。那這中間我們幾乎沒有做人力的介入。就鄉土劇裡面可能有聲音跟文字沒有對在一起的情形,這個不管它,它可能中文台語跟英文交雜,這個也不處理它,反正機器就是自己去看鄉土劇,它學到什麼就是什麼,我們就沒做什麼特別的調整。我來DEMO一下。汝真緣投。它現在輸出的是你真的很帥。雖然我說的是緣投,但是它知道說緣投對應的就是中文的帥,所以它今天輸出的並不是緣投,它是直接輸出帥。我們拿一部機器沒有看過的鄉土劇去做語音辨識,它得到的正確率大概是60%左右。

我們有一個生成者(generator),這個生成者把聲音訊號吃進去,他吐出來的就是文字,但一開始我們並沒有給機器訓練的目標,所以他吐出來的文字就是隨機的因為它根本不知道它要生成什麼東西才是對的,沒有關係,我們有一個鑑別者(discriminator),鑑別者看過很多人寫的句子,所以它知道說什麼樣的詞彙按照什麼樣的順序拼湊起來,才像是人寫的句子,對生成者來說它就要想辦法把聲音訊號轉成一些句子,這些句子是鑑別者覺得算是人寫的句子。用這樣子的方法就可以讓機器做像是破解密碼的方式,把聲音訊號轉成文字。現在能夠做到的是辨識出音素這個層級,也就是辨識出類似KK音標這個層級。