研究人員希望將自動語音識別擴展到2000種語言
卡內基梅隆大學的一組研究人員正在尋求將自動語音識別擴展到2,000種語言。截至目前,全世界估計有7,000到8,000種口頭語言中只有一部分會受益于現代語言技術,例如語音到文本的轉錄或自動字幕。
李新建是博士。計算機科學學院語言技術研究所(LTI)的學生。
“這個世界上有很多人會說多種語言,但并沒有為所有人開發語言技術工具,”他說。“為所有人開發技術和良好的語言模型是這項研究的目標之一。”
Li屬于一個專家團隊,他們希望簡化語言開發語音識別模型所需的數據要求。
該團隊還包括LTI教職員工Shinji Watanabe、Florian Metze、David Mortensen和Alan Black。
在韓國舉行的Interspeech 2022上展示了題為“ASR2K:大約2,000種無音頻語言的語音識別”的研究。
大多數現有的語音識別模型都需要文本和音頻數據集。雖然存在數千種語言的文本數據,但音頻卻并非如此。該團隊希望通過關注多種語言通用的語言元素來消除對音頻數據的需求。
語音識別技術通常專注于一種語言的音素,這是將其與其他語言區分開來的獨特聲音。這些對于每種語言都是獨一無二的。同時,語言有描述一個詞物理發音的音素,多個音素可以對應一個音素。雖然不同的語言可以有不同的音素,但底層的音素可能是相同的。
該團隊正在研究一種語音識別模型,該模型較少依賴于音素,更多地依賴于有關電話如何在語言之間共享的信息。這有助于減少為每種語言構建單獨模型所需的工作量。通過將模型與系統發育樹(一種映射語言之間關系的圖表)配對,它有助于制定發音規則。該團隊的模型和樹結構使他們能夠在沒有音頻數據的情況下逼近數千種語言的語音模型。
“我們正在努力消除這種音頻數據要求,這有助于我們將語言從100種增加到2000種,”李說。“這是第一個針對如此大量語言的研究,我們是第一個旨在將語言工具擴展到這個范圍的團隊。”
該研究雖然仍處于早期階段,但已將現有的語言近似工具改進了5%。
“每種語言都是其文化中非常重要的因素。每種語言都有自己的故事,如果你不努力保護語言,這些故事可能會丟失,”李說。“開發這種語音識別系統和這個工具是試圖保護這些語言的一個步驟。”