15個語種,22項第一 科大訊飛多語種再獲突破
近日,由美國國家標準與技術研究院NIST發起的OpenASR挑戰賽落下帷幕,科大訊飛參加了所有15個語種受限賽道和7個語種非受限賽道,全部取得第一!
繼前不久榮獲多語言理解評測XTREME冠軍之后,科大訊飛在多語種領域再次取得突破,在探索人機交互更自然、人人溝通無障礙的征程中又邁出了堅實的一步,也為中國多語種語音語言技術趕超國際先進水平、中國智能制造的全球化奠定了堅實的基礎。
從大語種向低資源多語種拓展
與NIST此前組織的其他賽事相比,OpenASR更加關注小語種語音技術,探索如何使用少量的數據達到較好的效果,同時考察低資源語音識別基礎算法在多個語種上的推廣性。自2020年啟動以來,吸引了加拿大蒙特利爾信息科技研究中心、新加坡科技研究局、清華大學、騰訊等國內外知名研究機構和企業參與其中。
本次比賽共包含15個語種,涵蓋受限賽道、受限附加賽道和非受限賽道。
15個語種信息
其中受限賽道為各參賽單位必選項,每個語種只能使用組委會提供的10小時標注語音識別數據,受限附加賽道在受限賽道的基礎上允許使用開源的預訓練模型,而非受限賽道可以使用受限數據以外的數據。
科大訊飛-中科大聯合團隊在比賽中提出了基于語音和文本統一空間表達的半監督語音識別框架(UnifiedSpatial Representation Semi-supervisedASR,USRS-ASR),獲此佳績也驗證了該算法良好的推廣性。
聯合團隊全部15個語種受限賽道成績
聯合團隊參加的7個語種非受限賽道成績
領先技術亮相國際賽場
在受限賽道上,由于每個語種只有10小時語音數據,如何使用少量文本數據,利用無監督的方法增加語音訓練數據的多樣性至關重要。
科大訊飛-中科大聯合團隊創新運用Flow-TTS語音合成進行訓練數據擴增,并使用語音屬性解耦技術保證合成語音的多樣性。結果顯示,使用上述無監督數據擴增方案,能夠穩定、顯著地提升低資源語音識別任務的效果。
而在非受限賽道上,雖然參賽者可以利用公開的語音數據,但數據總量仍只有數百小時,而且語音數據和文本數據的量級差距十分明顯,這對于端到端識別框架來說,弊端更為明顯。
USRS-ASR框架示意圖
首先,對于海量文本數據的使用,創新設計了文本掩碼語言模型任務、合成數據語音識別兩個目標,兩個任務聯合訓練以充分利用海量無監督文本;其次,設計了共享語言解碼模塊,實現了語音和文本隱層表達空間的統一,大大緩解了低資源語種的數據稀疏問題。
就在不久前,工信部正式批復同意成立國家智能語音創新中心、國家高端智能化家用電器創新中心,科技創新正不斷引領產業升級。值得注意的是,在這兩家國家級創新中心依托公司的股東名單中,“科大訊飛”均赫然在列。持續致力于打造源頭技術創新策源地,科大訊飛正不斷追尋“頂天立地”的產業夢想。
此外,科大訊飛的多語種相關技術能力也已應用于北京2022年冬奧會官方APP(冬奧通),助力冬奧信息溝通無障礙。
標簽: 科大訊飛
2022-01-13 08:29:23
2022-01-13 08:27:53
2022-01-13 08:25:49
2022-01-13 08:24:48
2022-01-13 08:23:24
2022-01-13 08:21:58
2022-01-13 08:19:20
2022-01-13 08:17:53
2022-01-13 08:12:40
2022-01-13 08:11:31
2022-01-13 08:08:09
營業執照公示信息
相關新聞