5月28日,依圖科技以“AI賦能,聲無界”的主題,首次以線上的形式隆重發布了面向實時語音轉錄和語音轉寫市場的重磅產品:依圖“會議超級本”。
作為全球極少數擁有全棧人工智能自研核心技術的企業之一,依圖科技在計算機視覺、語音識別、語義理解、智能決策、AI芯片等領域,以多年的積累達到了全球領先水平,其自主研發的語音識別技術,是目前中文語音識別最高水平的保持者,同時也是全球權威聲紋識別競賽冠軍。
遠程辦公、線上會議/活動、電商直播進入2020年后呈現爆發式增長態勢,給語音實時轉錄、語音轉寫市場帶來巨大需求,而此前市面上的錄音筆、手機內置應用、APP或者電腦軟硬件等,面向多種場景的需求也呈現出識別錯誤率高、不支持離線、實時修改不方便、環境噪音影響質量等諸多問題和短板。
此次發布的依圖“會議超級本”,以強大AI賦能,面向個人和政企市場,以離線、高效、安全、高精度、超準確等特點,有望徹底改寫語音實時轉錄與轉寫的難題。
會議超極本,解決痛點“穩、準、狠”
發布會上,依圖科技語音業務負責人隋楊表示,此前的幾年實踐中,依圖科技已經服務了各行各業一百多家客戶,會議,是依圖在語音實時轉錄、轉寫市場上,最為關注的場景之一。此前已經有各種各樣的類似產品出現,但其問題和痛點仍然明顯。
例如此前很多會議,記錄員從從記錄,到復聽再到整理,往往耗時3個小時以上才能形成一個稍完整的文本,人力的限制,加上軟硬件能力的限制,難以在很短的時間里就做成一份內容完整且準確率不低于95%的會議/發言記錄;而且依靠一些軟硬件完成的記錄,不支持人力進行實時編輯修改,也令記錄者非常頭疼;即便有些自動紀錄是稍顯完整的,也夾雜了很多無關內容,比如嗯、啊等語氣詞,很影響轉寫效果。
很多會議紀錄難以追溯,也是記錄者感到很棘手的問題,很多時候記錄者想要根據關鍵詞快速檢索和定位一些內容,甚至最好能分角色查看內容紀錄。
而且現在大多數的在線語音識別軟件信息安全性低,機密信息泄露風險高,這也對語音實時轉寫的離線應用提出了硬性要求。
而依圖此次發布的新品“會議超極本”,通過極具魯棒性的算法,先進的自然語音理解技術和聲紋識別模型,真正有效地攻克了這些痛點。
離線應用,是依圖“會議超極本”的最大亮點之一。不同于其他軟硬件需要聯網使用,這款“會議超極本”采用依圖業內領先的離線語音識別系統,無需聯網即可在本機準確轉寫,保障機密,信息不泄露。
高精度算法、超準確識別則是這款產品的“看家本領”,此前,依圖在語音識別和聲紋領域的公開競賽上取得優異成績,先后刷新全球最大開源中文數據庫AISHELL-2字錯率(CER)記錄和VoxSRC世界聲紋挑戰賽記錄。針對性的數據增強訓練算法,使得依圖會議本可以有效應對常見的重口音、特定專有詞識別問題,能夠準確區分不同說話人,避免內容的混淆。
便攜、便捷,是其另一大特點。與聯想合作的這款“會議超極本”僅有17毫米后,重量僅為1700克,僅是市面上類似產品重量的1/3-1/4,搭配桌面收音設備、領夾藍牙麥克風等組件,可用于演講、培訓、大會發言等多個場景。
界面簡單干凈,從開機到開啟實時轉錄,僅需要三次點擊即可實現。
在這幾大特點之外,該產品還具有逐字回聽、二次編輯、文本實時編輯修飾、熱詞優化、禁忌詞屏蔽等功能。安靜場合普通話準確率達到了98%這一同類產品最高水平。
這些突出的優勢,讓依圖“會議超極本”更加適合政府機關、金融、能源、教育等各行各業的線上、線下會議和活動。
開放生態,合作共贏
從 2012 年創立之初,依圖就全面投入到人工智能技術的行業應用的研究之中,先后在安防、醫療、金融等多個領域,打造了一整套基于人工智能技術的行業解決方案。
2018年12月,在圖像識別領域獲得卓越成績之后,依圖正式開始深耕語音識別,聯合微軟Azure推出依圖語音開放平臺,并攜手華為發布了“智能語音聯合解決方案”,將語音識別技術提供給廣泛的第三方應用開發者。同時也正式樹立了全面公開算法 API 接口、公開多樣的測試數據集、以及公開可重復的評測結果等三大戰略。
2018年底時,依圖科技在中文語音識別技術上已獲得突破性成績,先后刷新全球最大開源中文數據庫AISHELL-2字錯率(CER)記錄和VoxSRC世界聲紋挑戰賽記錄。
這一切都為依圖在遠程辦公、線上/線下會議迅猛發展之際推出“會議超極本”奠定了穩定的基礎。
發布“會議超極本”之際,依圖科技也再次表明了其“開放生態、合作共贏”的渠道策略和市場態度。希望能聯合眾多產業合作方,群雄并起,逐鹿AI,以更強健的生態迎接國際間的技術與市場競爭。
基于此,依圖也著重發布了“依圖+X”合作伙伴招募計劃,以建設開放、創新、融合的AI生態體系為目標,幫助合作伙伴構建基于開放式AI計算平臺的業務實踐和解決方案,共建AI多維應用場景,進而實現產業共贏。