來源:劉國輝 AIM人工智能學院
[導讀:近日,前沿技術情報所最新發布的文章,全方位展現中國虛擬數字人當下的發展圖景、應用現狀、優勢與瓶頸。本文為節選縮減版,為您暢享未來。]
三星旗下STAR Labs展示了其設計的虛擬數字人NEON,受到高度關注。這些虛擬數字人與真人的外在表現無異,竟然是AI學習的結果。據介紹,NEON具備共情能力,能夠真正理解人類的想法。通過機器學習累計的數據和能力,他們會進化得更像現實生活中的演員、發言人、電視主播等。
不過,NEON學得最好的還是人類的表情動作,至于說智能化水平,就一言難盡了。NEON首席執行官Pranav Mistry第一次現場展示時,甚至出現了數次宕機,以至于演示無法繼續。而在國內,已有不少公司就在做虛擬數字人了,甚至在全國的疫情防控方面,也有了虛擬數字人的身影。
為什么我們需要研發看起來跟真人沒啥區別的虛擬數字人呢?
虛擬數字人應用五花八門
國內已經開始使用虛擬數字人的領域:
有銀行在網點設置大屏,屏里的數字人做導向、咨詢的工作,有點像數字化的大堂經理;
銀行APP也打算用數字人來承擔理財顧問的角色;
線上泛娛樂是一塊重要市場,想必大家已經上見過一些虛擬主持人,百度、科大訊飛、搜狗、創業公司如魔琺科技等都推出過類似產品。
虛擬數字人目前在功能上略顯稚嫩,但不能以現在的能力來評判未來,數字人不僅帶來一種新的界面,更是帶來一種新的交互方式。虛擬數字人看上去就是用三維視覺感知、3D建模等技術塑造出比較逼真的形象,用語音識別、語音合成、自然語言處理等技術讓數字人初步具備一些交互能力。
在應用上,虛擬數字人有線上線下之分:
在線下,虛擬數字人可以在政府部門、醫院、銀行、消費場所等場景里提供簡單的客服功能;在線上,虛擬數字人還有個典型的場景是泛娛樂,如虛擬主持人、主播、模特等。虛擬數字人第一個市場一定是泛娛樂,以數字人為依托生產內容,比如進行虛擬直播、短視頻、綜藝秀等,所有的內容是導演策劃好的,不需要全智能。此外,數字人在線上還可以提供一種新的交互方式,以前是人與網站、APP界面交互,此后,用戶可以直接跟數字人交互。或是在泛娛樂或者教育等場景來提供一個擬人的形象,代替真人來表演或者教學。
當然,現在數字人的交互也還很機械:以北京互聯網法院為例,依然是用戶查找各種版面尋找需要的信息,雖然有數字人,也只是按照預設程序來播放。比如想要了解著作權信息,點擊之后由數字人在視頻中講解。
哪些領域更適合落地?
虛擬數字人是一項新興技術,商業模式還在探索之中。比較明確的是虛擬數字人可在手機、智能家居等場景下成為每個人專屬虛擬助手以及情感陪伴,也可以在企業成為虛擬數字員工,幫助企業升級智能化無人辦公,還可以成為新聞、游戲解說、網紅等虛擬主播。
虛擬數字人在泛娛樂領域需求會比較明確。利用虛擬數字人可以解決影視和游戲、短視頻等內容制作中效率低、產能低、質量低的痛點,至今這些領域在國內基本仍屬于勞動密集型的手工作坊制作。其次,增量市場比如虛擬直播和虛擬偶像,可以連續直播、連續表演,這個事情,泛娛樂領域的大公司都想做。在其他領域,虛擬數字人主要解決降本增效的問題。全智能虛擬數字人不是要去替代人,也不一定要做得比人好,它更多是解決有限人力,以及人不能24×7工作的問題。另外,全智能虛擬數字人可以把以前的語音客服進行升級,從語音交互升級成多模態交互。
判斷哪些領域會適合虛擬數字人的應用,可以從三個角度去考量:對交互的需求、對形象的需求、對體驗的需求。某些行業特別適合圖文并茂跟用戶交互信息的,而且需要的信息量沒有那么大,不是十輪、二十輪那種對話,都可以用虛擬數字人來提供服務。
重內容輕交互的領域是最先應用的一類,像虛擬老師大部分時間在講課。泛娛樂領域的虛擬數字人大部分時間在表演,交互很少,應用起來會更早期;另一類是不需要很強的知識庫,比如一家公司以前介紹自己更多是通過官網,現在可以有虛擬數字人圖文并茂解釋。
對于專業性比較強的領域,或者通用的領域,虛擬數字人的應用可能不會那么樂觀。越是專業、通用、強交互的場景,在當下的技術條件下,越不適合做虛擬數字人。
虛擬數字人面臨的拷問
現在虛擬數字人應用正在起步,三星、百度、騰訊等大廠都有產品問世,應用也在一點點落地,顯示這個新興領域正在受到越來越多的關注,但虛擬數字人想要大行其道,還有經過幾番試煉。
落地場景一定需要形象嗎?
首先,虛擬數字人背后是AI,真的需要做出一個真人的形象嗎?以虛擬老師為例,有一個數字形象來播放課程,跟沒有數字形象的視頻相比,對教學效果有什么效率提升嗎?
這涉及到項目落地的必要性問題。從客戶的角度看,你的產品可能對我有一定價值,但我對你的產品沒有達到非用不可的程度,這時候落地就比較難,即使能落地,產品也賣不上價。
沒有一個交互的提升是必須的,一種新應用要替代原有方式,必須能做到一旦有了這個交互后,用戶不愿意回到原來的方式。那么,數字人怎么跟所有的圖文信息、數字答疑、視頻結合起來,讓用戶感到這種提供信息的方式是最方便的,這是業界需要解決的問題。
綜合來看,虛擬數字人的交互相比原有的APP交互是否更舒服更順暢,還有待于市場檢驗。畢竟,人們對現有的交互方式黏性很高,想要替換是比較難的。就像人們已經熟悉了二維碼支付,現在讓人去體驗刷臉支付,即使是微信支付寶這樣的重量級玩家去推,也顯得很難。想要替換原有的交互方式,虛擬數字人就要顯示出更明顯的價值來,吸引客戶來付費。這當然要技術的進步,更重要的是產品能夠更貼近客戶的場景。
寫實是數字人的趨勢嗎?
其次,就算在一些場景需要一個虛擬形象,但是這個虛擬形象一定是要跟真人一樣寫實嗎,有無必要?
虛擬數字人往往主打真實形象的概念,數字人的形象確實也比一般的動畫作品更真實,但跟真人的形象相比還是有差別,真人的眼睛是非常靈動的,而虛擬數字人看起來速率比較慢,面部表情也沒有真人那么豐富。其他的肢體動作跟真人比也比較遲緩。這個事情分兩個點:一是角色效果會越來越好,它是一個技術加藝術的過程,不是技術做的特別好了,藝術馬上就做好了;二是超寫實是不是要跟真人一樣,也不一定,取決于應用場景。
需要高度智能化嗎?
未來數字人的產品趨勢是什么,是繼續做一個簡單的客服,還是通過持續的學習有更強的智能性?
AI虛擬數字人的智能化,需要具備多輪對話的能力,以及各個行業的知識圖譜,形成一個龐大的智能知識庫,并具備學習能力,這樣才能解決各種專業的行業問題。
AI虛擬數字人在應用落地過程中,需要一個強大的AI后臺大腦,以及觸摸、語音、傳感器等多模態交互融合,以達到適用于各種場景下的擬人化交互,幫助人類解決各種問題。然而,虛擬數字人想做到如此,還有很長的路要走。
虛擬數字人適合所有場景嗎?
目前看來,并非所有的網站、APP都適合用數字人來做交互,數字人還是更適用于用戶有明確需求的場景。比如用戶想了解某APP應用,可以讓一個虛擬數字人掌握了APP的全部公開資料后,形成知識庫,再根據用戶的提問去做回答。但對于一個沒有明確閱讀需求的用戶來講,面對虛擬數字人,可能沒有問題去提。但這個人是可以在漫無目的地在APP上看一些文章的。另外,不是每個用戶都喜歡用語音來控制,也不是每個場景都適合用語音,像辦公室、會議室等場景,用語音驅動虛擬數字人,可能不太合適。
未來,我們會在越來越多的場景里看到虛擬數字人,虛擬數字人會與AI一起,成為技術落地的一環。起初數字人會比較簡單,承載已經預設好的內容,比如在很多場合做客服的工作,或者在娛樂領域代替真人表演;如果AI能力進步,在自然語言處理、知識圖譜等方面越來越強,虛擬數字人會有更好的交互體驗,以及在專業領域形成比較強的替代能力。虛擬數字人未來做到怎樣,其實還是要看AI能做成什么樣。
[資料來源] 虎嗅Pro