資訊中心News

替代鍵盤輸入的大趨勢:語音輸入法與其背后的技術解析

瀏覽次數: 日期:2016-12-01

我們都知道搜狗的一個核心產品就是輸入法,2011年的時候,語音還沒有像現在業界這么火,但是他們認為語音輸入一定是未來很重要的一種輸入方式。所以,搜狗開始布局自己的語音技術,并在一年之內快速把自己的技術做起來,于2012年1月上線第一個版本。現在搜狗輸入法單日語音請求突破1.9億次,是國內第一大語音輸入應用。

發展到現在,通過人工在真實環境下進行評測,語音輸入準確率已經達到97%。評測條件是對著多家手機,考慮人的口音和環境噪聲,在真實環境下,如麥當勞、食堂、路邊去做對應測試。在這種環境下測試的結果,國內做語音輸入的公司中,科大訊飛準確率也是97%

搜狗語音功能能夠高效上線,究其原因,第一是借助于搜狗輸入法壟斷的市場地位。搜狗每天能收集到的用戶真實語音數據有十幾萬小時,里面包含了各種用戶真實場景下的噪音,口音等;第二背后有搜索服務的支持,這也是早年間為什么能快速推出語音助手的原因。

搜狗擁有各個垂直搜索以及對應的知識圖譜,這對語義理解和對話的幫助極大。搜狗語音輸入法每天有幾十個億的PV,搜索每天有上億,擁有海量的真實數據確實是一大財富。
你的語音是如何轉變為文本的

搜狗語音識別的總體架構:

替代鍵盤輸入的大趨勢:語音輸入法與其背后的技術解析

搜狗采用的是主流的語音識別流程。語音識別整體都可分成兩個大的部分,第一部分是訓練,采集大量語音,通過訓練工具訓練聲學模型和語言模型。訓練聲學模型需要采集大量的標注語音,而語言模型訓練需要有大量的文本。

第二是在訓練完成的模型指導下,使用解碼器對輸入語音信號進行識別,尋找最優的詞序列作為結果輸出。整體流程請見圖3。識別的公式如圖4所示,可見聲學模型主要描述發音模型下特征的似然概率;語言模型主要描述詞間的連接概率;發音詞典主要是完成詞和音之間的轉換,其中聲學模型建模單元一般選擇三音素模型,以“搜狗語音為例”:

替代鍵盤輸入的大趨勢:語音輸入法與其背后的技術解析


替代鍵盤輸入的大趨勢:語音輸入法與其背后的技術解析


需要注意的是,輸入特征矢量X代表語音的特征。

  目前不管是科大訊飛還是其他大的互聯網公司,大家的技術基本沒什么質的差別。

聲學模型上,12年上半年開始做語音識別的時候使用傳統高斯混合分布。12年終,微軟的深度學習語音識別成果出來后,搜狗開始跟進這個成果。于13年Q2上線了深度學習模型。開始時是用DNN,錯誤率就下降了30%。然后模型更復雜后結合了CNN,錯誤率再次下降20%。隨后混合LTSM形成多種網絡結構,再度提升了10%。

王硯峰說搜狗于前一段時間開始做CTC,使用端到端的方式進行聲學建模。而目前在工業界,去年10月份,百度號稱是降低了20%。谷歌大概是降低了10%,隨后是搜狗,降低了10%。“現在整個語音識別也會有兩個大的流派,一個大的流派就是基于像LTSM-RNN這種方式,還有一種大的流派是把CNN的部分強化的更多,就是把它變成一個層數更深的CNN”。

LTSM+CTC適合于工業界,在效率上也會比后者高,谷歌語音也已經實現并上線了,目前在國內搜狗跟百度是屬于前者;科大訊飛走得是后面這條路徑,訊飛花了更多時間在技術探索和品牌效應上。

整個處理流程中最耗時的是聲學部分。目前的復雜網絡集中在聲學部分,但是這并不代表語言模型不行,而是現在語言模型都基于傳統的馬爾科夫模型,如果整體都使用神經網絡模型,開銷就會大大降低。現在的問題是如果在聲學上使用深度學習模型,計算力就無法達到。

比如之前搜狗使用CPU進行運算,聲學部分就占據了60%-70%的計算開銷。使用LTSM技術之后,識別效果變得很不錯。隨著數據量再增大,模型變得更加復雜,要想取得更好的效果,用CPU就完不成任務。但是如果將CPU全部轉為GPU,計算能力就會大幅提高。最近搜狗開始完全轉為GPU,換GPU以后,無論效果還是性能都有明顯提升。
語音輸入痛點和解決方法

語音輸入痛點有很多,比如口音、方言、多人說話、噪聲、吞音、遠場等等。吞音現在業界解決的普遍較差,比如一旦吞音以后,從聲學上很難捕捉到特別細小的信息。但是語言模型如果做得太強勢,將會產生反作用,包括魯棒性也會受到影響。大家現在所說的準確率97%,就是基于一種相對理想的環境。

現在的痛點:第一是需要能夠從吞音和語速,包括從用戶的自然連讀上做得更好;第二點,是需要在有噪音的情況下將魯棒性做得更好。旁邊有人說話,或者旁邊有很強的背景音樂,都能夠做到準確的識別。第三點,是遠場。比如把一個音箱放在離你5米遠的地方,這時候去說話,識別就很困難。

對于去噪,本身有兩種流派。第一種流派是往數據當中加大量的噪音,相當于讓訓練數據去加各種場合的噪音。在訓練的過程當中,去擬合更多的這種場景,去見更多的場合,統一通過聲學模型去做。還有一種是最近兩年才流行起來的方式。當然以前也有,但這兩年在這方面學術成果比較多,就是語音增強,就是怎么能夠在噪聲當中,把噪聲先通過預處理壓下去,突出語音,減輕后續工作。

但是語音增強也會有問題,如果做得不夠精細,效果不夠好,甚至有可能變差;現在已經有很多方式把DNN引入到語音增強當中,但實際上還需要很大的計算力。這個計算復雜程度有的時候甚至不輸于后端。這一塊目前學術界已經有成果出來。

在數據預處理上搜狗有一個比較好的一個方法。在語音識別結果當中,通過一些產品設計來判斷用戶當前是否使用了文字結果,比如識別結果出來,用戶卻刪掉了,就說明識別結果不夠準確。這樣的語音,需要重點在模型訓練去使用。
智能語音技術如何影響你

各種發布會后,相信有不少朋友會去下載語音輸入APP,研究下功能和性能。但是下載之后你還有哪些時候會用到語音輸入?和朋友聊天時絕大多數還是會習慣于打字吧。那么智能語音什么時候能影響到你?智能語音的市場已經爆發了嗎?

語音交互目前在手機端比起文字交互來講差距還很大的。目前每天會使用語音輸入的用戶占到8-10%左右,這僅僅是UV比例,如果是PV比例那就更低。老羅在錘子發布會上給訊飛做了一把宣傳以后,當時訊飛語音輸入著實火了一陣,這也說明一般用戶對于語音功能的認知是遠遠不夠的。

目前手機上語音輸入的場景分成兩類:一種是用戶當前確實不方便打字,會選擇使用語音。另一方面我們看到年輕人會更加喜歡用語音的方式進行輸入,覺得這種行為更具有style,更好玩兒。

  哪些語音交互場景最具增長潛力,以及能快速規模化應用?三個有價值的場景,車內,客廳內,以及可穿戴。

引用一下今年互聯網女皇在她報告中提到的,美國同學們使用語音的主要原因和場景:

替代鍵盤輸入的大趨勢:語音輸入法與其背后的技術解析“不過這幾個場景爆發的順序有先后。我認為,首先是車,然后是智能家居和可穿戴。”

“車的場景和需求最明確,產品定位也最明確,所以語音的目標也最明確,從產業步伐上來看,目前車內導航語音普及率也是最高的。”

替代鍵盤輸入的大趨勢:語音輸入法與其背后的技術解析

最直觀的就是車內的智能導航,以及一些周圍查詢和用車問題。因為在車內你的雙手和雙眼都是被占用的,當你有臨時性需求時,語音是一種最好的滿足方式。另外就是用戶在路上產生的常見問題,比如順便加油、聽FM,回微信消息等。

“智能家居目前圍繞電視和音響,具體的需求主要是搜片和聽歌(以及FM等),這方面的需求比較明確。但是目前市場有些過熱,比如一個以聽歌為主要產品場景的音箱,已經被大家定位成未來家庭智能的入口。”

可穿戴,比如智能手表。“可穿戴我認為是最晚的,因為市場上產品還沒有成為剛需,比如智能手表,給用戶帶來的價值,其實是遠小于我們內心預期的。”

也就是說語音生態并不是直接面向消費者,而是面對To B客戶的,是B2B2C的過程。消費者必然是通過一些中間智能終端產品,比如車載設備、智能家居設備、可穿戴設備,以解放你的雙手和雙眼,來感受語音輸入帶來的便利。
未來語音輸入應用的破局點在哪里

  不管是技術也好,產品也好,當它給用戶帶來價值的時候,一定是用戶有剛需的時候。

很多用戶需求是伴隨著場景出現的,就像我們現在在手機上語音輸入的使用率不到10%,這說明什么?用戶在很多場景下是不需要這種產品的。“我們其實并沒有說,從這種發展上或者從這種場景上,希望用戶能夠百分之百使用語音輸入,這也不現實,本身也不對”。

但是什么樣的群體需要?是老人、小孩,或喜歡酷炫的年輕人。用戶在什么樣的場景下真正需要這個產品?在辦公室里根本不需要這樣的東西,更多的需求產生在戶外和在家里的時候。

所以從語音輸入發展看,可以分成兩個維度去談,第一個是對人,第二個是對機器。

輸入法就是對人。包括搜狗新研發出的語音翻譯,語音翻譯是針對外國人;語音輸入是針對中國人;而搜索以及云助手是針對機器。對人和對機器的需求是不同的。對人需要更多是考慮他的場景和痛點以及使用設備情況。比如不方便打字或者打字能力太低的時候,就需要語音輸入。

如果未來你在音箱上放一個聊天功能,而且大家真的去用音箱聊天,那么音箱肯定是沒法通過鍵盤進行輸入的,只能通過語音輸入方式。所以說語音輸入一定是會伴隨著用戶的需求跟場景以及用戶使用特點去講的,而不是說未來一定會徹底代替文字。

現在搜狗搜索或者語音助手的延伸,更多的是怎樣更好的服務當前的一些需求。比如上面所說的在開車的時候,不可能邊開車邊用雙手去按鍵,眼睛也需要看路況,那么在這個時候怎么能夠讓機器去解決一些問路或找加油站的事情呢?這時候就可以使用語音輸入來進行交互。產品價值要跟用戶需求和場景放在一起去談。

但是針對機器來講,未來會有更廣闊的市場空間,因為未來的植入設備,尤其是滿足于垂直領域的智能設備會越來越多,電視變成智能電視,音箱變成智能音箱,手表變成智能手表,很多東西都在智能化。因為在智能化的過程中,只要它能夠提供內容,那么它一定是有用戶搜索的需求,只要有用戶搜索需求,就有語音的價值,就是主流的價值。

目前搜狗的智能語音應用布局,王硯峰說有兩個重點:

第一個重點,是PC普通用戶的市場,因為搜狗是一個互聯網公司,首先需要在互聯網這條主線上把事情做好。而且大家都知道,像圖像目前在安防和自動駕駛領域應用較熱。但是在普通用戶消費品上,圖像產生貢獻不大,普通人很難體驗到圖像處理能力,圖像這塊目前還沒有成為人機交互的主要方式之一。

而現在的人機交互主要還是通過高緯度的信息去交互的,這個高緯度的信息就是語言:文字和語音。“所以未來,在用戶產品上,我個人覺得語音是一個在10年之內能夠比圖像更接近用戶需求,并能夠產生用戶價值的一個領域,而這也是搜狗目前的核心路徑之一”。

目前搜狗輸入法和搜索的核心路徑就是輸入交互。就未來的人工智能戰略而言,搜狗的核心戰略就是:自然交互+知識計算。而語音在交互上承載了一個非常重要的任務,所以第一件事應該是如何在產品上更好的服務用戶,包括能夠在技術上產生更多好的用戶產品。

第二個重點,實際上,未來不管是人工智能市場也好,還是硬件市場也好,都將走向分化的發展方式。比如國內硬件公司在這個方面就特別擅長,第一類就是產生內容公司,如喜馬拉雅。第二類,就是中間把設備和內容聯系起來的公司,這種做連接的公司也就是人工智能公司。

而比如音箱,導航,不可能是語音輸入公司自己做,但是用戶確實是在這樣的產品上進行語音交互,從而獲得服務拿到結果。以前是PC時代,當前是手機時代,但是未來不管是智能設備也好,可穿戴也好,這些市場一定會慢慢起來。所以現在也不單純是2B的市場,是B2B2C的市場,產品提供出來最終是要面向用戶的。

  除了做好自己的產品以外,確實還要考慮,怎么把從語音到搜索、從交互到內容提供的完整體系提供給一些我們認為有價值的廠商,用好的產品同他們聯合研發,更好的提升用戶體驗,這是我們的思路。

關于語音輸入的研發過程,王硯峰說他最大的感悟是:需要用一個好的產品來推動技術發展,并且產品能夠反過來促進技術進步,從而形成一個閉環。如果是去定位一個技術專家,那么技術專家他不需要去理解產品的邏輯或者市場邏輯,只需要漸漸的去推動這個技術發展。

但如果要做一個技術方向,并且把這個技術方向作為公司未來的一個主要方向,那么就一定要去把產品和用戶形成一個好的閉環。這也是語音能夠快速發展的原因。“

綜上,語音技術什么時候能爆發,還是要取決于:

第一,車聯網以及智能家居等產業的進一步成熟,能給用戶帶來真正的價值,讓用戶在這些產品上產生切實的消費,而不僅僅是體驗一下。這樣產業和產品的需求就會反過來推動技術的進步。

第二,語音的魯棒性的問題需要進一步解決,比如遠場,噪聲,多說話人等問題。當然這是一個漸進式的過程。

第三,自然語言的理解能力也需要更大的提升,機器更懂得用戶的意圖,才能給用戶帶來更穩定的體驗,產品才真正的可用。

所以爆發不僅僅是技術層面那么簡單,而是從產品設計到技術能力,都要比現在有一個更好的提升。

所屬類別: 行業新聞

該資訊的關鍵詞為:替代鍵盤輸入的大趨勢:語音輸入法與其背后的技術解析 

七乐彩走势图综合版