<bdo id="vljxk"><rt id="vljxk"><noframes id="vljxk"><noframes id="vljxk"><noframes id="vljxk"><rt id="vljxk"></rt><rt id="vljxk"></rt><noframes id="vljxk"><rt id="vljxk"><delect id="vljxk"></delect></rt><noframes id="vljxk"><rt id="vljxk"></rt><noframes id="vljxk"><noframes id="vljxk"><rt id="vljxk"></rt>

  1. 創業頭條
  2. 前沿領域
  3. 人工智能
  4. 正文

語音識別進化簡史:從造技術到建系統

 2019-08-02 14:13  來源:A5專欄  我來投稿 撤稿糾錯

  阿里云優惠券 先領券再下單

美國知名投資機構Mangrove Capital Partners在《2019年語音技術報告》中,給語音下了一個宏大的定義——歡迎下一代的顛覆者。

可如果把時間倒退10年,大部分人還是會把“語音交互”定義為一場豪賭,都知道贏面比較大,卻遲遲不敢下注,因為概念的落地還沒有一個明確的期限,當正確的路徑被走通之前,永遠都存在不確定性。

不過在此前的80年里,人類對語音技術的希望從未破滅,就像是在迷宮中找尋出口一般,一遍又一遍的試錯,最終找到了正確的路徑。

01 漫長的孩提時代

“小度小度,明天天氣怎么樣?”“小度小度,我想聽周杰倫的歌” “小度小度,我想給爸爸打電話”,諸如這樣的指令每天有幾億次發生,哪怕是牙牙學語的孩子也可以和智能音箱進行流暢的對話。

但在50年前,就職于貝爾實驗室的約翰·皮爾斯卻在一封公開信中為語音識別下了“死亡診斷書”:就像是把水轉化為汽油、從海里提取金子、徹底治療癌癥,讓機器識別語音幾乎是不可能實現的事情。

彼時距離首個能夠處理合成語音的機器出現已經過去30年的時間,距離發明出能夠聽懂從0到9語音數字的機器也過去了17個年頭。這兩項創造性的發明均出自貝爾實驗室,但語音識別技術的緩慢進展,幾乎消磨掉了所有人的耐心。

在20世紀的大部分時間里,語音識別技術就像是一場不知方向的長征,時間刻度被拉長到了10年之久:

上世紀60年代,時間規整機制、動態時間規整和音素動態跟蹤三個關鍵技術奠定了語音識別發展的基礎;

上世紀70年代,語音識別進入了快速發展的階段,模式識別思想、動態規劃算法、線性預測編碼等開始應用;

上世紀80年代,語音識別開始從孤立詞識別系統向大詞匯量連續語音識別系統發展,基于GMM-HMM的框架成為語音識別系統的主導框架;

上世紀90年代,出現了很多產品化的語音識別系統,比如IBM的Via-vioce系統、微軟的Whisper系統、英國劍橋大學的HTK系統;

但在進入21世紀后,語音識別系統的錯誤率依然很高,再次陷到漫長的瓶頸期。直到2006年Hiton提出用深度置信網絡初始化神經網絡,使得訓練深層的神經網絡變得容易,從而掀起了深度學習的浪潮。

只是在2009年之前70年左右的漫長歲月里,中國在語音識別技術上大多處于邊緣角色,1958年中國科學院聲學所利用電子管電路識別10個元音,1973年中國科學院聲學所開始了計算機語音識別,然后是863計劃開始開始組織語音識別技術的研究,直到百度、科大訊飛等中國企業的崛起。

02 躍進的少年時代

2010年注定是語音識別的轉折點。

前一年Hinton和D.Mohamed將深度神經網絡應用于語音的聲學建模,在小詞匯量連續語音識別數據庫TIMIT上獲得成功。

從2010年開始,微軟的俞棟、鄧力等學者首先嘗試將深度學習技術引入到語音識別領域,并確立了三個維度的標準:

數據量的多少,取決于搜索量、使用量的規模;

算法的優劣,頂級人才扮演者至關重要的角色;

計算力的水平,關鍵在于FPGA等硬件的發展。

在這三個維度的比拼中,誰擁有數據上的優勢,誰聚集了頂級的人才,誰掌握著強大的計算能力,多半會成為這場較量中的優勝方。于是在語音識別的“少年時代”,終于開始了躍進式的發展,刷新紀錄的時間間隔被壓縮到幾年到幾個月。

2016年語音識別的準確率達到90%,但在這年晚些時候,微軟公開表示語音識別系統的詞錯率達到了5.9%,等同于人類速記同樣一段對話的水平,時任百度首席科學家吳恩達發聲稱百度在2015年末即達到了同等水平;2017年6月,Google表示語音識別的準確率達到95%,而早在10個月前的時候,李彥宏就在百度世界大會上宣布了百度語音識別準確率達到97%的消息。

一個有些“奇怪”的現象,為何在語音識別領域缺少前期積累的中國,可以在極短的時間內實現從無到有,甚至有后發先至的趨勢?可以找到的原因有二:

首先,傳統專利池被挑戰,競爭回歸技術。

語音識別進入深度學習時代,并沒有背負太多的專利包袱,中美玩家們有機會站在了同一起跑線上。

比如2013年百度的語音識別技術還主要基于mel-bank的子帶CNN模型;2014年就獨立發展出了Sequence Discriminative Training(區分度模型);2015年初推出基于LSTM –HMM的語音識別,年底發展出基于LSTM-CTC的端對端語音識別系統;2016年和2017年將Deep CNN模型和 LSTM、CTC結合起來,2018年推出Deep Peak 2模型,2019年又發布了流式多級的截斷注意力模型……

而在不久前結束的百度AI開發者大會上,百度還推出了針對遠場語音交互的鴻鵠芯片,可以實現遠場陣列信號實時處理,高精度超低誤報語音喚醒以及離線語音識別。

其次,語音識別進入到生態化、產業化的時代。

在Google發布了語音開放API后,對Nuance產生了致命的打擊,不僅僅是Google在產品和技術上的優勢,也來自于Google強大的人工智能技術生態,例如以TensorFlow為代表的深度學習引擎。

同樣的邏輯,百度在2015年就開放了上百項智能語音專利,與海爾、京東、中興通訊、中國普天等組建了智能語音知識產權產業聯盟,同時PaddlePaddle、Warp-CTC、百度大腦的開放和開源,對中文語音識別有著潛移默化的影響,成為了中國語音識別領域標準的制定者。

除此之外,2018年公布的第二十屆中國專利評審結果中,百度的語音、機器翻譯、無人車相關三項專利獲獎,成為人工智能領域至今為止在國內專利界獲得的最高級別政府獎項。

其中“語音專利”涉及的新語音識別模型——采用深度學習算法在24時內對數以百億級的大規模數據進行實時分析,高性能計算,令語音識別技術的準確率達97%,解決了語音識別領域關鍵性、共性的技術難題,被MIT 評為“2016年全球十大突破技術”。

語音識別的話語權,逐漸從大學和機構的實驗室轉移到了微軟、Google、百度等商業巨擘手中,并最終迎來了躍進式發展的十年?;蛟S語音技術的“少年時代”還有很長的路要走,但終究走出了漫漫黑夜,瞥見了黎明的曙光。

03 語音交互的“誘惑”

需要思考這樣一個問題:為何語音識別在80年的技術長征中,出現了這樣或那樣質疑的聲音,仍然對語音識別如此癡迷?前70年的答案可能是希望,最近10年的驅動因素則可能是龐大蛋糕的誘惑。

先來盤點一下2010年后語音識別走向應用的三個過程:

一問一答階段:彼時語音識別在自我學習、邏輯推理方面還有很大欠缺,不能針對同一對話內容展開深入交互,比如你問天氣如何,系統會自動調取天氣數據,接著問明天天氣如何?會調取明天的天氣預報。但今天天氣和明天天氣之間都是各自獨立的對答,不能連接貫通,也未能形成邏輯。

有問有答階段:語音識別開始在問答的基礎上有了對話的屬性,對應的產品有蘋果的Siri、Google Now、百度語音、微軟Cortana等等,彼時仍然停留在“人機對話”,處于機器被動接受人類輸入大量數據階段,不能更深層次理解人的意思,無法實現自學習、自成長,與機器的語音交流還不能像人一樣自然。

自然交互階段:從語音識別到語音交互,不僅有問有答,人工智能還可以根據上下文邏輯和環境信息,作出個性化的決策或推薦。典型的場景就是智能音箱,亞馬遜、谷歌、百度、阿里等無不開始在智能音箱領域發力,語音識別入口正逐漸撬開內容、IoT等生態,已然是AI入口之爭的主戰場。

印象深刻的是,在《向往的生活》第三季中,幾乎每期嘉賓都會主動和小度對話,然后被智能音箱流暢的對答所折服,對比一些智能手機里還處于有問有答狀態的語音助手,自然的語音交互階段已經提前到來。

不難從中看到這樣的變化:剛開始的語音識別還處于造技術的階段,可能僅僅是為了新奇炫酷的體驗,但隨著智能音箱、語音助手等軟硬件應用的普及,解決了一個又一個棘手的痛點,語音交互開始有了成為下一代人機交互方式的可能,進而打造一個以語音為入口的全新操作系統。

可以借鑒腦學界“感官侏儒”的說法,手和舌頭是人類最靈活的兩個部分,從DOS系統到施樂的圖形化界面再到移動設備的觸控交互,無不依賴于手的交互。

而當語音技術和人工智能同時走向成熟,或許就像《2019語音技術報告》中所描述的:“語音交互扭轉了以往人機交互的存在形態,用戶與設備間基于語音交互的全新關系開始搭建,與之前互聯網向移動互聯網過渡一樣,其對底層平臺的全新需求也在醞釀當中。”

甚至不排除語音優先的可能,亞馬遜Alexa首席科學家Rohit Prasad曾直言:“我們希望消除與客戶的摩擦,最自然的方式就是通過聲音。它不僅僅是一個能提供一堆結果的搜索引擎,它還會告訴你答案。”言外之意,語音技術可以幫助人們擺脫文字和屏幕的束縛,提供一種升維的用戶體驗。

04 巨頭們的新戰場

接過前輩們的衣缽,Google、百度等巨頭并非沒有“私心”。因為在語音交互成為人機交互主流方式的同時,也在重構現有的商業規則。正如李彥宏在《人民日報》發表的文章中所說,“作為引領此次變革的戰略性技術,人工智能對世界的影響將遠超以往歷次工業革命。”

比如在觸控交互的世界里,人們與服務的連接通過這樣或那樣的App,生活中也出現了社交、搜索、電商、資訊等領域的諸多超級App,但語音交互是典型的服務找人,諸如搜索、電商、社交、廣告等主流的盈利路徑都將被重構,乃至顛覆現有的市場格局。

一個典型的例子,不管是國內百度的小度助手,還是Google Assistant、亞馬遜Alexa,早已不再滿足于“語音助手”的身份,在功能上開始向語音對話、內容服務、IoT設備管理等方向演進,在場景上覆蓋了家庭、汽車、酒店等等,以語音交互為切入的生態系統早已有了雛形,成為觸控之外的又一個殺手級應用。

同時語音的顛覆性也逐漸浮出水面,原先想要聽一首歌、看一部電影的時候,需要在手機上打開特定的App,手動輸入歌曲或電影的名字,在一連串的搜索結果中找到自己需要的。語音交互的場景下,只需要發出相應的語音指令,設備就可以自動播放你想要的歌曲或視頻,不僅在效率上指數級提升,也在改變音樂或視頻服務方的地位,從前端走向后臺的內容供應商。

截止到目前,幾乎所有的互聯網巨頭都對語音勢在必得,尤其是在炙手可熱的智能音箱賽道上,國外出現了谷歌、亞馬遜、蘋果等巨頭林立的局面,國內的百度、阿里、小米直接拿到了90%的市場份額,并且有著一家獨大的趨勢。

在美國,亞馬遜占據了智能音箱64.6%的份額,而在國內,StrategyAnalytics、Canalys和IDC無不在報告中指出了這樣的事實:去年才正式發力智能音箱的百度,早已成為世界前三、中國第一的品牌。

特別是隨著語音技術的持續深入,巨頭們也開始改變自己的戰略路線,百度就是一個特例。

2016年就在內部形成了“夯實移動基礎,決勝AI時代”的驅動戰略,并確立了AIfirst的公司架構,相繼打造了包括語音技術、圖像技術、視頻技術、NLP、知識圖譜、數據智能以及深度學習等技術研線的AIG,涵蓋全自動駕駛、智能輔助駕駛以及車聯網業務的AIG,業務范圍涉及小度助手、智能音箱等軟硬件語音技術的SLG。

如此,語音技術不僅為人機交互提供了新的可能,也在一定程度上成了巨頭從互聯網跨向AI賽道的“引路人”。

如果以2019年作為新起點的話,語音識別已經從雙翼飛機時代進入噴氣式飛機時代,下一步的目標無疑就是成為火箭級的產品。幸運的是,在這場決定著未來科技生態的戰場上,中國的玩家不再缺席,而是從跟隨者變成了領導者。

作者 | Alter 公眾號 | Alter聊IT 作者系獨立撰稿人,微信號imhefei

申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!

相關標簽
智能語音
語音交互

相關文章

  • 2025年10個頂級GPU云平臺:Serverless+RL開啟AI普惠時代

    近期,“AI新云”(NeoCloud)概念在科技圈和投資圈引發熱潮。今年3月,被業內稱作“英偉達親兒子”的AI基礎設施企業CoreWeave上市。這家依托英偉達GPU資源沖擊新云市場的初創公司,上市不到3個月市值飆升359%,達881億美元。CoreWeave的“身價暴漲”吸引了無數視線。對此,不少

    標簽:
    ai智能
  • 阿里巴巴梭哈AI

    2024年往前數三年,我們稱之為阿里巴巴失去的三年。

  • 華為盤古大模型5.5發布:深度思考模型將上線

    一場人工智能領域的革新風暴正從華為開發者大會現場席卷全球產業界。2025年6月20日,在東莞舉行的華為開發者大會HDC2025上,華為常務董事、華為云計算CEO張平安揭開了盤古大模型5.5的神秘面紗。這一全新版本在自然語言處理、計算機視覺、多模態、預測和科學計算五大基礎模型上實現全面突破,標志著中國

  • OpenAI 推出開源客戶服務代理框架 支持商業或實驗用途

    一行代碼未寫,企業已獲完整客服系統——這將是AI代理普及的新起點?!敖裉鞓酥局鳤I代理技術從實驗室走向產業的轉折點?!監penAI產品負責人OlivierGodement在項目發布聲明中如此評價。就在今日,這家AI巨頭通過HuggingFace平臺開源了一套完整的客戶服務代理框架,采用寬松的MIT許

    標簽:
    ai技術
  • 夸克App上線“夸克老師”:AI實現個性化輔導,精準攻克學習難題

    6月17日,阿里巴巴旗下智能信息平臺夸克App正式推出全新學習產品“夸克老師”——一款集講題、批作業、出題、找試卷于一體的AI家教。該功能依托通義千問大模型,通過指令微調、強化學習等前沿技術,首次實現“因材施教”的個性化輔導,標志著AI在教育領域的應用邁入新階段。技術突破:AI模擬真人教學,推理能力

    標簽:
    夸克
  • 字節旗下AI工具豆包電腦版與網頁版上線“AI播客”功能,用戶可一鍵生成雙人對話播客

    2025年6月17日,字節跳動旗下智能助手豆包正式在電腦版及網頁端全量上線“AI播客”功能,用戶只需上傳PDF文檔或網頁鏈接,即可一鍵生成由兩位AI主播演繹的對話式播客節目。這一創新功能憑借高度擬人化的語音效果和秒級轉化效率,迅速引發內容創作者、學生群體及職場人士的關注。技術突破:真人級語音交互,秒

    標簽:
    豆包ai
  • 全球AI巨頭正在賭:誰搞定MCP,誰就是未來老大

    我不是危言聳聽,現在全球的AI巨頭都在做MCP,毫不夸張的說:誰能把MCP做起來,誰就擁有AI生態控制權,誰就是AI圈的老大。你們有沒有發現,MCP在2025年初開始特別火爆,互聯網技術大廠都在強推MCP。(1)阿里云百煉搞了個MCP平臺,提供50+預置MCP服務。不過大都只面向阿里系產品。(2)騰

    標簽:
    ai智能
  • 對話李軍:人工智能是“第五范式革命”

    2025國際人工智能程序設計精英挑戰賽(IAEPC)在香港中文大學成功舉辦。作為主辦方之一,歐美同學基金會理事長李軍接受了大賽主持人艾誠采訪。在采訪中,李軍認為IAEPC不僅是一場“冠軍中的冠軍”對決,更是一次全球AI人才的線下交流盛會。大賽“史無前例”的吸引了全球青年科技精英匯聚香港,更加推動和普

編輯推薦