使用語音識(shí)別功能之前,先按照說明書安裝百度語音輸入軟件。在瀏覽器中輸入VOICEM380底部的軟件下載鏈接,就可以直接進(jìn)入軟件下載界面了,清晰簡(jiǎn)單,自行選擇win版/Mac版,跟著界面提示一部一部操作就ok。中間綁定手機(jī)/郵箱賬號(hào),接收驗(yàn)證碼,輸入VOICEM380底部的碼。安裝流程就結(jié)束了,讓我們來試試神奇的語音識(shí)別~先試了一下普通話模式,據(jù)官方說,每分鐘可聽寫約400字,準(zhǔn)確率高達(dá)98%。特意找了一段聽起來十分晦澀、拗口的話來測(cè)試,先清點(diǎn)VOICEM380的語音識(shí)別鍵。此時(shí)電腦右下角出現(xiàn)小彈框,進(jìn)入語音接收階段。以正常語速隨便讀了一下,轉(zhuǎn)化效果非常好,實(shí)現(xiàn)零誤差;而且對(duì)于智能語音識(shí)別中的“智能”也有了很好的詮釋,如動(dòng)圖,有些人名、專有名詞不能在一時(shí)間正確輸出,但會(huì)隨著語音的不斷輸入,不斷修正、調(diào)整前面的內(nèi)容;輸入結(jié)束后,可以再次輕點(diǎn)VOICEM380的語音識(shí)別鍵,進(jìn)入“識(shí)別”階段,個(gè)人感覺,更像是對(duì)于剛剛輸出的內(nèi)容進(jìn)行后的整合;如果剛剛的輸出有出現(xiàn)標(biāo)點(diǎn)錯(cuò)亂、錯(cuò)別字的現(xiàn)象,會(huì)在這個(gè)識(shí)別階段,統(tǒng)一調(diào)整,終整合后輸出的內(nèi)容,正確率十分ok。接著試了一下中譯英模式和英譯中模式,整體操作和普通話模式一致。雖然涉及了不同語種之間的翻譯轉(zhuǎn)化。語音識(shí)別,通常稱為自動(dòng)語音識(shí)別。貴州語音識(shí)別在線
訓(xùn)練通常來講都是離線完成的,將海量的未知語音通過話筒變成信號(hào)之后加在識(shí)別系統(tǒng)的輸入端,經(jīng)過處理后再根據(jù)語音特點(diǎn)建立模型,對(duì)輸入的信號(hào)進(jìn)行分析,并提取信號(hào)中的特征,在此基礎(chǔ)上建立語音識(shí)別所需的模板。識(shí)別則通常是在線完成的,對(duì)用戶實(shí)時(shí)語音進(jìn)行自動(dòng)識(shí)別。這個(gè)過程又基本可以分為“前端”和“后端”兩個(gè)模塊。前端主要的作用就是進(jìn)行端點(diǎn)檢測(cè)、降噪、特征提取等。后端的主要作用是利用訓(xùn)練好的“聲音模型”和“語音模型”對(duì)用戶的語音特征向量進(jìn)行統(tǒng)計(jì)模式識(shí)別,得到其中包含的文字信息。語音識(shí)別技術(shù)的應(yīng)用語音識(shí)別技術(shù)有著應(yīng)用領(lǐng)域和市場(chǎng)前景。在語音輸入控制系統(tǒng)中,它使得人們可以甩掉鍵盤,通過識(shí)別語音中的要求、請(qǐng)求、命令或詢問來作出正確的響應(yīng),這樣既可以克服人工鍵盤輸入速度慢,極易出差錯(cuò)的缺點(diǎn),又有利于縮短系統(tǒng)的反應(yīng)時(shí)間,使人機(jī)交流變得簡(jiǎn)便易行,比如用于聲控語音撥號(hào)系統(tǒng)、聲控智能玩具、智能家電等領(lǐng)域。在智能對(duì)話查詢系統(tǒng)中,人們通過語音命令,可以方便地從遠(yuǎn)端的數(shù)據(jù)庫(kù)系統(tǒng)中查詢與提取有關(guān)信息,享受自然、友好的數(shù)據(jù)庫(kù)檢索服務(wù),例如信息網(wǎng)絡(luò)查詢、醫(yī)療服務(wù)、銀行服務(wù)等。語音識(shí)別技術(shù)還可以應(yīng)用于自動(dòng)口語翻譯。黑龍江語音識(shí)別器多人語音識(shí)別及離線語音識(shí)別也是當(dāng)前需要重點(diǎn)解決的問題。
并能產(chǎn)生興趣投身于這個(gè)行業(yè)。語音識(shí)別的技術(shù)歷程現(xiàn)代語音識(shí)別可以追溯到1952年,Davis等人研制了世界上個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),從此正式開啟了語音識(shí)別的進(jìn)程。語音識(shí)別發(fā)展到已經(jīng)有70多年,但從技術(shù)方向上可以大體分為三個(gè)階段。下圖是從1993年到2017年在Switchboard上語音識(shí)別率的進(jìn)展情況,從圖中也可以看出1993年到2009年,語音識(shí)別一直處于GMM-HMM時(shí)代,語音識(shí)別率提升緩慢,尤其是2000年到2009年語音識(shí)別率基本處于停滯狀態(tài);2009年隨著深度學(xué)習(xí)技術(shù),特別是DNN的興起,語音識(shí)別框架變?yōu)镈NN-HMM,語音識(shí)別進(jìn)入了DNN時(shí)代,語音識(shí)別精細(xì)率得到了提升;2015年以后,由于“端到端”技術(shù)興起,語音識(shí)別進(jìn)入了百花齊放時(shí)代,語音界都在訓(xùn)練更深、更復(fù)雜的網(wǎng)絡(luò),同時(shí)利用端到端技術(shù)進(jìn)一步大幅提升了語音識(shí)別的性能,直到2017年微軟在Swichboard上達(dá)到詞錯(cuò)誤率,從而讓語音識(shí)別的準(zhǔn)確性超越了人類,當(dāng)然這是在一定限定條件下的實(shí)驗(yàn)結(jié)果,還不具有普遍代表性。GMM-HMM時(shí)代70年代,語音識(shí)別主要集中在小詞匯量、孤立詞識(shí)別方面,使用的方法也主要是簡(jiǎn)單的模板匹配方法,即首先提取語音信號(hào)的特征構(gòu)建參數(shù)模板,然后將測(cè)試語音與參考模板參數(shù)進(jìn)行一一比較和匹配。
語音識(shí)別自半個(gè)世紀(jì)前誕生以來,一直處于不溫不火的狀態(tài),直到2009年深度學(xué)習(xí)技術(shù)的長(zhǎng)足發(fā)展才使得語音識(shí)別的精度提高,雖然還無法進(jìn)行無限制領(lǐng)域、無限制人群的應(yīng)用,但也在大多數(shù)場(chǎng)景中提供了一種便利高效的溝通方式。本篇文章將從技術(shù)和產(chǎn)業(yè)兩個(gè)角度來回顧一下語音識(shí)別發(fā)展的歷程和現(xiàn)狀,并分析一些未來趨勢(shì),希望能幫助更多年輕技術(shù)人員了解語音行業(yè),并能產(chǎn)生興趣投身于這個(gè)行業(yè)。語音識(shí)別,通常稱為自動(dòng)語音識(shí)別,英文是AutomaticSpeechRecognition,縮寫為ASR,主要是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,一般都是可以理解的文本內(nèi)容,也有可能是二進(jìn)制編碼或者字符序列。但是,我們一般理解的語音識(shí)別其實(shí)都是狹義的語音轉(zhuǎn)文字的過程,簡(jiǎn)稱語音轉(zhuǎn)文本識(shí)別(SpeechToText,STT)更合適,這樣就能與語音合成(TextToSpeech,TTS)對(duì)應(yīng)起來。語音識(shí)別是一項(xiàng)融合多學(xué)科知識(shí)的前沿技術(shù),覆蓋了數(shù)學(xué)與統(tǒng)計(jì)學(xué)、聲學(xué)與語言學(xué)、計(jì)算機(jī)與人工智能等基礎(chǔ)學(xué)科和前沿學(xué)科,是人機(jī)自然交互技術(shù)中的關(guān)鍵環(huán)節(jié)。但是,語音識(shí)別自誕生以來的半個(gè)多世紀(jì),一直沒有在實(shí)際應(yīng)用過程得到普遍認(rèn)可,一方面這與語音識(shí)別的技術(shù)缺陷有關(guān),其識(shí)別精度和速度都達(dá)不到實(shí)際應(yīng)用的要求。
由于語音交互提供了更自然、更便利、更高效的溝通形式,語音識(shí)別必定將成為未來主要的人機(jī)互動(dòng)接口之一。
第三個(gè)關(guān)鍵點(diǎn)正是AmazonEcho的出現(xiàn),純粹從語音識(shí)別和自然語言理解的技術(shù)乃至功能的視角看這款產(chǎn)品,相對(duì)于Siri等并未有什么本質(zhì)性改變,變化只是把近場(chǎng)語音交互變成了遠(yuǎn)場(chǎng)語音交互。Echo正式面世于2015年6月,到2017年銷量已經(jīng)超過千萬,同時(shí)在Echo上扮演類似Siri角色的Alexa漸成生態(tài),其后臺(tái)的第三方技能已經(jīng)突破10000項(xiàng)。借助落地時(shí)從近場(chǎng)到遠(yuǎn)場(chǎng)的突破,亞馬遜一舉從這個(gè)賽道的落后者變?yōu)樾袠I(yè)者。但自從遠(yuǎn)場(chǎng)語音技術(shù)規(guī)模落地以后,語音識(shí)別領(lǐng)域的產(chǎn)業(yè)競(jìng)爭(zhēng)已經(jīng)開始從研發(fā)轉(zhuǎn)為應(yīng)用。研發(fā)比的是標(biāo)準(zhǔn)環(huán)境下純粹的算法誰更有優(yōu)勢(shì),而應(yīng)用比較的是在真實(shí)場(chǎng)景下誰的技術(shù)更能產(chǎn)生優(yōu)異的用戶體驗(yàn),而一旦比拼真實(shí)場(chǎng)景下的體驗(yàn),語音識(shí)別便失去存在的價(jià)值,更多作為產(chǎn)品體驗(yàn)的一個(gè)環(huán)節(jié)而存在。所以到2019年,語音識(shí)別似乎進(jìn)入了一個(gè)相對(duì)平靜期,全球產(chǎn)業(yè)界的主要參與者們,包括亞馬遜、谷歌、微軟、蘋果、百度、科大訊飛、阿里、騰訊、云知聲、思必馳、聲智等公司,在一路狂奔過后紛紛開始反思自己的定位和下一步的打法。語音賽道里的標(biāo)志產(chǎn)品——智能音箱,以一種的姿態(tài)出現(xiàn)在大眾面前。2016年以前。更重要的是體現(xiàn)在世界范圍內(nèi)的各行各業(yè)在設(shè)計(jì)和部署語音識(shí)別系統(tǒng)時(shí)均采用了各種深度學(xué)習(xí)方法。廣州自主可控語音識(shí)別介紹
一些語音識(shí)別系統(tǒng)需要“訓(xùn)練”(也稱為“注冊(cè)”),其中個(gè)體說話者將文本或孤立的詞匯讀入系統(tǒng)。貴州語音識(shí)別在線
應(yīng)用背景隨著信息時(shí)代的到來,語音技術(shù)、無紙化技術(shù)發(fā)展迅速,但是基于會(huì)議辦公的應(yīng)用場(chǎng)景,大部分企業(yè)以上技術(shù)應(yīng)用都不夠廣,會(huì)議辦公仍存在會(huì)議記錄強(qiáng)度高、出稿準(zhǔn)確率低,會(huì)議工作人員壓力大等問題。為解決上述問題,智能語音識(shí)別編譯管理系統(tǒng)應(yīng)運(yùn)而生。智能語音識(shí)別編譯管理系統(tǒng)的主要功能是會(huì)議交流場(chǎng)景下語音實(shí)時(shí)轉(zhuǎn)文字,解決了人工記錄會(huì)議記要易造成信息偏差、整理工作量大、重要會(huì)議信息得不到體系化管控、會(huì)議發(fā)言內(nèi)容共享不全等問題,提升語音技術(shù)在會(huì)議中的應(yīng)用水平,切實(shí)提升會(huì)議的工作效率。實(shí)現(xiàn)功能智能語音識(shí)別編譯管理系統(tǒng)對(duì)會(huì)議信息進(jìn)行管理,實(shí)現(xiàn)實(shí)時(shí)(歷史)會(huì)議語音轉(zhuǎn)寫和在線編輯;實(shí)現(xiàn)角色分離、自動(dòng)分段、關(guān)鍵詞優(yōu)化、禁忌詞屏蔽、語氣詞過濾;實(shí)現(xiàn)全文檢索、重點(diǎn)功能標(biāo)記、按句回聽;實(shí)現(xiàn)展板設(shè)置、導(dǎo)出成稿、實(shí)時(shí)上屏等功能。技術(shù)特點(diǎn)語音轉(zhuǎn)文字準(zhǔn)確率高。系統(tǒng)中文轉(zhuǎn)寫準(zhǔn)確率平均可達(dá)95%,實(shí)時(shí)語音轉(zhuǎn)寫效率能夠達(dá)到≤200毫秒,能夠?qū)崿F(xiàn)所聽即所見的視覺體驗(yàn)。系統(tǒng)能夠結(jié)合前后文智能進(jìn)行語句順滑、智能語義分段,語音轉(zhuǎn)寫過程中也能夠直接對(duì)轉(zhuǎn)寫的文本進(jìn)行編輯,編輯完成后即可出稿。會(huì)議內(nèi)容記錄更完整。系統(tǒng)可實(shí)現(xiàn)對(duì)全部發(fā)言內(nèi)容的記錄。貴州語音識(shí)別在線