智能語音控制:開啟人機(jī)跨界溝通之旅
已瀏覽:次
技術(shù)原理:語音識別+云計(jì)算
想找一家就近的餐廳用餐,只需說出“吃飯”;想訂購某一班次的飛機(jī)票,只需說出“訂機(jī)票”;想聽首時下流行的歌曲,只需說出“聽歌”……是的,沒錯,這些操作都是說出來的,只需開啟手機(jī)或平板電腦上的語音控制功能,用戶就可以輕而易舉地得到所需的信息,這正是智能語音控制技術(shù)的迷人之處。
談到人機(jī)語音互動,在全球范圍內(nèi),最為人熟知的要數(shù)蘋果手機(jī)上的“Siri”功能。在手機(jī)發(fā)布之前,曾一度被業(yè)界認(rèn)為是智能終端雞肋的iPhone 4S,因?yàn)閮?nèi)嵌了一項(xiàng)語音控制功能,引發(fā)了人們的廣泛關(guān)注。
所謂“Siri”,是一種智能化語音識別控制技術(shù),用戶可以通過語音控制,輕而易舉地搜索到所需信息。最神奇的是,這項(xiàng)功能還可以根據(jù)使用者說出的內(nèi)容提供智能互動。比如,用戶想訂機(jī)票去某地,在搜索到相關(guān)航班信息后,計(jì)算機(jī)還會為用戶播報出旅途終點(diǎn)的天氣情況、旅館信息與推薦餐廳,可謂體貼到家。
那么,這種“體貼”是如何實(shí)現(xiàn)的呢?
中國科學(xué)院自動化研究所專家王卓為《亮報》記者解釋了技術(shù)的原理:它包含了兩個層面——讓機(jī)器聽懂人說話,用的是語音識別技術(shù);讓機(jī)器說話,用的是語音合成技術(shù)。此外,語音控制還涉及網(wǎng)頁搜索技術(shù)、知識搜索技術(shù)、知識庫技術(shù)、問答和推薦技術(shù),以及語音編碼、音色轉(zhuǎn)換、口語評測、語音消噪和增強(qiáng)等技術(shù)。
簡單來說,其核心就在于“本地語音識別+云計(jì)算服務(wù)”。美國蘋果公司的相關(guān)資料顯示,依托于強(qiáng)大的互聯(lián)網(wǎng)云服務(wù)器,手機(jī)用戶的任何一句指令都會被手機(jī)端的語音識別器編譯成相關(guān)代碼,通過網(wǎng)絡(luò)反饋到互聯(lián)網(wǎng)服務(wù)供應(yīng)商的云計(jì)算服務(wù)器上,經(jīng)過相關(guān)技術(shù)手段的識別,尋找到對應(yīng)的答案,再反饋到用戶手機(jī)上,并利用語音合成功能將結(jié)果“說”出來。
盡管過程繁瑣,但整個流程只需幾秒鐘就能完成。對于用戶而言,操作簡單、體驗(yàn)良好。因此,有人評價說,當(dāng)人機(jī)溝通還原為人際溝通那樣自然的狀態(tài)時,便會開啟無限的可能性——人們可以在任何地點(diǎn)、任何時間,借助語音交互的方式,享受到更多的社會信息資源和現(xiàn)代化服務(wù)。
語音控制技術(shù)帶來的,不僅是人機(jī)交互方式的變化,更重要的是帶來生產(chǎn)方式的革命。語音控制把原本費(fèi)腦、費(fèi)力、費(fèi)時的傳統(tǒng)機(jī)器操作變?yōu)榱艘患唵斡腥さ氖�,相關(guān)技術(shù)的成熟也帶動了一系列嶄新的智能設(shè)備出現(xiàn),使人們的工作與生活更加便捷,其應(yīng)用范圍和前景也愈加廣闊。
美國軟件公司Gerger創(chuàng)始人Yalim K.Gerger這樣評價智能語音控制技術(shù):“(它)標(biāo)志著第六次科技革命的開始,人工智能及其在商業(yè)和日常生活中的應(yīng)用將成為推動技術(shù)創(chuàng)新和經(jīng)濟(jì)增長的動力。”
在汽車上,車載語音系統(tǒng)導(dǎo)航儀會根據(jù)GPS定位,在你所處的位置用當(dāng)?shù)胤窖詾槟銓?dǎo)航;在課堂上,語音識別軟件會自動判斷學(xué)習(xí)者的語音語調(diào)是否正確并給予糾正;在客廳中,家用電器會根據(jù)你發(fā)出的指令自動啟動或者關(guān)閉……這些基于語音控制技術(shù)而實(shí)現(xiàn)的智能互動方式,正一點(diǎn)一滴地改變著人們的生活習(xí)慣。
在與智能手機(jī)使用人群的交流中,《亮報》記者注意到,大部分人不約而同地提及語音控制技術(shù)的智能化學(xué)習(xí)功能。但也有人擔(dān)心智能終端無法聽懂操控者的方言和語調(diào)。
在云計(jì)算時代,這并不成問題。王卓告訴記者,隨著語音云數(shù)據(jù)庫的不斷擴(kuò)容,數(shù)據(jù)庫會采集到更多的語音類型。同時,終端也會自動記憶操控者發(fā)出的指令,在下次遇到類似情況時,將準(zhǔn)確地給出回答。這種方式使語音控制技術(shù)更像用戶身邊一位聰明勤奮的“伙伴”,擁有學(xué)習(xí)能力并且時刻在進(jìn)步。
正是基于這種智能、開放的模式,語音控制技術(shù)被廣泛應(yīng)用于多領(lǐng)域。
在家電行業(yè),家電廠商已經(jīng)掌握了通過語音交互實(shí)現(xiàn)智能家電“言聽計(jì)從”的核心技術(shù)。在今年4月初舉行的第一屆電子信息博覽會上,一批語音家電登臺亮相。觀看植入了語音控制技術(shù)的家電,人們只需開啟語音控制按鍵,就可以通過聲音指令在各頻道間切換。
正逐步改變?nèi)藗兊纳盍?xí)慣
在汽車行業(yè),依托車載語音云平臺,駕駛者只需開口說話,就可在行車過程中享受到撥打電話、位置導(dǎo)航、資訊播報、語音點(diǎn)歌、車輛診斷等伴隨式服務(wù)。
在娛樂領(lǐng)域,“麥霸”們在KTV里放聲歌唱,語音識別可以將演唱和原音進(jìn)行旋律對比,給演唱打分,實(shí)現(xiàn)自我評估。
在教育領(lǐng)域,語音控制技術(shù)已被應(yīng)用到維語、蒙古語、藏語等少數(shù)民族語言的學(xué)習(xí)與研究之中,新疆大學(xué)、內(nèi)蒙古大學(xué)等高校都設(shè)立了語音實(shí)驗(yàn)室,人機(jī)語音對話已成為語言學(xué)習(xí)的重要手段。
同時,語音控制正應(yīng)用在偵查工作和取證工作中,刑偵機(jī)構(gòu)可以借助掌握的語音線索,提取相關(guān)人士的語音特征,通過語音識別和說話內(nèi)容,對說話人身份進(jìn)行判斷。
業(yè)內(nèi)人士向《亮報》記者介紹,目前,中國的語音技術(shù)產(chǎn)業(yè)已經(jīng)擁有自主知識產(chǎn)權(quán),核心技術(shù)處于國際領(lǐng)先水平。中國的語音技術(shù)研發(fā)企業(yè)正從核心技術(shù)和軟件提供商的角色向全產(chǎn)業(yè)鏈延伸,并在移動互聯(lián)網(wǎng)時代將各類語音應(yīng)用深入到手機(jī)、汽車、家電、玩具等各個領(lǐng)域,引領(lǐng)人機(jī)交互模式的變革。
核心技術(shù)研究創(chuàng)新平臺與應(yīng)用創(chuàng)新平臺的緊密配合,使語音技術(shù)快速形成生產(chǎn)力,并通過行業(yè)市場的導(dǎo)向性,為語音技術(shù)的發(fā)展提供了方向。中國智能語音核心技術(shù)研發(fā)領(lǐng)軍企業(yè)安徽科大訊飛相關(guān)人士介紹,目前,基于該企業(yè)語音平臺的合作開發(fā)伙伴已達(dá)2000多家,語音產(chǎn)業(yè)鏈初步形成�?拼笥嶏w每年推出20項(xiàng)以上新產(chǎn)品,新產(chǎn)品銷售收入占總收入比重超過80%。
|
|||
智能語音控制技術(shù)在電力行業(yè)的廣泛應(yīng)用,是智能電網(wǎng)發(fā)展的必然趨勢。在未來的物聯(lián)網(wǎng)時代,“說出需求——得到反饋”的互動模式將進(jìn)一步延伸,所有的電器都將擁有“聽”,甚至是“說”的能力,語音控制將成為構(gòu)建智慧城市的重要手段,人們美好的生活將再次“傳為佳話”。 “出發(fā)!對1號主變進(jìn)行巡檢。”一聲令下,一個身高1米多的巡線機(jī)器人自動啟動,沿著變電站內(nèi)的小路,根據(jù)指令開始工作。未來變電站智能巡檢機(jī)器人工作將出現(xiàn)這樣一個場景。在山東電科院電力機(jī)器人技術(shù)重點(diǎn)實(shí)驗(yàn)室里,機(jī)器人語音交互實(shí)驗(yàn)平臺項(xiàng)目已列入了研究規(guī)劃。 “語音控制功能不但能夠有效利用用戶個性化的語音,提高系統(tǒng)的識別準(zhǔn)確率;而且能夠提高用戶輸入詞表的方便性和靈活性。”山東電科院首席專業(yè)工程師王濱海對《亮報》記者介紹,“隨著指令發(fā)出者年齡的變化,還可以選擇合適的語音替換用戶原來的語音模型,使得語音智能平臺具備更強(qiáng)的適應(yīng)性,識別效果不會隨著時間變久而變差。” 除了應(yīng)用在智能機(jī)器人開發(fā)領(lǐng)域,在智能家居建設(shè)方面,語音控制技術(shù)也保持著極高的熱度。 有朝一日,用戶只需躺在沙發(fā)上,對家里的各種電器下達(dá)命令,電器就能自動完成操作,隨著物聯(lián)網(wǎng)的發(fā)展成熟,這種看似奇幻的情景正逐漸變?yōu)楝F(xiàn)實(shí)。 “智能語音控制技術(shù)在智能家居領(lǐng)域的廣泛應(yīng)用,將實(shí)現(xiàn)一加一大于二的效果。”北京國電通網(wǎng)絡(luò)技術(shù)有限公司李天杰告訴《亮報》記者,“在未來,語音控制技術(shù)將是智能家居設(shè)計(jì)方案中的主要部分。語音控制技術(shù)的成熟將為物聯(lián)網(wǎng)的快速發(fā)展奠定基礎(chǔ)。”李天杰提及的物聯(lián)網(wǎng),其技術(shù)核心是智能感知、識別技術(shù)與普適計(jì)算、泛在網(wǎng)絡(luò)的融合,而語音控制技術(shù)正是智能感知和識別技術(shù)的重要組成部分。 “雖然,目前語音控制還只是限于一些基本的操作,還不能完全替代按鍵操作,但是語音控制與消費(fèi)者實(shí)現(xiàn)了生動有趣的交談,有針對性地提供服務(wù)和幫助,真正意義上拉近了電器與消費(fèi)者的距離。”李天杰說。 “作為一種人機(jī)交互的新型解決方案,智能語音控制技術(shù)必定會在智能家居、智能電網(wǎng)等領(lǐng)域發(fā)揮作用。”科大訊飛有關(guān)人士認(rèn)為,與電網(wǎng)的深層次合作將進(jìn)一步豐富語音控制技術(shù)的智能化內(nèi)涵,同時也會開辟出一塊新的語音產(chǎn)業(yè)市場天地。 由智能家居、智能園區(qū)、電動汽車充換電設(shè)施建設(shè)等部分構(gòu)成的智能電網(wǎng),在未來的發(fā)展中將進(jìn)一步拓寬物聯(lián)網(wǎng)的發(fā)展道路,而在這個過程中,智能語音控制技術(shù)勢必將扮演重要的角色,向更高層次發(fā)展。 張勁、董玉燕對本文亦有貢獻(xiàn)
你的聲音可以把它們喚醒 家庭智能機(jī)器人 “您好,我的朋友,到吃藥的時間了!”當(dāng)某個聲音在你耳邊出現(xiàn)的時候,你可能不會想到,這也許僅是預(yù)設(shè)好的一段程序。 語音交互是家庭智能機(jī)器人中的重要部分。這臺機(jī)器人可以和你進(jìn)行語音交流。當(dāng)你高興地夸獎它時,他會呵呵地笑出聲來,當(dāng)你和它聊天時,它會根據(jù)你的話題說出相關(guān)的內(nèi)容。當(dāng)然,如果你家里有老人和孩子,它還將扮演一位保姆的角色。為老人提供心理慰藉,與孩子唱歌玩耍,它都是一個最佳的幫手。 智能家居新玩法 只需喊一聲“Hi,TV”,電視就可以開啟語音控制系統(tǒng),比如你說“最近天氣預(yù)報”,然后電視屏幕上就會閃現(xiàn)出最近一周的本地天氣情況。隨著智能電視功能的日漸豐富和強(qiáng)大,僅依靠一個簡單的電視遙控器已經(jīng)滿足不了智能電視的操控需求。 引入語音識別和語音合成技術(shù)的智能語音電視不僅能聽懂用戶說話并作出反應(yīng),而且還能“說出話”來。用戶憑借語音指令可以輕松完成換臺、電視節(jié)目查詢、網(wǎng)絡(luò)瀏覽/搜索、文字輸入等操作,而電視能做的,就是根據(jù)用戶的需求讀出搜索到的內(nèi)容。 未來,在每個家庭網(wǎng)絡(luò)上所有通過電力運(yùn)轉(zhuǎn)的設(shè)備,都可以被人們的語音控制,比如可以控制室內(nèi)的燈光、溫度等。 車載智能語音系統(tǒng) 在駕駛環(huán)境下,用戶與車的交流,可以通過對話來實(shí)現(xiàn),說出“想回家”,汽車會根據(jù)你家的位置設(shè)定好最佳路線,并開始導(dǎo)航。說出“加油站”,幾公里范圍內(nèi)的加油站將逐一由車載語音系統(tǒng)播報出來。 在車載環(huán)境下,用戶的注意力主要集中在于駕駛,人與車的交互必須在不影響駕駛的前提條件下進(jìn)行,語音識別技術(shù)提供了安全便捷的交互方式,用戶只需動口,就可以滿足在行車過程中的相關(guān)需求。 智能穿戴設(shè)備 無論是Google已推廣上市的“Google Glass”,還是百度正在研制的“Baidu Eye”,都將語音操控作為人機(jī)溝通的重要手段,拍照、打電話、錄像,你只需說出你的需求,它就將在你眼前展現(xiàn)出你想要的結(jié)果。 智能眼鏡、智能手環(huán)、智能手表,這些互聯(lián)網(wǎng)時代的智能化設(shè)備,最大限度地利用了語音控制技術(shù),它將讓未來的生活變得不可思議。 “聽話”的瀏覽器 “聽話”的瀏覽器離我們并不遙遠(yuǎn)。Google Chrome瀏覽器已經(jīng)開始嘗試支持聲控命令,或許要不了多久,我們就能拋開鼠標(biāo)和觸摸板,通過聲控瀏覽器完成瀏覽網(wǎng)頁、發(fā)送郵件等。比如,你可以通過“暗一點(diǎn)”“亮一點(diǎn)”“字體大一號”等語音命令來控制瀏覽器。 獨(dú)特的聲音密碼 傳統(tǒng)的密碼恢復(fù)機(jī)制是回答一些預(yù)設(shè)的安全問題,如“你的出生地在哪里”等,但這類問題有些時候容易被黑客破解,用戶也可能記不起預(yù)設(shè)的問題和答案,特別是企業(yè)員工,就常常因?yàn)橥浢艽a而求助于IT部門。 為此,一家外國公司推出了一項(xiàng)名為FastReset(快速設(shè)置)的新服務(wù)。該服務(wù)可先讓員工通過手機(jī)或電話注冊自己的聲紋,一旦員工忘記密碼需要重置,只需對著登錄界面念一段短語(比方說“芝麻開門”)即可完成。 讓玩具“活”過來 很多小朋友都有這樣的夢想:擁有一個會說話的玩具,就像喜劇電影《泰迪熊》里面的TED一樣。 在ToyTalk的官方網(wǎng)站上,這個夢想有了變成現(xiàn)實(shí)的可能:小女孩完成家庭作業(yè)后,把iPad立起來,打開ToyTalk應(yīng)用,把泰迪熊玩具放在iPad攝像頭前方,小女孩就能和在iPad里“活過來”的泰迪熊對話了! 研發(fā)人員正努力使這一場景變成現(xiàn)實(shí),他們將現(xiàn)實(shí)的泰迪熊激活ToyTalk應(yīng)用里的虛擬泰迪熊,然后借助人工智能和語音技術(shù),虛擬的泰迪熊就能與iPad前的小孩子互動了。 茹繼英 陳軍濤 整理 |