科技巨頭收集人類聲音

簫雨譯2017-12-29

分享到 :

核心提示：人類要想自然地與設(shè)備進(jìn)行對(duì)話，語(yǔ)音識(shí)別就必須得到大幅改進(jìn)。

人類要想自然地與設(shè)備進(jìn)行對(duì)話，語(yǔ)音識(shí)別就必須得到大幅改進(jìn)。

谷歌語(yǔ)音操作

過(guò)去幾年，語(yǔ)音識(shí)別取得了很大進(jìn)步，大部分要?dú)w功于神經(jīng)網(wǎng)絡(luò)。然而，神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù)進(jìn)行訓(xùn)練。正因?yàn)榇耍雀?、微軟、亞馬遜、百度等科技公司都在盡可能地收集各種語(yǔ)言、口音以及方言。另外，百度等公司也在開發(fā)更為高效的算法，不需要那么多數(shù)據(jù)就能提高語(yǔ)音識(shí)別準(zhǔn)確率，這有利于數(shù)字助手學(xué)習(xí)使用較少的語(yǔ)言。

亞馬遜智能音箱Echo已經(jīng)兌現(xiàn)了讓千家萬(wàn)戶都有一臺(tái)人工智能個(gè)人助手的承諾。Echo用戶容易被語(yǔ)音助手Alexa的“魅力”所征服，對(duì)于Alexa可以實(shí)現(xiàn)Uber打車、預(yù)訂披薩以及檢查10年級(jí)學(xué)生數(shù)學(xué)作業(yè)的能力贊賞有加。亞馬遜稱，每天有5000多人表達(dá)對(duì)于Alexa的喜愛(ài)之情。

語(yǔ)音識(shí)別的阻礙

另外一方面，Alexa的擁簇也知道，除非他們非常清晰、緩慢地與Alexa對(duì)話，否則她很可能會(huì)說(shuō)：“抱歉，我無(wú)法回答這個(gè)問(wèn)題”。

“我愛(ài)她，既愛(ài)又恨，”一位用戶在亞馬遜網(wǎng)站上寫道，但依舊給予Alexa五星評(píng)價(jià)，“你需要很快速地學(xué)習(xí)如何以一種她聽得懂的方式與她交流，就像和一個(gè)初學(xué)走路的小孩交流一樣。”

過(guò)去幾年，語(yǔ)音識(shí)別已經(jīng)取得了很大進(jìn)步，但是仍未好到足以廣泛用于日常生活中，引領(lǐng)人機(jī)交互的新時(shí)代，讓我們與汽車、洗衣機(jī)以及電視等所有設(shè)備進(jìn)行對(duì)話。雖然語(yǔ)音識(shí)別取得了一定進(jìn)展，但是多數(shù)人仍在觸摸、滑動(dòng)以及點(diǎn)擊屏幕。在可預(yù)見(jiàn)的未來(lái)，這種局面或許仍會(huì)持續(xù)下去。

那么，是什么因素阻礙了語(yǔ)音識(shí)別的發(fā)展呢？在一定程度上講，語(yǔ)音識(shí)別背后的人工智能技術(shù)還有改進(jìn)的空間。它還面臨嚴(yán)重的數(shù)據(jù)缺失問(wèn)題，具體來(lái)說(shuō)就是人類聲音的音頻、在喧雜的環(huán)境下往往會(huì)出現(xiàn)的多種語(yǔ)言、口音以及方言。這些因素都可能會(huì)導(dǎo)致語(yǔ)音助手無(wú)法準(zhǔn)確識(shí)別人們的語(yǔ)音。

收集人類聲音

因此，亞馬遜、蘋果、微軟以及百度都已經(jīng)開始在全球范圍內(nèi)收集數(shù)以TB的人類語(yǔ)音數(shù)據(jù)。微軟已經(jīng)在全球各個(gè)城市建立了模擬公寓，錄制志愿者的本土口音。亞馬遜每個(gè)小時(shí)都會(huì)把用戶向Alexa提出的問(wèn)題上傳到一個(gè)龐大的數(shù)字倉(cāng)庫(kù)中。百度則忙于收集中國(guó)的每一種方言。隨后，他們就會(huì)利用這些數(shù)據(jù)教計(jì)算機(jī)如何分析、理解以及回應(yīng)指令和問(wèn)題。

科技公司在這一過(guò)程中面臨的挑戰(zhàn)是：找到一種方法捕捉到自然、真實(shí)的對(duì)話。百度加州人工智能實(shí)驗(yàn)室負(fù)責(zé)人亞當(dāng)·考特斯(Adam Coates)表示，即便是語(yǔ)音識(shí)別準(zhǔn)確率達(dá)到95%，這仍不夠。“我們的目標(biāo)是將錯(cuò)誤率降至1%，”他表示，“只有達(dá)到這種水平，你才能真正相信設(shè)備理解了你所說(shuō)的話，那將是一場(chǎng)變革。”

就在不久前，語(yǔ)音識(shí)別技術(shù)還處于一個(gè)初級(jí)階段，給出的答案十分滑稽。2006年，微軟在分析師和投資者面前演示了Windows平臺(tái)早期版本的語(yǔ)音識(shí)別技術(shù)。然而，微軟語(yǔ)音識(shí)別技術(shù)把“媽媽”聽成了“阿姨”。當(dāng)蘋果在5年前推出Siri時(shí)，該語(yǔ)音助手給出的答案也令人捧腹大笑，這也是因?yàn)樗３Ｌ峁╁e(cuò)誤答案或者沒(méi)有準(zhǔn)確識(shí)別問(wèn)題。當(dāng)被問(wèn)及吉蓮·安德森(Gillian Anderson)是否是英國(guó)人時(shí)，Siri提供了一份英國(guó)餐館的清單。現(xiàn)在，微軟表示，其語(yǔ)音識(shí)別引擎的錯(cuò)誤率達(dá)到了專業(yè)速記員的水平，甚至更低。Siri目前的錯(cuò)誤率差強(qiáng)人意，Alexa則讓人對(duì)未來(lái)的語(yǔ)音識(shí)別技術(shù)充滿期待。

神經(jīng)網(wǎng)絡(luò)需要數(shù)據(jù)進(jìn)行練習(xí)

語(yǔ)音識(shí)別技術(shù)取得的大部分進(jìn)展都要?dú)w功于神經(jīng)網(wǎng)絡(luò)的魔力，后者是一種人工智能形式，基于人腦架構(gòu)。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)不需要接受明確的程序化定制，但是一般需要龐大而且種類豐富的數(shù)據(jù)。在神經(jīng)網(wǎng)絡(luò)架構(gòu)下，語(yǔ)音識(shí)別引擎處理的問(wèn)題越多，它就能更好地理解不同的聲音，進(jìn)一步接近在多種環(huán)境下，與多種語(yǔ)言自然對(duì)話的終極目標(biāo)。

因此，全球科技公司都在爭(zhēng)相收集各種聲音。“我們?cè)谙到y(tǒng)中放入的數(shù)據(jù)越多，它的表現(xiàn)就越好，”百度首席科學(xué)家吳恩達(dá)表示，“這也是為什么語(yǔ)音識(shí)別是這么一種資本密集型技術(shù)的原因，并不是有太多機(jī)構(gòu)擁有這么多的數(shù)據(jù)。”

盡管科技行業(yè)在上世紀(jì)90年代就開始認(rèn)真地研究語(yǔ)音識(shí)別技術(shù)，但是微軟等公司依靠的語(yǔ)言數(shù)據(jù)聯(lián)盟(Linguistic Data Consortium)等研究所的公開可用數(shù)據(jù)。語(yǔ)言數(shù)據(jù)聯(lián)盟是一個(gè)語(yǔ)音和文本數(shù)據(jù)倉(cāng)庫(kù)，創(chuàng)建于1992年，獲得了美國(guó)政府的支持，屬于賓夕法尼亞大學(xué)。隨后，科技公司開始收集他們的自主語(yǔ)音數(shù)據(jù)，部分來(lái)自志愿者。這些志愿者讀出自己的聲音，然后由科技公司錄制?，F(xiàn)在，語(yǔ)音控制軟件開始走俏，它收集的大部分?jǐn)?shù)據(jù)來(lái)自公司的自主產(chǎn)品和服務(wù)。

當(dāng)你使用語(yǔ)音指令在手機(jī)上搜索一些東西，播放歌曲或者導(dǎo)航時(shí)，科技公司可能就在錄制你的聲音。蘋果、谷歌、微軟以及亞馬遜強(qiáng)調(diào)，他們對(duì)用戶數(shù)據(jù)進(jìn)行匿名化處理，以保護(hù)用戶的隱私。當(dāng)你向Alexa詢問(wèn)天氣或者足球比賽比分時(shí)，它就會(huì)利用你的問(wèn)題改進(jìn)對(duì)自然語(yǔ)言的理解?！敖柚@一設(shè)計(jì)，你使用的越多，Alexa就變得越智能，”Alexa項(xiàng)目資深首席科學(xué)家尼克·斯特羅姆(Nikko Strom)表示。

面臨的挑戰(zhàn)

其中一個(gè)重大挑戰(zhàn)就是如何讓技術(shù)熟悉多種語(yǔ)言、口音以及方言。相比之下，這一問(wèn)題在中國(guó)顯得更為重要。為了收集全國(guó)各地的方言，百度今年初在新年期間推出了一項(xiàng)營(yíng)銷活動(dòng)。百度將這項(xiàng)活動(dòng)稱之為“方言保護(hù)行動(dòng)”，該公司表示，如果人們?cè)敢馐褂梅窖耘c百度交流，就是在協(xié)助引領(lǐng)一個(gè)未來(lái)。在兩周時(shí)間內(nèi)，百度使用電腦錄制了超過(guò)1000個(gè)小時(shí)的語(yǔ)音。許多人甘愿免費(fèi)提供他們的方言，因?yàn)樗麄儗?duì)于自己的家鄉(xiāng)方言感到自豪。四川的一位高中老師對(duì)于這一活動(dòng)感到十分興奮，他讓一個(gè)班的學(xué)生使用四川話錄制了1000多篇古代詩(shī)歌。

另一個(gè)挑戰(zhàn)則是：如何在嘈雜的環(huán)境下教會(huì)語(yǔ)音識(shí)別技術(shù)準(zhǔn)確接收指令，例如在嘈雜的酒吧、喧鬧的體育場(chǎng)等。微軟已經(jīng)部署了一款名為Voice Studio的Xbox應(yīng)用，在用戶觀看電影等活動(dòng)時(shí)收集對(duì)話。微軟還為愿意提供游戲聊天語(yǔ)音的玩家準(zhǔn)備了數(shù)字裝備等獎(jiǎng)勵(lì)。這一項(xiàng)目在巴西取得了不錯(cuò)效果，微軟子公司在其主要Xbox頁(yè)面上大力推廣這一項(xiàng)目。微軟把收集來(lái)的數(shù)據(jù)用于開發(fā)葡萄牙語(yǔ)版的“小娜”，該版本語(yǔ)音助手已在今年早些時(shí)候發(fā)布。

科技公司還在專門為具體環(huán)境設(shè)計(jì)語(yǔ)音識(shí)別系統(tǒng)。微軟正在測(cè)試一項(xiàng)技術(shù)，它能夠在不受到機(jī)場(chǎng)廣播干擾的情況下回答旅客的問(wèn)題。微軟的這項(xiàng)技術(shù)還被用于麥當(dāng)勞得來(lái)速汽車餐廳的自動(dòng)訂購(gòu)系統(tǒng)。亞馬遜還在汽車中測(cè)試Alexa，讓其在道路噪音和車窗打開的情況下提高語(yǔ)音識(shí)別準(zhǔn)確度。

即便科技公司在滿世界尋找數(shù)據(jù)，但是他們也在設(shè)法找出不需要那么多數(shù)據(jù)就可以提高語(yǔ)音識(shí)別準(zhǔn)確度的方法。微軟首席語(yǔ)音科學(xué)家黃學(xué)東表示，正在麥當(dāng)勞汽車餐廳測(cè)試的技術(shù)，就要比使用了更多數(shù)據(jù)的其它系統(tǒng)更為準(zhǔn)確。黃學(xué)東在微軟開發(fā)語(yǔ)音識(shí)別技術(shù)已有20多年時(shí)間?！凹幢阍诓皇褂眠@么多數(shù)據(jù)的情況下，你依舊可以取得突破，”他表示。

谷歌一般奉行“少即多”的理念，使用零碎，無(wú)法理解的聲音串連成話語(yǔ)和短句。對(duì)于自主語(yǔ)音識(shí)別系統(tǒng)，谷歌希望只通過(guò)一處改變就能解決多個(gè)問(wèn)題。在數(shù)據(jù)集問(wèn)題上，谷歌把數(shù)萬(wàn)個(gè)一般在兩秒至五秒長(zhǎng)的音頻片段串連在一起。谷歌研究人員弗朗西斯·比烏福斯(Fran?oise Beaufays)表示，這一過(guò)程需要的計(jì)算性能更少，更容易進(jìn)行測(cè)試和作出調(diào)整。就其本身而言，百度正在開發(fā)更為高效的算法。在學(xué)習(xí)一種語(yǔ)言后，它就能更為容易地學(xué)習(xí)另外12種語(yǔ)言。吳恩達(dá)稱，這對(duì)于一種只有數(shù)萬(wàn)人而不是數(shù)百萬(wàn)人會(huì)說(shuō)的語(yǔ)言來(lái)說(shuō)尤其重要，因?yàn)樗鼪](méi)有大量可用的語(yǔ)音數(shù)據(jù)。

當(dāng)吳恩達(dá)等研究人員被問(wèn)及數(shù)字助手可能會(huì)在何時(shí)能夠與人類展開自然對(duì)話時(shí)，他們都沒(méi)有給出答案。沒(méi)有人真正知道這一問(wèn)題的答案。即便是對(duì)于最為了解神經(jīng)網(wǎng)絡(luò)的人來(lái)說(shuō)，神經(jīng)網(wǎng)絡(luò)依舊是一項(xiàng)神秘技術(shù)。目前的大部分工作都是試驗(yàn)性的，出了錯(cuò)后進(jìn)行調(diào)整。你無(wú)法肯定地說(shuō)數(shù)字助手的自然語(yǔ)言對(duì)話將在何時(shí)實(shí)現(xiàn)。根據(jù)當(dāng)前的技術(shù)和方法推測(cè)，自然對(duì)話可能需要花費(fèi)數(shù)年時(shí)間。但是吳恩達(dá)、黃學(xué)東、比烏福斯以及其他科學(xué)家表示，你永遠(yuǎn)不知道語(yǔ)音識(shí)別將在何時(shí)取得突破，推動(dòng)研究大幅前進(jìn)，把Alexa和Siri轉(zhuǎn)化成真正的對(duì)話者。

(編輯：李月)

返回315記者攝影家首頁(yè)>>

相關(guān)閱讀：科技巨頭收集人類聲音

關(guān)閉窗口

[責(zé)任編輯: 315xwsy_susan]

免責(zé)聲明：

1、本網(wǎng)內(nèi)容凡注明"來(lái)源：315記者攝影家網(wǎng)"的所有文字、圖片和音視頻資料，版權(quán)均屬315記者攝影家網(wǎng)所有，轉(zhuǎn)載、下載須通知本網(wǎng)授權(quán)，不得商用，在轉(zhuǎn)載時(shí)必須注明"稿件來(lái)源：315記者攝影家網(wǎng)"，違者本網(wǎng)將依法追究責(zé)任。
2、本文系本網(wǎng)編輯轉(zhuǎn)載，轉(zhuǎn)載出于研究學(xué)習(xí)之目的，為北京正念正心國(guó)學(xué)文化研究院藝術(shù)學(xué)研究、宗教學(xué)研究、教育學(xué)研究、文學(xué)研究、新聞學(xué)與傳播學(xué)研究、考古學(xué)研究的研究員研究學(xué)習(xí)，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3、如涉及作品、圖片等內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)作者看到后一周內(nèi)來(lái)電或來(lái)函聯(lián)系刪除。