av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計(jì)算的「力量」

來自硅谷工程師的Google TensorFlow 教程：開始訓(xùn)練你的第一個(gè)RNN吧

GoogleTensorFlowRNN語音識別

來自硅谷工程師的Google TensorFlow 教程：開始訓(xùn)練你的第一個(gè)RNN吧

作者：CNET科技行者

2017-11-02 21:11

分享至：

今天，讓我們通過硅谷數(shù)據(jù)工程師Matthew Rubashkin和Matt Mollison所寫的TensorFlow RNN教程，來先了解一下如何借助TensorFlow框架訓(xùn)練語音識別的RNN。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2017-11-02 21:11 ? CNET科技行者

自2010年Google的搜索引擎等服務(wù)退出中國之后，它也嘗試了多種途徑重返中國市場，比如推出中國版的Google Play應(yīng)用商店，卻沒有取得明顯的成功。即便是在目前中國已經(jīng)成為最大的Android智能手機(jī)市場的大勢下，也并沒有使用Google的服務(wù)。

而在7年之際，谷歌再次試圖重返中國，這次打出的“王牌”是它的人工智能系統(tǒng)開發(fā)框架TensorFlow。

雖然Google的云服務(wù)并未入駐中國市場，但中國卻有著亞洲增長最快的 TensorFlow開發(fā)者社區(qū)。目前谷歌正在中國積極推廣TensorFlow，希望借此重回龐大的中國AI市場。據(jù)了解，已有多名Google美國工程師出席了至少三個(gè)在北京和上海舉行的 TensorFlow開發(fā)者會議，其中兩場會議是閉門會議，出席者不允許拍照、記錄甚至寫博客。

TensorFlow最初由Google Brain團(tuán)隊(duì)開發(fā)用于Google的研究和生產(chǎn)，2015年11月9日在Apache 2.0開源許可證下發(fā)布。自發(fā)布至今，已經(jīng)被下載了超過790萬次。

今天，讓我們通過硅谷數(shù)據(jù)工程師Matthew Rubashkin和Matt Mollison所寫的TensorFlow RNN教程，來先了解一下如何借助TensorFlow框架訓(xùn)練語音識別的RNN；教程包含了全部代碼片段，你可以找到相應(yīng)的 GitHub 項(xiàng)目，該教程中使用的軟件就是源于現(xiàn)有的開源項(xiàng)目的代碼。

語音識別：音頻與副本（transcriptions）

2010年基于語音的方法成為語音識別模型的最新技術(shù)，包括發(fā)音，聲學(xué)和語言模型的獨(dú)立組件。而從過去到現(xiàn)在的語音識別都依賴于使用傅立葉變換公式將聲波分解成頻率和振幅，并產(chǎn)生如下所示的頻譜圖：

為傳統(tǒng)語音識別流水線而訓(xùn)練隱馬爾可夫模型（HMM）的聲學(xué)模型，需要涉及語音、文本數(shù)據(jù)，以及一個(gè)從單詞到音素的字典。HMM是用于順序數(shù)據(jù)生成的概率模型，多用于測量字符串中的差異的字符串度量，并且通常使用Levenshtein word error distance來評估。

這些模型可以通過與音素副本對應(yīng)的語音數(shù)據(jù)進(jìn)行簡化和精準(zhǔn)化，但這是一個(gè)非常繁瑣的工作。因此，相較于音素級別的副本，詞級的副本更可能存在大量的語音數(shù)據(jù)集。

Connectionist Temporal Classification（CTC）損失函數(shù)

當(dāng)使用神經(jīng)網(wǎng)絡(luò)進(jìn)行語音識別時(shí)，我們可以先拋開音素的概念，而使用允許預(yù)測字符級副本的基于神經(jīng)網(wǎng)絡(luò)的時(shí)序分類（CTC）的目標(biāo)函數(shù)。簡而言之，CTC能夠?qū)崿F(xiàn)多個(gè)序列概率的計(jì)算，這里的序列是指語音樣本的所有可能的字符級副本的集合。而網(wǎng)絡(luò)使用目標(biāo)函數(shù)，則可以最大化字符序列的概率（即可以選擇可能性最大的副本），并且通過計(jì)算預(yù)測結(jié)果與實(shí)際副本之間的誤差從而更新訓(xùn)練期間的網(wǎng)絡(luò)權(quán)重。

值得注意的是，CTC損失函數(shù)使用的字符級誤差與傳統(tǒng)語音識別模型中經(jīng)常使用的Levenshtein word error distance不同。對于字符生成的RNN模型而言，字符和單詞之間的誤差與在諸如Esperonto和Croatian的語音語言中類似，不同的聲音會對應(yīng)于不同的字符。相反，對于非語音語言（如英語），字符與單詞之間的誤差就非常不同了。

為了進(jìn)一步利用為傳統(tǒng)或深度學(xué)習(xí)語音識別模型而開發(fā)的算法，我們的團(tuán)隊(duì)構(gòu)建了模塊化和快速原型的語音識別平臺：

數(shù)據(jù)的重要性

毫無疑問，創(chuàng)建一個(gè)將語音轉(zhuǎn)成文本的系統(tǒng)，需要數(shù)字音頻文件和文字的副本。而由于該模型將適用于解碼任何新的語音樣本，因此，在系統(tǒng)中供我們進(jìn)行訓(xùn)練的樣本越多，模型的表現(xiàn)也就越好。

對此，我們研究了可免費(fèi)獲取的英語演講錄音，包括了LibriSpeech（1000小時(shí)），TED-LIUM（118小時(shí)）和VoxForge（130小時(shí)）等不同的樣本，以供訓(xùn)練使用。

下面的圖表展現(xiàn)了這些數(shù)據(jù)集的信息，包括總時(shí)長、采樣率和注釋：

為了方便地從任何數(shù)據(jù)源中訪問數(shù)據(jù)，我們以扁平的格式存儲所有數(shù)據(jù)，如.wav格式和.txt格式。

舉個(gè)例子，你可以在我們的GitHub repo中找到Librispeech訓(xùn)練數(shù)據(jù)集中的“211-122425-0059”數(shù)據(jù)所對應(yīng)的文件，例如211-122425-0059.wav和211-122425-0059.txt。這些數(shù)據(jù)文件名使用數(shù)據(jù)集對象類加載到TensorFlow圖中，這有助于TensorFlow有效地加載、預(yù)處理數(shù)據(jù)，并將各批數(shù)據(jù)從CPU加載到GPU內(nèi)存中。以下是數(shù)據(jù)集對象中數(shù)據(jù)字段的示例：

特征表征（representation）

為了使機(jī)器更好地識別音頻數(shù)據(jù)，數(shù)據(jù)必須先從時(shí)域轉(zhuǎn)換到頻域。這里有幾種方法可以創(chuàng)建用于提取機(jī)器學(xué)習(xí)特征的音頻數(shù)據(jù)，包括通過任意頻率分級（如每100Hz），以及通過使用人耳能夠聽到的頻率波段分級。這種典型的以人為中心的語音數(shù)據(jù)轉(zhuǎn)換是計(jì)算13位或26位不同倒譜特征的梅爾頻率倒譜系數(shù)（MFCC）的，它可以作為模型的輸入。經(jīng)過轉(zhuǎn)換，數(shù)據(jù)將被存儲在一個(gè)頻率系數(shù)（行）隨時(shí)間（列）的矩陣中。

由于語音不會孤立地產(chǎn)生，并且沒有一對一映射到字符，所以我們可以通過在當(dāng)前的時(shí)間索引之前和之后捕獲聲音的重疊窗口（10s）上訓(xùn)練網(wǎng)絡(luò)，從而捕獲共同作用的影響（通過影響一個(gè)聲音影響另一個(gè)發(fā)音）。

以下是如何獲取MFCC功能以及如何創(chuàng)建音頻數(shù)據(jù)的窗口的示例代碼：

對于RNN 示例來說，我們使用之前的9個(gè)時(shí)間片段和之后的9個(gè)時(shí)間片段，每個(gè)窗口總共包括了19個(gè)時(shí)間點(diǎn)。當(dāng)?shù)棺V系數(shù)為26的情況下，每25毫秒會有494個(gè)數(shù)據(jù)點(diǎn)。而根據(jù)數(shù)據(jù)的采樣率，我們建議對于16000Hz使用26個(gè)倒譜特征，對8000Hz使用13個(gè)倒譜特征。

以下是8,000 Hz數(shù)據(jù)的加載窗口示例：

語音的序列性建模

長短期記憶網(wǎng)絡(luò)（LSTM）層是一種循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）架構(gòu)，可用于對具有長期順序依賴性的數(shù)據(jù)進(jìn)行建模。由于它們從根本上記住了當(dāng)前時(shí)間點(diǎn)的歷史信息，而這些信息會影響結(jié)果的輸出，因此它們對于時(shí)間序列數(shù)據(jù)非常重要。而也正因這樣的時(shí)態(tài)特征，使得上下文具有了聯(lián)系性，這對于語音識別非常有效。

以下展示了深度語音啟發(fā)（DeepSpeech-inspired）的雙向神經(jīng)網(wǎng)絡(luò)（BiRNN）中 LSTM 層的示例代碼：

網(wǎng)絡(luò)訓(xùn)練與監(jiān)控

通過使用Tensorflow訓(xùn)練網(wǎng)絡(luò)，我們花很少的精力就可以實(shí)現(xiàn)計(jì)算圖表的可視化，同時(shí)也可以使用TensorBoard從門戶網(wǎng)站上進(jìn)行監(jiān)視訓(xùn)練、驗(yàn)證以及性能測試。根據(jù)Dandelion Mane在2017年Tensorflow發(fā)展峰會上做演講中提到的技巧，我們使用tf.name_scope來增加節(jié)點(diǎn)和層名，并將總結(jié)寫到了文件中。

其結(jié)果是自動(dòng)生成的，并且是可理解的計(jì)算圖表。以雙向神經(jīng)網(wǎng)絡(luò)（BiRNN）為例（如下圖），數(shù)據(jù)在左下方到右上方的不同操作間進(jìn)行傳遞。為了更清楚地展現(xiàn)，可以為不同的節(jié)點(diǎn)做標(biāo)注，并使用命名空間對節(jié)點(diǎn)進(jìn)行著色。在這個(gè)例子中，青色的“fc”盒子對應(yīng)全連接層，而綠色的'“b”和“h”盒子分別對應(yīng)偏移量和權(quán)重。

我們使用TensorFlow提供的tf.train.AdamOptimizer來控制學(xué)習(xí)率。而AdamOptimizer則通過使用動(dòng)量（參數(shù)的移動(dòng)平均值）來改善傳統(tǒng)梯度下降，從而促進(jìn)超參數(shù)的有效動(dòng)態(tài)調(diào)整。此外，我們還可以通過創(chuàng)建標(biāo)簽錯(cuò)誤率的摘要標(biāo)量來跟蹤丟失和錯(cuò)誤率：

如何改進(jìn)RNN

現(xiàn)在我們已經(jīng)建立了一個(gè)簡單的LSTM RNN網(wǎng)絡(luò)，那么，如何降低其中的錯(cuò)誤率呢？非常幸運(yùn)的是，對于開源社區(qū)而言，許多大公司都已經(jīng)發(fā)布了他們表現(xiàn)最好的語音識別模型的背后的數(shù)學(xué)模型。早在2016年9月，微軟就發(fā)布了一篇文章，描述了他們?nèi)绾卧贜IST 200交換機(jī)數(shù)據(jù)上將錯(cuò)誤率降到6.9％。他們在卷積+遞歸神經(jīng)網(wǎng)絡(luò)之上使用了幾種不同的聲學(xué)和語言模型。

微軟團(tuán)隊(duì)和其他研究人員在過去4年中所做的幾項(xiàng)重大改進(jìn)包括：

在基于RNN的字符之上使用語言模型
使用卷積神經(jīng)網(wǎng)絡(luò)（CNN）從音頻中提取特征
利用多個(gè)RNN的綜合模型

值得注意的是，在過去幾十年的傳統(tǒng)語音識別模型中率先開發(fā)的語言模型，在深度學(xué)習(xí)語音識別模型中再次被證明是有價(jià)值的。

改進(jìn)來自：A Historical Perspective of Speech Recognition, Xuedong Huang, James Baker, Raj Reddy Communications of the ACM, Vol. 57 No. 1, Pages 94-103, 2014

訓(xùn)練你的第一個(gè)RNN

我們提供了一個(gè) GitHub項(xiàng)目（GitHub repository），該項(xiàng)目的腳本提供了一個(gè)用RNNs和CTC損失函數(shù)（在TensorFlow中），訓(xùn)練端到端語音識別系統(tǒng)的簡單易行執(zhí)行方案。GitHub庫中包含了來自LibriVox 語料庫（LibriVox corpus ）示例數(shù)據(jù)，這些數(shù)據(jù)被分為如下幾個(gè)文件夾：

訓(xùn)練：train-clean-100-wav（5個(gè)示例）
測試：test-clean-wav（2個(gè)示例）
Dev: dev-clean-wav (2個(gè)示例)

當(dāng)訓(xùn)練這幾個(gè)示例時(shí)，你會很快注意到訓(xùn)練數(shù)據(jù)會過度擬合（overfit），這使得錯(cuò)詞率（WER）約為0%，而測試集和Dev數(shù)據(jù)集的WER大約能達(dá)到85%。測試錯(cuò)誤率之所以不是100%，是因?yàn)闄C(jī)器需要在29個(gè)可能的字符間做選擇（a-z，省略號，空格鍵，空白），但網(wǎng)絡(luò)將很快學(xué)習(xí)到：

某些字符（e，a，空格鍵，r, s, t）更常見
輔音-元音-輔音在英語中是一種模式
MFCC輸入聲音特征增加的信號幅度對應(yīng)著字符a - z

在GitHub庫中使用默認(rèn)設(shè)置做訓(xùn)練，運(yùn)行結(jié)果如下圖所示：

如果你想訓(xùn)練一個(gè)高性能的模型，還可以在文件夾中添加額外的.wav和.txt文件，或者創(chuàng)建一個(gè)新的文件夾，并用文件夾位置更新`configs / neural_network.ini`。需要注意的是，即使使用強(qiáng)大的GPU，在僅僅幾百個(gè)小時(shí)的音頻上做處理和訓(xùn)練也需要非常大的計(jì)算能力。

| 編譯：科技行者

| 來源：SVDS

GoogleTensorFlowRNN語音識別

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<sup id="76k9q"><rt id="76k9q"><form id="76k9q"></form></rt></sup>