解析深度學習-語音識別實踐 版權信息
- ISBN:9787121287961
- 條形碼:9787121287961 ; 978-7-121-28796-1
- 裝幀:暫無
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
解析深度學習-語音識別實踐 本書特色
本書是首部介紹語音識別中深度學習技術細節的專著。全書首先概要介紹了傳統語音識別理論和經典的深度神經網絡核心算法。接著全面而深入地介紹了深度學習在語音識別中的應用,包括“深度神經網絡-隱馬爾可夫混合模型”的訓練和優化,特征表示學習、模型融合、自適應,以及以循環神經網絡為代表的若干先進深度學習技術。本書適合有一定機器學習或語音識別基礎的學生、研究者或從業者閱讀,所有的算法及技術細節都提供了詳盡的參考文獻,給出了深度學習在語音識別中應用的全景。
解析深度學習-語音識別實踐 內容簡介
alphago與李世石的圍棋大戰激發了人們對人工智能是非的諸多爭論。人工智能背后的工作原理深度學習跳入大眾的視野。alphago的大獲全勝一定程度展示了深度學習在應用領域的成功,而語音識別正是深度學習取得顯著成功的應用領域之一。本書是首次以深度學習為主線介紹語音識別應用的書籍,對讀者了解語音識別技術及其發展歷程有重要的參考價值。本書作者俞棟、鄧力均是該領域的著名專家,他們是深度學習在應用領域取得突破性進展的推動者與實踐者,他們在書中分享的研究成果一定程度上代表了本領域*的研究進展;譯者俞凱、錢彥旻也是本領域的資深專家,并有眾多實踐成果。對于從事此領域研究的讀者來說,本書無疑有重要的參考價值。
解析深度學習-語音識別實踐 目錄
譯者序 iv序 vii前言 ix術語縮寫 xxii符號 xxvii第 1 章 簡介 11.1 自動語音識別:更好的溝通之橋 . . . . . . . . . . . . . . . . . . . . . . . 11.1.1 人類之間的交流 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.1.2 人機交流 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 語音識別系統的基本結構 . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.3 全書結構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3.1 **部分:傳統聲學模型 . . . . . . . . . . . . . . . . . . . . . . 61.3.2 第二部分:深度神經網絡 . . . . . . . . . . . . . . . . . . . . . . 61.3.3 第三部分:語音識別中的 dnn-hmm 混合系統 . . . . . . . . . . 71.3.4 第四部分:深度神經網絡中的表征學習 . . . . . . . . . . . . . . 71.3.5 第五部分:高級的深度模型 . . . . . . . . . . . . . . . . . . . . . 7**部分 傳統聲學模型 9第 2 章 混合高斯模型 112.1 隨機變量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2 高斯分布和混合高斯隨機變量 . . . . . . . . . . . . . . . . . . . . . . . . 122.3 參數估計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.4 采用混合高斯分布對語音特征建模 . . . . . . . . . . . . . . . . . . . . . 16第 3 章 隱馬爾可夫模型及其變體 193.1 介紹 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2 馬爾可夫鏈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.3 序列與模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.3.1 隱馬爾可夫模型的性質 . . . . . . . . . . . . . . . . . . . . . . . . 233.3.2 隱馬爾可夫模型的仿真 . . . . . . . . . . . . . . . . . . . . . . . . 243.3.3 隱馬爾可夫模型似然度的計算 . . . . . . . . . . . . . . . . . . . . 243.3.4 計算似然度的高效算法 . . . . . . . . . . . . . . . . . . . . . . . . 263.3.5 前向與后向遞歸式的證明 . . . . . . . . . . . . . . . . . . . . . . 273.4 期望*大化算法及其在學習 hmm 參數中的應用 . . . . . . . . . . . . . 283.4.1 期望*大化算法介紹 . . . . . . . . . . . . . . . . . . . . . . . . . 283.4.2 使用 em 算法來學習 hmm 參數——baum-welch 算法 . . . . . . 303.5 用于解碼 hmm 狀態序列的維特比算法 . . . . . . . . . . . . . . . . . . . 343.5.1 動態規劃和維特比算法 . . . . . . . . . . . . . . . . . . . . . . . . 343.5.2 用于解碼 hmm 狀態的動態規劃算法 . . . . . . . . . . . . . . . . 353.6 隱馬爾可夫模型和生成語音識別模型的變體 . . . . . . . . . . . . . . . . 373.6.1 用于語音識別的 gmm-hmm 模型 . . . . . . . . . . . . . . . . . 383.6.2 基于軌跡和隱藏動態模型的語音建模和識別 . . . . . . . . . . . . 393.6.3 使用生成模型 hmm 及其變體解決語音識別問題 . . . . . . . . . 40第二部分 深度神經網絡 43第 4 章 深度神經網絡 454.1 深度神經網絡框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.2 使用誤差反向傳播來進行參數訓練 . . . . . . . . . . . . . . . . . . . . . 484.2.1 訓練準則 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.2.2 訓練算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.3 實際應用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.3.1 數據預處理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.3.2 模型初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.3.3 權重衰減 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.3.4 丟棄法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.3.5 批量塊大小的選擇 . . . . . . . . . . . . . . . . . . . . . . . . . . 584.3.6 取樣隨機化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.3.7 慣性系數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.3.8 學習率和停止準則 . . . . . . . . . . . . . . . . . . . . . . . . . . 614.3.9 網絡結構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624.3.10 可復現性與可重啟性 . . . . . . . . . . . . . . . . . . . . . . . . . 62第 5 章 高級模型初始化技術 655.1 受限玻爾茲曼機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655.1.1 受限玻爾茲曼機的屬性 . . . . . . . . . . . . . . . . . . . . . . . . 675.1.2 受限玻爾茲曼機參數學習 . . . . . . . . . . . . . . . . . . . . . . 705.2 深度置信網絡預訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735.3 降噪自動編碼器預訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 765.4 鑒別性預訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 785.5 混合預訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 785.6 采用丟棄法的預訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79第三部分 語音識別中的深度神經網絡–隱馬爾可夫混合模型 81第 6 章 深度神經網絡–隱馬爾可夫模型混合系統 836
展開全部
解析深度學習-語音識別實踐 作者簡介
俞棟1998 年加入微軟公司,現任微軟研究院首席研究員、浙江大學兼職教授和中科大客座教授。他是語音識別和深度學習方向的資深專家,出版了兩本專著,發表了150 多篇論文,是近60 項專利的發明人及有廣泛影響力的深度學習開源軟件CNTK 的發起人和主要作者之一。他在基于深度學習的語音識別技術上的工作帶來了語音識別研究方向的轉變,極大地推動了語音識別領域的發展,并獲得2013 年IEEE 信號處理協會最佳論文獎。俞棟博士現擔任IEEE 語音語言處理專業委員會委員,曾擔任IEEE/ACM音頻、語音及語言處理匯刊、IEEE 信號處理雜志等期刊的編委。鄧力世界著名人工智能、機器學習和語音語言信號處理專家,現任微軟首席人工智能科學家和深度學習技術中心研究經理。他在美國威斯康星大學先后獲碩士和博士學位,然后在加拿大滑鐵盧大學任教獲得終身正教授。其間,他還任麻省理工學院研究職位。1999 年加入微軟研究院歷任數職,并在2014 年初創辦深度學習技術中心,主持微軟公司和研究院的人工智能和深度學習領域的技術創新。 鄧立博士的研究方向包括自動語音與說話者識別、口語識別與理解、語音–語音翻譯、機器翻譯、語言模式、統計方法與機器學習、聽覺和其他生物信息處理、深層結構學習、類腦機器智能、圖像語言多模態深度學習,商業大數據深度分析等。他在上述領域做出了重大貢獻,是ASA(美國聲學學會)會士、IEEE(美國電氣和電子工程師協會)會士和理事、ISCA(國際語音通信協會)會士,并憑借在深度學習與自動語音識別方向做出的杰出貢獻榮獲2015年度IEEE 信號處理技術成就獎。同時,他也曾在頂級雜志和會議上發表過與上述領域相關的300 余篇學術論文,出版過5 部著作,發明及合作發明了超過70 多項專利。鄧立博士還擔任過IEEE 信號處理雜志和《音頻、語音與語言處理學報》(IEEE/ACMTransactions on Audio, Speech & anguage Processing)的主編。俞凱IEEE 高級會員,上海交通大學計算機科學與工程系特別研究員。清華大學本科、碩士,英國劍橋大學工程系博士。長期從事智能語音及語言處理、人機交互、模式識別及機器學習的研究和產業化工作。他是中組部“千人計劃”(青年項目)獲得者,國家自然科學基金委優秀青年科學基金獲得者,上海市“東方學者”特聘教授;作為共同創始人和首席科學家創立“蘇州思必馳信息科技有限公司”,F任中國聲學學會語音語言、聽覺及音樂分會執委會委員,中國計算機學會人機交互專委會委員,中國語音產業聯盟技術工作組副組長。他的研究興趣涉及語音識別、語音合成、口語理解、對話系統、認知型人機交互等智能語音語言處理技術的多個核心技術領域,在本領域的一流國際期刊和會議上發表論文80 余篇,申請專利10 余項,取得了一系列研究、工程和產業化成果。在InterSpeech 及IEEE Spoken Language Processing 等國際會議上獲得3 篇國際會議優秀論文獎,獲得國際語音通信聯盟(ISCA)2013 年頒發的2008—2012 Computer Speech and Language 最優論文獎。受邀擔任InterSpeech 2009 語音識別領域主席、EUSIPCO 2011/EUSIPCO 2014 語音處理領域主席、InterSpeech 2014 口語對話系統領域主席等。他負責搭建或參與搭建的大規模連續語音識別系統,曾獲得美國國家標準局(NIST)和美國國防部內部評測冠軍;作為核心技術人員,負責設計并實現的認知型統計對話系統原型,在CMU 組織的2010 年對話系統國際挑戰賽上獲得了可控測試的冠軍。作為項目負責人或Co-PI,他主持了歐盟第7 框架PARLANCE、國家自然科學基金委、上海市教委、經信委,以及美國通用公司、蘇州思必馳信息科技有限公司的一系列科研及產業化項目。2014 年,因在智能語音技術產業化方面的貢獻,獲得中國人工智能學會頒發的“吳文俊人工智能科學技術獎”。錢彥旻上海交通大學計算機科學與工程系助理研究員,博士。分別在2007 年6 月和2013 年1 月于華中科技大學和清華大學獲得工學學士和工學博士學位。2013 年4 月起,任上海交通大學計算機科與工程系理研究員。同時從2015 年1 月至2015 年12 月,在英國劍橋大學工程系機器智能實驗室語音組進行訪問,作為項目研究員與語音識別領域的著名科學家Phil Woodland 教授和Mark Gales 教授開展合作研究,F為IEEE、ISCA 會員,同時也是國際開源項目Kaldi 語音識別工具包開發的項目組創始成員之一。此外,擔任IEEE Transactions on Audio, Speech, and Language Processing、SpeechCommunication、ICASSP、Interspeech、ASRU 等國際期刊和會議的審稿人。目前在國內外學術刊物和會議上發表學術論文50 余篇,Google Scholar 總引用數近1000 次。其中包括在語音識別領域權威國際會議ICASSP、InterSpeech 和ASRU 上發表論文30 余篇,申請國家專利共3 項,已授權1 項。2008 年獲科技奧運先進集體獎,2014 年獲中國人工智能學會頒發的“吳文俊人工智能科學技術獎進步獎”。曾作為負責人和主要參與者參加了包括英國EPSRC、國家自然科學基金、國家863 等多個項目。目前的研究領域包括:語音識別、說話人和語種識別、自然語言理解、深度學習建模、多媒體信號處理等。