作者:姚利民
出版社:清华大学出版社
出版时间:2025年03月
编辑推荐
本书以科普读物风格对音频信号处理由浅入深地进行了介绍,同时辅以大量实战案例,以期达到轻松入门、事半功倍的效果。 通俗易懂 语言生动、浅显易懂,避免枯燥的理论和公式。 图文并茂 大量插图配合文字说明有助于抽象概念的理解。 内容丰富 包括声学基础、音频信号分析、语音识别、语音合成、音乐分析、MIDI编曲、深度学习等丰富内容。 轻松实战 采用Python和PyToch(深度学习部分)编程,门槛低,易学易会;主要函数列出函数原型,便于应用和参考。 大量示例 介绍了音频处理各领域众多Python库的用法,如NumPy、SciPy、Librosa、Pyaudio、Moviepy、Pydub、Soundfile、OpenAI-whisper、Pyttx3、SpeechLib、PyWorld、Parselmouth、Mido、Music21、PyTorch等。
内容简介
近年来人工智能技术突飞猛进,以语音识别为代表的音频处理技术取得了大量突破,但该领域内理论结合实战的入门书籍却较为缺乏,本书旨在为有志学习音频信号处理的读者提供一本实用的入门书籍。 本书共13章,第1章和第2章是基础部分,包括声学基础知识及Python基础等内容;第3到4章介绍了音频信号的获取及分析方法;第5~8章介绍了语音识别基础、传统语音识别技术及语音识别、语音合成的实战技术;第9章和第10章介绍了常用的音乐分析方法及Python编曲等内容;第11~13章介绍了深度学习的基础知识及如何用PyTorch对语音和音乐信号进行分析处理。 本书以通俗易懂的语言、图文并茂的讲解力图使读者在短时间内掌握音频信号处理的基本技术。本书既可供包括高校学生在内的各类初学者快速入门、也可供该领域的专业技术人员及爱好者参考。 作者简介 姚利民,毕业于东南大学,长期在外资企业从事管理工作,同时致力于AI及图像处理的研究。2012年赴某知名跨国企业全球总部工作,回国后自主创业。目前专注于人工智能各领域的研究。著有《Java OpenCV高效入门》和《Java OpenCV案例佳作选》。
目 录
第1章基础知识 1.1声学基础 1.1.1声音的产生和传播 1.1.2声波的描述 1.1.3声音的客观衡量 1.1.4声音的主观属性 1.2音频文件格式 1.2.1WAV文件格式 1.2.2MP3文件格式 1.2.3MIDI文件格式 1.2.4其他文件格式 1.3Praat简介 1.3.1Praat概要 1.3.2Praat的下载和安装 显示全部信息
前 言
近年来,以语音识别为代表的音频处理技术取得了重大突破。2008年底,谷歌公司发布了第1个语音搜索应用; 2010年,苹果公司收购Siri并将其改造成语音助手。此后的十余年,语音技术的发展日新月异。与此同时,相关领域也有一些新技术如雨后春笋般涌现,例如根据声音样本生成语音的声音克隆技术、用AI技术模仿人类唱歌的虚拟歌手、将歌声与伴奏分离的人声分离技术等。毋庸讳言,音频处理与计算机视觉一样都处于人工智能大潮的风口之上。 本书主要内容 阅读建议 姚利民 2024年10月