上一期,我们介绍了如何使用python的“爬虫”爬取流媒体音频,但很多时候我们需要进一步把音频和视频转换为文稿。这一期,我将介绍如何使用python实现语音转文本功能。
本期目录
1. 语音转文本的方法
2. 如何使用python实现转换
3. 转换效果对比
4. 总结
首先,语音转文本目前很多软件都可以做到,我觉得这项功能的实用价值主要还是看是否能做到以下几点:『识别准确性』、『转换效率』、『是否收费』、『是否需要联网』。
论重要性,我觉得因人而异。比如对我来说,我使用语转文并不是出于商业目的,看重是否有免费的轮子可用,那收费的东西我是不会用的;准确性有时候很重要、有时候又不重要,对于非专业性的内容,识别精度差一点投给AI还可以给你搞个更完美的文稿出来;至于联网,对于某些涉及隐私性的内容,如果贸然联网则可能会产生灾难性的后果。
总而言之,言而总之,实现“语音转文本”主要有以下几种方式:
基于预训练的深度学习模型(如 Transformer),在本地完成音频特征提取 - 语音识别 - 文本生成全流程。
❶ 常用模型:OpenAI Whisper、CMU Sphinx(口袋狮)、FunASR(阿里开源)
❷ 准确性:与训练模型有关,大模型(体积较大)精确度高
❸ 转换效率:依赖电脑GPU,纯CPU效率较低
❹ 是否收费:免费
❺ 需要联网:不需要,安全性高
API原理,是将文件或者信息流传到厂商服务器,通过云端模型完成识别,返回文本结果。
❶ 常用模型:百度 AI 语音识别、阿里云语音识别、腾讯云语音识别、通义听悟(API+Web/APP)
❷ 准确性:精度高,自动完成对文件的预处理和后处理
❸ 转换效率:服务器效率高,不依赖本地电脑配置
❹ 是否收费:有免费额度,建议优先选择 通义听悟
❺ 需要联网:需要
本地安装软件或者APP,通过界面操作完成转换。
❶ 代表工具:剪映、讯飞听见
❷ 准确性:很高,主要依托云端 AI
❸ 转换效率:界面操作不适合批量处理、自定义程度差
❹ 是否收费:会员服务收费
❺ 需要联网:需要
使用python调用转换模型与OCR识别相似,无非就是本地模型和API模型两种方式:
whisper 模型又分为 tiny, base, small, medium, large 几个分支模型,随着识别精度增加不仅模型体积越来越大,对电脑配置的要求也越来越高,因此对于没有独显的电脑来说,选择base已经差不多了,再高会比较吃力。
如果你的电脑是集显,纯靠CPU跑模型,也可以选择 faster-whisper模型,这个比原版 whisper 优化的效率更高一些。此外,电脑里需要单独安装 FFmpeg 模型,用于“解码”音频文件。
通义是我很喜欢用的语转文工具,但用的比较多的是网页操作,精度高、速度快、免费,缺点是需要手动上传和下载,适合少数文件操作。如果是使用python进行API调用,理论上效率就会高很多,而且python可以直接对生成的文稿进行清洗、合并、查询等二次处理,也具有它专门的优势。
使用前,需要先安装 通义SDK:
pip install dashscope
然后在『阿里云百炼』注册并开通语音识别服务,然后生成一个 API Key(形式类似 sk-xxxxxxxxxxxx),目前阿里云内的大部分AI模型会赠送免费额度,但是注意超额可是要收费的。这里我们选用的是'paraformer-realtime-v2'模型,可以直接上传本地文件。
坦白讲,在做这一期之间,我一直觉得调用AI模型的优势会比较明显,实际操作下来有点让我大跌眼镜。AI模型最大的优点毋庸置疑,就是识别精度高,调用大数据模型对一些特定词汇、专有名词识别结果较好,但是缺点也异常明显:
❶ 效率:本地模型的效率损耗在电脑配置上,电脑配置一般效率就一般;AI模型的效率损耗在传输文件上,不晓得是云服务器的问题还是我代码的问题,实际运算下来速度不理想,甚至比本地模型还慢。
❷ token花费:平台的免费token损耗非常快,如果想大规模使用服务不付费根本不可行,是不是能理解前段时间 OpenClaw “养龙虾”的痛点了。
所以,综合下来使用AI模型还不如直接使用『通义听悟』网页版,调用API除非对文稿进行二次处理,否则优势不明显。
|
| | |
| | |
| | |
| | |
| 需配置 Python 环境、ffmpeg、模型下载 | |
| | |
| | |
今天,我们介绍了如何使用python将音频文件转换为文本,可以用于提取播客、录音中的文稿,也方便进行下一步的操作。python强大的第三方库支持,使得很多商业软件中收费才能实现的功能,都可以免费实现。不过使用python本身就是借轮子,再造轮子的过程,很多功能的使用,以及在这些功能基础上如何衍生新的用法,还值得我们继续思考研究。提出需求、拆解需求往往是这其中最困难的一环。
这一期就到此为止,如果你也对Python编程技巧和应用实例感兴趣,欢迎点赞,收藏,关注,我将以应用案例为基础持续更新公众号文章。你也可以在公众号后台,获取Python编程的经典资料,也可以与我私信交流想法和需求,我们下期再见~
Rushing towards the mountains and wilderness.Put down the pursuit footsteps.