不花钱的同声传译
语音转文本再进行处理(记录、总结或者翻译)。由于目前的解决方案基本都是跑在服务器端的,所以也有一些问题。首先是不够安全。不管是私人的通话,还是工作的会议,把音频录制和处理交给第三方,特别是国内一些厂商,还是让人感觉有点害怕的。其次是不够灵活。比如,YouTube 自动加字幕的功能,依赖 Google 的服务。本地下载了一部冷门的电影,就还得老老实实花时间去找字幕。这些问题的解决,核心是下面两个方面...
文章主要讨论了使用LLM处理音频文件和音频流的方法,以及解决安全性和灵活性问题的方案。通过介绍Rogue Amoeba家的Loopback和Audio Hijack以及ffmpeg+VB-Cable等工具的使用,实现了对音频的控制、转发和处理。同时提到了whisper-cpp处理本地音频文件和音频流的方法,以及如何进行翻译和实时转录。最后指出,在大模型的帮助下,端侧处理音频的应用场景将更加丰富和可用。
- 技术
- #人工智能#音频处理#语音转文本
- 13天前
- 7次浏览