作为一个经常录管弦乐队的音乐人,你有没有过这种“崩溃时刻”: 每次在编曲软件里导分轨,为了乐队能对上谱子,都要人肉报一次小节数。 最初是自己喊,后来做个采样器手动弹。我就在想:都 2026 年了,这种机械重复的活儿,难道不该交给 AI 吗?但我完全不懂代码。一直听说 AI 辅助编程很强,今天,我决定作为一个“编程小白”,挑战用 Gemini 手搓一个自动报号的 VSTI 插件。结果?插件文末自取,还顺便悟出了一套“AI 调教心法”。
首先我先把我的诉求告诉了Gemini,嘎嘎苗头这事搞得定搞不定,Gemini 给了我一份《项目诊断书》:
项目名称:DAW 小节报号 VST 插件
核心功能:读取宿主播放进度 -> 触发对应语音采样
综合难度评级:⭐⭐⭐ (3/5) - 入门级以上,进阶未满
对小白的劝退点(难点):
- 编程语言壁垒:必须用C++。这对零基础极不友好,内存管理和指针能劝退 90% 的人。
- 环境配置地狱:Visual Studio + JUCE 框架的搭建,往往在写第一行代码前就报错了。
- 实时音频处理:音频是“流”动的,要在几毫秒内精确对齐时间,逻辑比写网页复杂得多。
可行性判定:高。理由:虽然门槛高,但核心逻辑线性。只要 AI 负责写代码,你只需要负责“拼积木”。
AI在大多数时候是乐观的,这个值得我们学习。看到它说“有信心完成”,我决定:冲!
刚开始,我就掉坑里了。 Gemini 一口气吐出了一大堆环境配置教程,我照着做,结果菜单找不到,报错一大堆,直接懵圈。
然后,我摸索出了跟 AI 合作的“黄金法则”:
👉 不要让它一次说完,要“切香肠”。把大任务拆得无限细。让他每次只输出一个步骤,确认一步,再走下一步。这里有两个好处,第一是每一步它都会描述得更加详细,第二是不会因为一次输出太多步骤而遗漏中间环节和重要细节。
👉 不懂就截图。遇到报错和疑问,直接截图甩给它:“这是什么意思?怎么修?” 大多数时候他都能识别问题并且修正。
👉 让他解释每一步。一边做一边也在学习,你就知道这个vsti是怎么构建出来的。其实这和你和一个程序员沟通是一样的,你可以不会写具体代码,但是你要知道你的产品是怎么构建的,内部逻辑是怎么样的,你才能进一步改进它或者让它更贴合你的需求。
这个VSTI的制作过程从部署环境到准备音频材料,到之后进入编程,中间出现了一些小问题,比如硬件软件的权限问题,比如编译成功后的秒退等,但基本上一步步描述清楚Gemini都能迭代修改,大概这个阶段花了两三个小时完成。
之后碰到一个比较大的难点是当daw变拍子的时候,报号就会出现混乱,这是由他计算小节号的算法决定的,在这件事情上又花了两三个小时,最终妥协的方案是只要从头开始播放就可以完全对应上拍号和速度的变化,中间跳转播放还是会出现错位。不过这个插件的初衷是为了录音准备导出分轨而已,所以只要工程完成后插入和分轨一起从头导出就可以了,所以中间的实时性也没有这么重要,也不必花太多时间卡在这个问题上,也许以后有时间的时候可以做升级版本解决。
其实之后也尝试了用cursor来解决,cursor给出了一些方案也改进了一些小的bug,相比较gemini,cursor确实更为智能,体现在两个方面,一个是你提了需求以后他能直接修改代码,不用你复制黏贴手动修改,第二是它具有搜索学习功能,他遇到问题会搜索官网手册得到更多函数以及用法来解决问题。但是凡事慢也有慢的好,就是每一步gemini都会给你解释,你能更多学习,cursor都一次性完成了,很多时候你不知道它做了一些什么,或者说没这么容易理解。
功能跑通了,界面还是一块灰板。虽说这个插件只要挂上就行也不用界面操作,但是一样做了顺便学习一下怎么做UI。一时兴起挑了一幅南宋马麟的《坐看云起图》做背景,他是以王维的诗句:“行到水穷处,坐看云起时。”为蓝本创作的。人类走到今天也不知道在坐标轴的哪一个位置,未来的世界会是怎样,有时停下来看看风景也挺好。让大家在完成一个工程导分轨时创造一个心情泡一杯茶看看风景哈。
然后又有用Nano Banana试了一下做一个logo,它做古体字好像存在很多问题,一直输出不了正确的篆书,并且有的时候很倔强,最后选的这个“错误”的字,其实也挺好。人类世界的进步很多时候都是因为偶然的“错误”,也许AI的“幻觉”在某种意义上来说也是今后世界发展的动力呢?
这就是我花一天时间的成果——Bar Announcer (报号助手)。
https://pan.baidu.com/s/1u5xLDWzmKPuesTZLsO-GGg?pwd=xdis 提取码: xdis
欢迎使用,反馈,转发分享!