#我是比维斯。
在成为一个“野生程序员”之前,我首先是一个影评人。
我热爱电影。当我看了一部神作,那种想按着朋友的头安利给他的冲动,是生理性的;当我看了一部烂片,那种想对着屏幕喷半小时的欲望,也是生理性的。
写文章很快乐。我可以在键盘上敲出“这光影绝了”、“这剧情简直是在喂翔”,那种宣泄感很爽。
但是,把文章变成视频,就是另一回事了。
你写了一句“男主在雨中回头,眼神里充满了绝望”。
好,现在请你打开剪辑软件,导入 2 小时的电影素材。
剪辑一期10分钟的视频,光素材就需要这么多(这还是比较简单的剪辑)
然后,拖动进度条,一秒一秒地找。
是在第 10 分钟?还是第 50 分钟?
找到了,切一刀,拖下来。
配音,对齐,加字幕,加 BGM。
这个过程,我重复了无数次。
每一次,当我终于把视频剪出来的时候,距离我看这电影已经过去了整整 4 天。
那种原本让我兴奋、激动、想要立刻分享的心情,在 96 个小时的机械劳动中,被消磨得干干净净。
看着导出进度条,我心里没有成就感,只有一种“终于解脱了”的疲惫。
于是有一天,我看着那个该死的剪映时间轴,突然爆发了。
TMD,老子不剪了! 💥
1. 无知者的无畏:AI 不就是个“找茬高手”吗?
那一刻,我脑子里冒出了一个“绝妙”的想法:为什么不能让 AI 来干这脏活?
逻辑很简单嘛:
- 告诉它:“嘿,帮我把文案对应的画面找出来,拼在一起。”
这听起来有多难?现在的 AI 都能写诗画画了,找几个镜头还不是手拿把掐?
带着这种迷之自信,我开始了我的 v1.0 开发之路。
结果第一脚,就踩进了一个大坑里。
AI 根本看不完一部电影。
我太天真了。我以为 AI 像人一样,看一遍就能记住剧情。
现实是:目前的 AI 模型都有“Token 限制”(记忆长度限制)。
号称最强上下文的gemini pro,上下文限制也只能达到1048576
这就好比你让一个只有 7 秒记忆的金鱼去看《泰坦尼克号》。
它看到杰克和露丝在船头飞的时候,早就忘了这俩人是怎么上船的了。
结果就是,AI 给出的画面解析完全是 牛头不对马嘴。
文案在讲“深情的告别”,画面配的是“路人甲在吃饭”。
那一刻我才意识到:这不是简单的“找茬游戏”,这是一场记忆力的战争。
2. 后现代主义噩梦:谁把《西游记后传》放出来了?
为了解决“金鱼记忆”的问题,我想了个笨办法:切片。
既然你记不住长的,那我就把电影切成 10 分钟一段的碎片,让你一点点看,一点点记。
这就是我的 v2.0 版本。
逻辑通了,代码跑起来了。
那天下午,我满怀期待地打开了那个自动生成的剪映草稿。
一键剪辑的结果,乍一看是不是还不错?
我以为我会看到一个流畅的解说视频。
结果,我看到了 地狱。
画面开始无限鬼畜。
同一个镜头,重复播放了 10 遍。
上一秒是结局,下一秒跳到了开头。
原理是AI无法确定画面对应的文案是否已经结束,为了确保每一句文案都能对应,只能无限重复,无限月读。
整个视频充满了 后现代主义的浪漫气息,像极了当年的《西游记后传》——左勾拳重复三遍,右勾拳重复三遍。
我人傻了。 🤡
我在电脑前坐了两天,盯着那堆乱七八糟的代码和鬼畜的画面。
那时候我真的想放弃了。
我图啥呢?有这时间,我手动剪辑早剪完两部片子了。
3. 赛博导演的野望:我负责灵魂,你负责肉体
但我最终没有按下 Delete 键。
为什么?
因为在那些鬼畜的画面缝隙里,我偶尔能看到一两个 “神来之笔”。
有那么一瞬间,AI 居然真的精准地抓住了那个“雨中回眸”的镜头,并且配上了完美的音乐。
那一瞬间的战栗感告诉我:这事儿能成。
我做这个软件,不是为了偷懒。
我是希望有一天,我能变回那个纯粹的影评人。
我只需要负责 创意、情感、观点——也就是视频的灵魂。
而寻找素材、对齐时间轴、调整音量这些肉体上的苦役,应该全部交给 AI。
不仅仅是电影,将来可能是纪录片、可能是 Vlog、可能是任何视频形式。
虽然现在的它还是个会把视频剪成鬼畜的“人工智障”。
虽然距离我理想中的“赛博导演”还需要亿点点时间。
但至少,我已经不在桌子上趴着了。
我已经掀翻了桌子,并开始动手造一张新的。
我是比维斯。
这个公众号后续会更新一些我开发过程中的有趣事情与功能实现情况,喜欢这种内容的可以关注我。