前几天在 GitHub 看到一个开源项目。
说能把任意作者的文章喂进去,跑一个脚本,吐出一套「风格 DNA」。
我当时就心动了。
为什么要做这个
我自己的写作 skill 已经搭了两个月。
七个 skill 文件、三十多次 diff 迭代,每条规则都是我跟 WorkBuddy 一个字一个字磨出来的。
但我心里一直有个疙瘩——这些规则全是手动写的。
我告诉 agent「多用短句」「段落要有呼吸感」,但它从来不知道多短算短、呼吸频率是多少。
卡兹克的文章我读了很久,他的风格我一直想复刻。
所以那天晚上我干了件很疯的事——自己写了一个蒸馏引擎。
怎么做的
第一步:扒文章
从卡兹克公众号一篇一篇复制,15 篇。
技术评测、AI 科普、书单推荐,全混在一起。
存成纯文本,扔进本地文件夹。
第二步:写脚本
用 Python + jieba 分词 + pandas 做统计。
逻辑很简单:
核心代码不到 100 行。
我把它封装成一个可复用的 skill——以后蒸馏任何作者,三步搞定:放文章、跑脚本、出 DNA。
第三步:看数据
跑完以后我看着屏幕愣了好一会儿。
平均句长 45 个字。
独句段占比 92%。
高频词排前面的全是「时候」「东西」「直接」「需要」。
没有「赋能」,没有「底层逻辑」,没有「破局」。
就是这些你在饭桌上跟朋友聊天会用的词。
这个词表砸在我脸上的感觉,比我过去两个月手动写的任何一条规则都更有冲击力。
因为它不是「我觉得卡兹克可能这样写」。
是「从数据里跑出来的,他就是这么写的」。
三个意外发现
技术文和叙事文,句长几乎一样
技术类平均 46.6 字,人文类 44.9 字。
很多人(包括我)觉得写干货应该句子更短更干脆。
但数据说——不需要。
他的嗓音在两种场景下几乎没有变化。
人文类的独句段比技术类多 7 个百分点
人文 96.6%,技术 89.5%。
这个差距看起来不大,但当你一段一段读的时候就会发现:
讲技术时他偶尔会用两三句话把一件事说透。
讲故事时他几乎每句话都单独成段。
他的开头,每一篇都有「我」
不是我总结出来的规律,是脚本扫出来的。
15 篇文章,前五百字里全部出现了「我」字。
不是偶尔,是每一篇。
这个发现把我之前的很多困惑解开了。
为什么我自己写的文章开头总觉得不自然?
因为我习惯了「最近 XX 领域发生了一件大事」或者「今天想跟大家聊聊 XX」这种第三方叙述。
而卡兹克永远是从一个具体场景切入——哪顿饭、哪次出差、哪个深夜。
踩的坑
第一版跑出来的时候,高频词表第三名是 bottom。
我笑了五分钟。
原因是本地文件从公众号网页直接复制下来的,里面混了大量 CSS 代码。
jieba 分词的时候把 bottom、subscribe、3E 这些类名全当成了中文词。
改了一行代码——只保留含汉字的 token。
再跑一次,高频词干净了。
第二个坑是分类阈值。
初始设得太低,13 篇文章里有 12 篇被扒拉到技术类。
把阈值从 1.5 调到 3.0 之后,分类准了。
接下来
这个东西现在还只是跑通了第一版。
15 篇文章做出来的统计,有些维度肯定还不够稳。
我的目标是攒到 30 篇以上,然后把这个脚本升级成一个更通用的工具——可以蒸馏任何作者、任何平台的文章。
写文章这件事,我折腾了两年。
从手写到用 AI,从买会员到搭工作流,从一个人写到建 skill 体系。
直到今天,我把「风格」从感觉变成了数字。
这种感觉很奇妙。
就好像以前你只能大概描述一个人的声音是什么样子,但现在你可以看到它的波形图。
👉 想要这个蒸馏引擎的脚本?关注「爱我者暴富」回复「风格蒸馏」,我把完整代码和使用文档发给你。