注:文末有视频版
大家好,我是阿隆。
这节课我们继续来理解大模型。
很多人可能会好奇:
大模型那个像人一样的聪明脑袋,它到底是怎么练出来的?
其实大模型的成长过程,跟咱们人类的学习经历,基本上是一模一样的。
下面我会用三个生活化的比喻,带你彻底看透这个顶级聪明大脑的成长之路。
3 类学习方式
1)无监督学习:像婴儿听百家话
大模型在最初阶段,会阅读海量的互联网数据,相当于人类读了数十年的内容。
它通过反复观察词语的搭配,比如看到下雨,就会联想到打伞,看到太阳,就会联想到从东边升起,从西边降落。
它就自己从大量资料数据里,悟出了语言的逻辑和规律。
那么它会有什么局限呢?
这个时候模型会像个话痨,虽然能写故事,但还不能精准回答你的问题。
此时的大模型,就像一个刚出生的婴儿,整天沉浸在和家里人的对话环境里,虽然没有人教他语法,但他听多了,自然就会咿呀学语了。
这是无监督学习。
2)有监督学习:像指着绘本认图案
有监督学习,是工程师给模型喂入大量「带标签」的数据。
比如给它看1万张猫的照片,并告诉它这就是猫。
通过这种手把手的教学,模型学会了把输入(问题)和输出(答案)准确地对应出来。
就像等孩子长大点之后,我们会指着绘本告诉他这是一只白猫,那是黑猫,它们都是猫。
3)强化学习:像辅导孩子做题目
现在的强化学习(RL)已经成了 AI 推理的灵魂。像 DeepSeek 的深度思考模型,它不再是死记硬背,而是学会了深度思考。
模型在回答时会不断的尝试,根据打分机制来调整行为。
现在的技术(如 GRPO)让模型能通过「自我反思」和「试错」来进化,哪怕没人教它深层原理,它也能为了拿高分,而自发地学会复杂的逻辑推理。
就像孩子做错了题,你会纠正他;做对了题,你会奖励他一个大鸡腿。
慢慢地,孩子就知道怎么做才能得高分。
这是强化学习。
最后的话
大模型的聪明不是魔法,而是海量数据和人类智慧共同孕育出来的成果。
理解了无监督、有监督和强化学习这三个阶段,我们就能明白,它像一块吸收知识的海绵,一个反复练习的学生,更像一个精益求精的运动员。
这种持续进化的学习方式,正是大模型在2026年依然能不断突破能力天花板的核心原理。
而这仅仅是一个开始,未来的 AI 会在这条「进化之路」上走得更远,带给我们更多意想不到的惊喜。
下一节课,我们会开始介绍大模型是如何工作的。
我是阿隆。2026 年目标——教会1000人用AI编程。工具让生活更美好,拒绝空谈,只教落地。