浅显理解LLM底层技术

2025-04-24 01:54:06

0次阅读

大语言模型（LLM）作为人工智能领域的重要分支，近年来在自然语言处理（NLP）方面取得了显著进展。然而，对于非技术出身的人来说，理解LLM的底层技术往往显得晦涩难懂。本文作者通过类比和通俗易懂的方式，深入浅出地介绍了LLM的底层技术原理，包括词元（token）的概念、有监督学习与无监督学习的区别，以及语言生成技术如GPT和BERT的工作机制。

近期在入门学习AI相关技术，由于并非技术出身，因此通过类比方式理解相关底层技术，如有问题欢迎指出。

人工智能并不等同于大语言模型（LLM），人工智能是一个很大的领域，其中又包括自然语言处理（NLP）、计算机视觉（CV）、知识图谱、语音等等。而其中目前火热的大语言模型（LLM）则是目前自然语言处理的技术形态，也可以说目前通过大语言模型（LLM）的能力实现自然语言处理。

自然语言处理，这个概念的命名就非常有意思，关键就在于自然两个字。我和小学生说“请你把你的橡皮擦给我”，小学生也能做到无需过多的思考，自然就理解我的意思，但是机器也是做不到的。就连现在机器也做不到像小学生一样理解我的意思，因为机器并非真的拥有生命意识去理解我的意思，而是通过一些技术手段解构我们语言，就比如结构这句话“请你把你的橡皮擦给我”。而这个技术手段解构语言的技术，就被称为自然语言处理。

程序员通过思考为什么人类能做到自然语言处理的结论中获得启发，像上帝一样模拟人类大脑赐予机器对应能力。为什么小学生也能理解“请你把你的橡皮擦给我”，因为在小学生的脑子里，首先他通过学习装有各种名词、形容词等等知识，接着他能通过这几个词组合，整体理解这句话的意思。回顾下九年义务教育的中，教会小学生学习，是先从各种日常词汇开始，然后再到用词组句。同样的，教会计算机也是同样的道理。

首先，得学习基本的词汇，而词汇在机器学习里面则叫词元（token）。

那么，教完小学生之后，怎么能够证明小学生学会了呢？

伟大的人类发明了考试，通过考试方式测试他是否真的学会了。而机器学习也是使用这种学习过程，而根据其实际教学不同分为有监督学习和无监督学习。

有监督学习，相当于先让机器做题，然后做完之后，让他做出的答案参考标准答案是否正确。就好像现实里小学生考到90分，则奖励一个大红花；考到50分，就惩罚一个大哭脸。得到大红花的小学生，则会继续采取正确的学习方法；而得到大哭脸的小学生，则会重新思考正确的学习方法。

那么，无监督学习，相当于没有参考答案，自我去猜测答案。

就好像小学生学会了这几个词“列”“烈”“裂”都念lie，那么当他第一次看到“洌”这个词，大概率第一反应也念洌。

为什么？

因为小学生的脑袋也知道归纳总结，通过总结出有“列”的词都念lie。当然归纳总结的方法也不一定会对。比如这个“洌”也确实念lie的音，但是例却又不念lie音。

接着，小学生学会各种词汇了，就要教他们各种组句能力了。而组句的能力，机器学习又叫语言生成。锻炼小学生组句能力，我们会用挖空锻炼。

就比如：妈妈__ __ __ __。有的小学生答案是我真爱你，有的小学生答案是最棒的。

那么机器学习中，其中一个语言生成技术的底层逻辑，就是这种通过上文词汇，预测下文词汇。那么现实里为什么小学生都能做到，现实里我们会说是语感好。那么，机器学习其实是通过深度网络去构建出词的关联，就比如输入“妈妈”这两个词，在程序员构建出来的神经网络中，则输出最前面的词就是“我真爱你”，而深度网络其实模拟就是人类的神经细胞网络。

当然，这种单向预测的技术叫GPT（其实并不严谨，只是为了好理解），其实只是一种语言生成技术，还有双向预测。就比如：就比如：妈妈__ __ __ __。在这句话的前面说妈妈会很多事情，在这句话的后面说优秀的母亲对我的影响。那么答案是妈妈是最棒的，比我真爱你，就更加适合。那么结合上下文的能力，则叫BERT。所以，基于两个技术的区别，GPT适合续写作文，BERT适合做完形填空。

本文由 @打打泥原创发布于人人都是产品经理，未经许可，禁止转载

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。