浅显理解LLM底层技术

人人都是产品经理

  ·  

2025-04-24 01:54:06

  ·  

0次阅读

大语言模型(LLM)作为人工智能领域的重要分支,近年来在自然语言处理(NLP)方面取得了显著进展。然而,对于非技术出身的人来说,理解LLM的底层技术往往显得晦涩难懂。本文作者通过类比和通俗易懂的方式,深入浅出地介绍了LLM的底层技术原理,包括词元(token)的概念、有监督学习与无监督学习的区别,以及语言生成技术如GPT和BERT的工作机制。

近期在入门学习AI相关技术,由于并非技术出身,因此通过类比方式理解相关底层技术,如有问题欢迎指出。

人工智能并不等同于大语言模型(LLM),人工智能是一个很大的领域,其中又包括自然语言处理(NLP)、计算机视觉(CV)、知识图谱、语音等等。而其中目前火热的大语言模型(LLM)则是目前自然语言处理的技术形态,也可以说目前通过大语言模型(LLM)的能力实现自然语言处理。

自然语言处理,这个概念的命名就非常有意思,关键就在于自然两个字。我和小学生说“请你把你的橡皮擦给我”,小学生也能做到无需过多的思考,自然就理解我的意思,但是机器也是做不到的。就连现在机器也做不到像小学生一样理解我的意思,因为机器并非真的拥有生命意识去理解我的意思,而是通过一些技术手段解构我们语言,就比如结构这句话“请你把你的橡皮擦给我”。而这个技术手段解构语言的技术,就被称为自然语言处理。

程序员通过思考为什么人类能做到自然语言处理的结论中获得启发,像上帝一样模拟人类大脑赐予机器对应能力。为什么小学生也能理解“请你把你的橡皮擦给我”,因为在小学生的脑子里,首先他通过学习装有各种名词、形容词等等知识,接着他能通过这几个词组合,整体理解这句话的意思。回顾下九年义务教育的中,教会小学生学习,是先从各种日常词汇开始,然后再到用词组句。同样的,教会计算机也是同样的道理。

首先,得学习基本的词汇,而词汇在机器学习里面则叫词元(token)。

那么,教完小学生之后,怎么能够证明小学生学会了呢?

伟大的人类发明了考试,通过考试方式测试他是否真的学会了。而机器学习也是使用这种学习过程,而根据其实际教学不同分为有监督学习和无监督学习。

有监督学习,相当于先让机器做题,然后做完之后,让他做出的答案参考标准答案是否正确。就好像现实里小学生考到90分,则奖励一个大红花;考到50分,就惩罚一个大哭脸。得到大红花的小学生,则会继续采取正确的学习方法;而得到大哭脸的小学生,则会重新思考正确的学习方法。

那么,无监督学习,相当于没有参考答案,自我去猜测答案。

就好像小学生学会了这几个词“列”“烈”“裂”都念lie,那么当他第一次看到“洌”这个词,大概率第一反应也念洌。

为什么?

因为小学生的脑袋也知道归纳总结,通过总结出有“列”的词都念lie。当然归纳总结的方法也不一定会对。比如这个“洌”也确实念lie的音,但是例却又不念lie音。

接着,小学生学会各种词汇了,就要教他们各种组句能力了。而组句的能力,机器学习又叫语言生成。锻炼小学生组句能力,我们会用挖空锻炼。

就比如:妈妈__ __ __ __。有的小学生答案是我真爱你,有的小学生答案是最棒的。

那么机器学习中,其中一个语言生成技术的底层逻辑,就是这种通过上文词汇,预测下文词汇。那么现实里为什么小学生都能做到,现实里我们会说是语感好。那么,机器学习其实是通过深度网络去构建出词的关联,就比如输入“妈妈”这两个词,在程序员构建出来的神经网络中,则输出最前面的词就是“我真爱你”,而深度网络其实模拟就是人类的神经细胞网络。

当然,这种单向预测的技术叫GPT(其实并不严谨,只是为了好理解),其实只是一种语言生成技术,还有双向预测。就比如:就比如:妈妈__ __ __ __。在这句话的前面说妈妈会很多事情,在这句话的后面说优秀的母亲对我的影响。那么答案是妈妈是最棒的,比我真爱你,就更加适合。那么结合上下文的能力,则叫BERT。所以,基于两个技术的区别,GPT适合续写作文,BERT适合做完形填空。

本文由 @打打泥 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。