图解 LLM（大语言模型）的工作原理

在 x（原帖链接见文章末尾）上看到有人分享一组图解 LLM 工作原理的帖子，内容通俗易懂，就搬运过来汉化一下，和大家一起学习！

AAI机器之心

1378人浏览 · 2025-06-06 14:55:22

AAI机器之心 · 2025-06-06 14:55:22 发布

在 x（原帖链接见文章末尾）上看到有人分享一组图解 LLM 工作原理的帖子，内容通俗易懂，就搬运过来汉化一下，和大家一起学习！

分享者是 Akshay，他是一位 AI/ML 工程师，在 x 上的介绍如下图所示：

LLM 工作原理解释

条件概率解释

他提到，在介绍 LLM 之前，需要先了解一下条件概率（conditional probability），应该是与高中、大学学的概率学相关。有一个很形象的例子：

有 14 个人，他们中的一部分人（7 个）喜欢网球、一部分人（8个）喜欢足球、少部分人（3 个）同时喜欢网球和足球、也有极少一部分人（2 个）都不喜欢网球和足球。用图表示如下：

所以如果要表示喜欢网球的人数概率，表示方法为 P(A)，结果是 7/14；喜欢足球的人数概率，表示方法为 P(B)，结果为 8/14；同时喜欢网球和足球的人数概率，表示方法为 P(A∩B)，结果是 3/14；同时表示既不喜欢网球又不喜欢足球的人数概率，结果为 2/14。

那什么条件概率呢？

其实就是在另外一件事情发生的前提下，某件事情发生的概率。比如上面的事件 A 和事件 B，如果要表示在事件 B 发生的前提下，事件 A 发生的概率，那么表示方法是P(A∣B)。

所以，如果要计算一个人在喜欢足球的情况下，还喜欢网球的概率，计算方法为 P(A|B)=P(A∩B)/P(B)=(3/14)/(8/14)=3/8。

再拿阴天和下雨天为例来将条件概率：如果将今天下雨当作事件 A，阴天可能下雨作为事件 B（按照常识，阴天会有下雨的可能），而且事件 B 会影响下雨的预测。所以，阴天的时候就可能会下雨，这个时候就可以说条件概率 P(A|B) 是非常高的。

LLM 预测解释

回到 LLM 上来说，这些模式的任务就是预测下一个出现的单词。这就和前面讲的条件概率类似：如果给定已经出现过的单词，那下一个最可能出现的单词是哪一个？

所以，要预测下一个单词，模型就要根据之前给定的单词（上下文）来为每一个接下来可能出现的单词进行条件概率的计算，条件概率最高的单词就会被作为预测单词所选中。

而 LLM 学习的是一个高维度的单词序列概率分布。这个分布的参数就是经过训练的权重。但是这种概率毕竟是一种预测，并不是实际的结果，所以这个过程中就有一个 损失计算(Loss calculation) 的概念。

以下内容来自 ChatGPT。

Loss calculation（损失计算）是指模型在预测过程中产生的误差的度量，通常用来衡量模型预测的结果与实际目标之间的差异。通过最小化损失函数，模型能够不断优化其参数，以提高对新数据的预测能力。

上图中提到的 Cross-entropy loss 和 Negative log-likehood 是两种损失函数。

• Cross-entropy loss

Cross-entropy loss 指交叉墒损失，用来度量模型预测的概率分布与真实标签（即实际单词）间的差异。

交叉墒 用于计算两个概率分布之间的差异。在语言模型中，一个概率分布是模型对每个可能的下一个单词的预测概率，另一个是实际的单词标签的“真实分布”（通常是一个one-hot分布，即正确单词的概率为1，其他为0）。交叉熵损失的计算公式如下：

• Negative Log-Likelihood

Negative Log-Likelihood，负对数似然，简称 NLL。是机器学习中常用的一个损失函数，尤其在概率模型和分类问题中广泛应用。

以上内容来自 ChatGPT。

这种概率预测并选择最有可能的单词会带来一个问题如果总是选择可能性最大的单词，那么结果就是重复性的，这就让 LLM 显得缺乏创造性。

所以，这里面就有一个 temperature（温度） 的概念产生。

temperature（温度）

LLM 中，temperature（温度）是一个调整模型输出概率分布的超参数，通常用于文本生成和采样。它影响生成文本时的多样性和创造性，以及模型在选择下一个单词时的随机性。

因为在 LLM 中，大模型通常会生成一个概率分布，表示下一词在给定上下文下出现的可能性。例如，模型可能会为每个可能的下一个单词生成一个概率，就像前面图中所画的：

上下文是“The boy went to the“，下一个单词可能是“Cafe、Hospital、Playground、Park、School“，这几个单独对应的概率是“0.1、0.05、0.4、0.15、0.3“。

temperature 控制如何从概率分布进行采样：

• Low temperature（低温度，比如 0.1 ~ 0.5）：模型的输出会更加具有确定性，也就是更倾向于选择概率较高的单词，此时生成的文本更连贯、理性，内容更“保守”，但是也可能缺乏多样性和创意。
• High temperature（高温度，比如 0.8 ~ 1.0）：模型的输出会更加随机，也就使得低概率的单词有更大的机会被选中。这会增加生成文本的多样性和创造性，但是也可能导致输出不那么流畅或不太符合上下文。

temperature 是通过使用 softmax 函数来调整每个词的 logits（即原始的未经过归一化的分数）来对大模型的输出进行影响的。

softmax 函数是一个激活函数，用来将向量中的每个值转换成一个概率分布。其输出的每个值都会被转换成一个介于 0 和 1 之间的概率，并且所有输出的概率之和等于 1。

随后，作者给了两个不同 temperature 时候的示例来说明差别，第一张图是 low temperature 的，第二张图是 high temperature 的。

所以 LLM 并不是选择最佳（概率最大）的 token，而是对预测进行采样。所以，概率最高的 token 也有可能不会被选中。

所以，在 softmax 函数中，温度引入了一些调整，反过来这种调整又影响了采样过程。

最后作者给了一个很直观的代码示例来对 temperature 对采样的影响：

看来要学习 LLM，还需要深入学习大学的概率分布、统计、线性相关的课程啊。

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

基于此，我用做产品的心态来打磨这份大模型教程，深挖痛点并持续修改了近70次后，终于把整个AI大模型的学习门槛，降到了最低！

在这个版本当中：

第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言

您只需要听我讲，跟着我做即可，为了让学习的道路变得更简单，这份大模型教程已经给大家整理并打包，现在将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

五、AI产品经理大模型教程

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
- L3.2 MetaGPT
- L3.3 ChatGLM
- L3.4 LLAMA
- L3.5 其他大模型介绍

阶段4：AI大模型私有化部署

目标：掌握多种AI大模型的私有化部署，包括多模态和特定领域模型。
内容：
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

火山引擎开发者社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OBS Studio音频分离：人声与背景音乐分离全攻略

你是否曾在直播或录屏时遇到这样的困境：想要单独调整人声音量却影响了背景音乐，或是后期剪辑时无法消除环境噪音？OBS Studio（Open Broadcaster Software Studio，开放广播软件工作室）作为免费开源的音视频录制与直播工具，提供了强大的音频处理框架，通过合理配置滤镜链与外部工具组合，可实现专业级别的人声与背景音乐分离。本文将系统讲解3种分离方案，从基础声道分离到AI驱动

火山引擎开发者社区

lmstudio-python：简化LLM操作的强大Python SDK

lmstudio-python 是一款功能强大的 Python SDK，旨在帮助开发者轻松地使用大型语言模型（LLM）进行文本生成、对话系统搭建以及其他相关应用。通过简单易用的API，lmstudio-python 能够让用户快速集成 LLM 功能，无论是进行基础文本补全还是复杂的对话系统设计。## 项目技术分析lmstudio-python SDK 以 Python 为基础，提供了一个同

火山引擎开发者社区

OBS Studio AI增强：智能场景识别与自动优化全攻略

你是否曾在直播切换场景时手忙脚乱？是否因复杂的参数配置而错失最佳直播时机？OBS Studio作为开源直播软件的佼佼者，虽提供强大的自定义功能，但传统手动操作已难以满足专业创作者对效率和质量的双重需求。本文将系统介绍如何通过AI技术增强OBS Studio的核心能力，重点实现智能场景识别与自动参数优化，让你的直播制作流程效率提升300%。读完本文你将获得：- 基于OpenCV的实时场景分析插