哪位能通俗的给说一下大模型的原理
6340 19
[1 楼] zzz1 [老坛泡菜]
5-7 14:17
B站上看了一些讲座,对于一个不懂计算机的小白而言,什么这机制那机制神经网络之类的,一头雾水。
哪位能通俗非常浅显的讲一下,大模型是怎么理解我们的问话,生成答复内容的
还有生成图像,你问他要生成一个雪山草原的图,背后的工作机制是什么?
谢谢
[20 楼] 小胖子 [资深泡菜]
6-6 14:46
就是关键字穷举,然后投筛子决定结果。替代一些重复性工作。
控制不好人类就灭亡了,因为不可能有无懈可击的程序安全。这也是人工智能最大的人道危机。
[19 楼] 磐安风 [泡菜]
6-3 23:19
现在深度学习都被做烂了,

无数的论文前赴后继用深度学习套在各种应用场景上,因为不需要建模,只需要喂数据训练,然后根据结果调整,所以大大方便了造论文。

但深度学习的可解释性太差,恐怕是个大问题。
[18 楼] 磐安风 [泡菜]
6-3 23:16
zzz1 发表于 2025-05-07 20:43
极大似然,我查了下豆包,无法理解。猜一下,是不是就是最大概率数?
极大似然就是条件概率,求使得该事件发生概率最大的条件。
[17 楼] zyz1993 [资深泡菜]
6-3 11:07
“机器学习,深度学习是机器学习的一种特殊形式, 它基于人工神经网络, 并借鉴了人脑神经元连接的方式 。深度学习可以处理大规模、高维度的数据, 包括图片、音频和文本等, 已广泛应用于图像识别、自然语言处理、语音识别以及许多其他领域”
[16 楼] radius [泡菜]
5-20 16:42
仿生中枢神经系统的工作模式,所以生物神经系统擅长干什么,AI就擅长干什么,但是要训练好。
[15 楼] 闲聊状态 [泡菜]
5-20 09:54
个人感觉 就是统计学

图像识别就是 某物品的一大堆图片统计一下得出特征
文字大模型就是 一个语义的内容 无数的文本文字叠加 得出一个统计学上的字符组合
以此类推
[14 楼] qlemt [泡菜]
5-17 17:38
zzz1 发表于 2025-05-07 14:17
B站上看了一些讲座,对于一个不懂计算机的小白而言,什么这机制那机制神经网络之类的,一头雾水。
哪位能通俗非常浅显的讲一下,大模型是怎么理解我们的问话,生成答复内容的
还有生成图像,你问他要生成一个雪山草原的图,背后的工作机制是什么?
谢谢

远上寒山石径?

这时候你能够回答出来“斜”,因为你背过这首诗。

让某个模型背过所有的唐诗,这时候你问任何一句,它都能填出空缺的字来。

如果算力允许的话,把人类有史以来产生过的所有文字都让它背过会怎样呢?

当然这需要模型的参数量很大,大到几千上万亿的规模。

当模型参数量超过几十亿时,忽然神奇的事情发生了。

你随便跟它说一句话,它就能顺着你的话往下继续说(生成)了,而且看起来跟人类说话一样。

我们把这种现象叫做模型的涌现能力。

本质上,大模型就是根据你的问题,执行了一个猜字游戏。

根据它学习过的语料,猜测下一个最大概率的字是什么,并一直执行到下一个最大概率的字是停止结束。

生成图像稍微复杂一点。

大模型接受的输入不是文字,而是token。

在大模型推理前,会有一个编码器,把汉字或任何语言文字编码成token,再输入到大模型。

对于图像的输入和生成,就是在大模型前后再加上一个编码器/解码器,实现图像到token的相互转换。
[13 楼] Bohnenkaffee [陈年泡菜]
5-8 10:41
直接问大模型,想到什么就问什么。多问几个对比一下。
发布自 安卓客户端
[12 楼] bird3000 [陈年泡菜]
5-8 10:31
zzz1 发表于 2025-05-08 10:01
谢谢,您这么解释有点明白了
但是像选词填空,他能根据前面的字计算下一个字,这个好理解。但是第一个字,他是怎么确定的呢

去问AI啊,下面这些回答就是AI的回答,只是不知道是哪个模型出来的。
[11 楼] zzz1 [老坛泡菜]
5-8 10:01
arondes 发表于 2025-05-08 00:25
当然可以!我们可以把大语言模型(Large Language Model,简称 LLM)比作一个非常会“猜词”的超级大脑。下面我用几个简单的比喻来说明它的核心原理:
1. 训练:读海量“故事书”什么在做?
模型先去“读”互联网上的海量文字(新闻、书籍...

谢谢,您这么解释有点明白了
但是像选词填空,他能根据前面的字计算下一个字,这个好理解。但是第一个字,他是怎么确定的呢
[10 楼] arondes [陈年泡菜]
5-8 00:25
当然可以!我们可以把大语言模型(Large Language Model,简称 LLM)比作一个非常会“猜词”的超级大脑。下面我用几个简单的比喻来说明它的核心原理:
1. 训练:读海量“故事书”什么在做?
模型先去“读”互联网上的海量文字(新闻、书籍、对话、网页等)。
比喻:就像小时候你读了很多故事书,渐渐学会了用词和句式一样,模型通过看各种文本,学习了人类语言的用法。
2. 记单词:把词语变成数字什么在做?
模型把每个词(或者更短的“词片段”)转换成数学向量,也就是一串数字。
比喻:就像给每个单词贴上一张多维“标签”,标签里包含它的“语义气味”(比如“猫”和“狗”两个标签很相似,因为它们都是宠物)。
3. 自注意力机制:看“前后关系”什么在做?
在读一句话时,模型会关注到每个词和其他词的关系,动态分配注意力权重。
比喻:当你读到“他给了她一本书,因为她喜欢读书”时,你会注意到第一个“她”和第二个“她”指的是同一个人,模型通过“注意力”捕捉这种关联。
4. 逐词预测:训练时的游戏什么在做?
在训练中,模型反复玩“猜下一个词”的游戏:给它前面一串词,它要猜下一个最有可能出现的词,然后根据对不对来调整自己。
比喻:就像填词游戏——“我去超市买了一个___”,你可能会猜“苹果”或“面包”,模型就是在不断玩这个游戏,越玩越聪明。
5. 多层堆叠:从表层到深层什么在做?
对同一句话,模型会经过很多“层”来处理。每一层都会提炼并提取不同层次的信息。
比喻:就像一个侦探团队,一级侦探关注词的表面含义,二级侦探关注句子结构,三级侦探关注文章情感,层层深入,最终得出最可能的下一个词。
6. 推理和生成:说“人话”什么在做?
训练完毕后,给它一个开头或提问,它可以基于过去学到的概率,生成连贯的文字。
比喻:就像一个博览群书的老师,听到一个问题后,会根据记忆和经验组织语言,给出回答。
简要流程回顾读海量文本
把词语转数字(向量化)
多层自注意力
猜下一个词,不断修正
学会写连贯句子
为什么效果好?规模大:参数(可调节的数字)非常多,从几亿到上千亿,能记住更多细节。
海量数据:训练时“读”了互联网上绝大多数公开文本。
通用性强:掌握了语法、常识、写作风格,能应用于翻译、写作、对话、问答等各种场景。
总之,大语言模型就像一个通过读书和玩“猜词游戏”不断自我改进的超级“语言预测机”,它学会了语言的规律,能够根据前文预测和生成下文,从而看起来像“懂”语言一样。
[9 楼] arondes [陈年泡菜]
5-8 00:24
好的,没问题!咱们用大白话聊聊大语言模型(比如 ChatGPT)是怎么回事。
想象一下,你想培养一个超级会接话茬、超级会模仿人说话的“鹦鹉学舌”大师
第一步:疯狂喂料(训练数据)
你找来海量的文字材料:无数的书、※※※※、新闻报道、网页、对话…… 基本上是把互联网上能找到的文字都喂给它。
这就像让这个“大师”把人类※※上大部分公开的文字都读一遍,而且是反复读。
第二步:教它“猜词游戏”(学习目标)
在它读这些材料的时候,你给它一个任务:“根据前面的内容,猜下一个词应该是什么?”
比如,你给它一句话:“今天天气真好,我们一起去公园______。” 它就要猜空白处最可能是什么词,比如“玩耍”、“散步”等等。
如果它猜对了,就给个小奖励(调整内部参数,让它下次更倾向于这么猜);如果猜错了,就给个小惩罚(调整参数,下次别这么猜了)。
这个过程要重复亿万次,用海量的句子片段来训练。
第三步:学会“看重点”(注意力机制)
光会猜下一个词还不够。有时候,一句话里,某些词对理解意思、预测下一个词特别重要。
比如:“我喜欢吃苹果,它是一种很甜的______。” 要猜出“水果”,模型需要特别关注“苹果”和“甜”这两个词。
所以,这个“大师”还学会了一招,叫做“注意力机制”。就像我们读书时会把重点划出来一样,它在预测下一个词的时候,会自动判断前面哪些词更重要,给它们更高的“关注度”。
第四步:把词语变成“密码”(词嵌入)
计算机不认识文字,只认识数字。所以,要把所有的词语都转换成一串特殊的数字(叫做“向量”或“词嵌入”)。
神奇的是,通过学习,意思相近的词,它们的数字“密码”也会比较接近。比如,“国王”和“女王”的数字密码可能就比较像,“香蕉”和“苹果”的数字密码也比较像。这样,模型就能更好地理解词语之间的关系。
第五步:融会贯通,举一反三(生成)
经过上面这些步骤,这个“大师”就练成了。它并没有真正“理解”这些文字的意思(至少不是我们人类意义上的理解),但它对人类语言中的模式、搭配、语法、风格等规律了如指掌。
现在你跟它说话(给它一个提示,比如一个问题或一句话的开头),它就会利用学到的这些规律,一个词一个词地往外蹦,生成最符合上下文、最像人话的回答。
因为它“读”过的东西太多了,所以它能模仿各种语气、回答各种问题、写不同类型的文章,看起来就像一个什么都懂的“人”。
简单总结一下:
大语言模型就是一个超级强大的“文字接龙”高手
读了海量的文字(训练数据)。
学会了根据前面的字词预测下一个最可能出现的字词(核心能力)。
判断哪些字词更重要(注意力机制)。
字词转换成计算机能懂的数字密码(词嵌入)。
所以,当你问它问题时,它并不是真的“思考”然后回答,而是根据你的问题,在它学到的无数语言模式中,找到最有可能的、最流畅的下一个词,然后下一个词,再下一个词…… 这样一步步“吐”出一段完整的回答。
因为训练数据量巨大,学习到的模式极其复杂,所以它的表现就非常惊人,看起来就像真的在跟你对话一样。
[8 楼] arondes [陈年泡菜]
5-8 00:23
好的,我来用通俗的语言解释一下大语言模型(LLM)的原理。

### 大语言模型是什么?
简单来说,大语言模型是一种人工智能系统,它能“读懂”人类的语言,还能自己“写”出类似人类的话。就像一个超级聪明的笔友,可以跟你聊天、回答问题,甚至写故事。

### 它是怎么工作的?
下面是它的基本原理,分几个关键点来说:

#### 1. **靠海量数据“喂”出来**
- 大语言模型需要大量的文字“粮食”来学习,比如书、文章、网页等等。这些文字涉及各种话题和风格。
- 数据越多越杂,模型就越能学会不同的表达方式和知识,就像一个人读的书越多越博学。

#### 2. **有个聪明的大脑:神经网络**
- 模型用了一种叫“Transformer”的技术,这是个很厉害的神经网络,专门处理文字这种连续的东西。
- 它的“秘诀”是“注意力机制”,能让模型在看一句话时,知道哪些词更重要,哪些词跟上下文有关。比如“猫坐在垫子上”,它会明白“垫子”跟“坐”关系更紧密。

#### 3. **先学会说话:预训练**
- 在正式工作前,模型会先“自学”语言规则。比如给它一句“猫坐在______上”,让它猜下一个词是啥(比如“垫子”)。
- 通过这种预测游戏,它慢慢掌握了语言的套路和逻辑。

#### 4. **针对任务再调教:微调**
- 学会基础后,模型会根据具体任务再“精修”。比如要回答问题,就拿问答数据训练它;要翻译,就拿翻译数据调教它。
- 这就像学开车后,再练怎么开赛车。

#### 5. **能自己写东西:生成文本**
- 训练好了,你给它一句开头(比如“讲一个关于猫的故事”),它就能接下去写出相关的文字。
- 它会尽量写得自然,像人说的话一样。

#### 6. **会听上下文:理解连贯性**
- 模型很擅长“记前顾后”。比如你在对话里提到“昨天的雨”,它能接着聊这个话题,而不是跑题。
- 这让它在聊天或写长文时显得很连贯。

#### 7. **也有短板:局限性**
- 模型不是万能的。它学的都是数据里的东西,如果数据有偏见或错误,它也可能会“学坏”。
- 碰到特别复杂或抽象的问题,它有时会懵,写出不靠谱或乱七八糟的东西。

### 总结一下
大语言模型就像一个靠海量文字“喂”出来的超级语言大师,用Transformer这个聪明大脑,学会了理解和生成人类的语言。它先自学语言规则,再针对任务微调,就能根据你的输入写出像样的回答。不过,它也有局限性,不一定每次都完美。

希望这个解释够清楚!如果还有啥想知道的,随时问我!
[7 楼] zzz1 [老坛泡菜]
5-7 20:43
miat 发表于 2025-05-07 17:33
简单理解:
神经网络->特征挖掘
LLM->基于神经网络的模拟人类思考推理的工作流
核心本质:基于概率的极大似然
极大似然,我查了下豆包,无法理解。猜一下,是不是就是最大概率数?
[6 楼] 虚化 [资深泡菜]
5-7 18:18
之前看过一个openai老大的访谈,只记住一句话:大语言模型LLM的本质是信息压缩解压算法
[5 楼] miat [泡菜]
5-7 17:33
简单理解:
神经网络->特征挖掘
LLM->基于神经网络的模拟人类思考推理的工作流

核心本质:基于概率的极大似然
[4 楼] zzz1 [老坛泡菜]
5-7 17:28
原先我看资料上讲,谷歌给机器2000万张?世界各地各种猫的数据,分析出各种猫的特征,使机器认识了猫。这个好理解。可是,无法理解他怎么画出猫的,是拿这个数据设定了什么我们不理解的规则去集成?
[3 楼] wyxsh [泡菜]
5-7 17:03
搜索再集成
[2 楼] 八大行星 [资深泡菜]
5-7 14:54
zzz1 发表于 2025-05-07 14:17
B站上看了一些讲座,对于一个不懂计算机的小白而言,什么这机制那机制神经网络之类的,一头雾水。
哪位能通俗非常浅显的讲一下,大模型是怎么理解我们的问话,生成答复内容的
还有生成图像,你问他要生成一个雪山草原的图,背后的工作机制是什么?
谢谢

我说说我的理解,不一定对。仅为抛砖引玉。

1,大语言模型

将所有信息以词(叫Token)为单位进行相互关联,根据实际获得的已有信息找出所有词之间前后搭配组合的概率分布。大语言模型使用时采用问答的形式,就是将问的问题分解为“词”和“词与词之间的关联”,然后从已有数据中依照之前获得的概率分布找到相关词并且同样按照概率分布进行排列组合,就构成了回答。

这个“所有信息”是非常大规模的。比如Deepseek R1的规模是671B,671B就是有6.71万亿个词。它可以涵盖能搜集到的全部人类语言。而做排列组合时,所有这些词都进行相互关联和进行概率运算,所以其计算规模也是非常巨大的。所以需要非常高性能的电脑。

2,文本生成图像

一幅内容丰富的图像,可以按照一定的规则进行简化,反复简化的最终结果就是一张空白的图像。使用计算机将海量的内容丰富的图像简化成空白图像的过程都进行分析和记录,这个叫训练。分析和记录的结果包含了图像中的特征,并且海量训练通过人工干预包含了图像与文字的关联。而文本生成图像是这个步骤的反向操作。根据输入的文本信息配合训练得到的数据将图像逐渐复杂化,这个复杂化的过程都受到训练数据的引导,向着文本和图像匹配概率最大的方向前进,这种前进可能是多方向的,但会根据数字结果抛弃掉概率小的,保留概率大的,这样最后留下的图像就是人们期望得到的和输入文本最相关的内容丰富的图像。