AI Models｜大模型原理：90分钟深度！一口气看明白人工智能和神经网络

人工智能机器学习神经网络这些听起来高大上的词汇你是否还一知半解

0:07GPT大语言模型生成式AI 这些频繁出现在商业报道乃至于日常生活的前沿技术

0:14你是否好奇它们的发展、渊源和基本原理？万物皆可AI的时代

0:20你是否担心被割韭菜或者被动失业这期视频耗时半年专为零基础的观众打造

0:26将实打实讲明白人工智能的来龙去脉我是漫士一位毕业于清华

0:31姚班的人工智能博士生从本科到研究生所有AI课程全部满分排名年级第一

0:37目前正在从事深度学习理论的研究刚刚从普林斯顿回国视频制作实在不易

0:43还望点赞多多支持看不完可以收藏或者关注我之后慢慢看

0:501956年一群科学家齐聚达特茅斯开了一场会这场会议持续一个多月

0:55一共只有十来个人参加但个个都是大佬他们包括达特茅斯的数学系教授麦卡锡

1:02哈佛大学数学与神经科学研究员闵斯基，IBM主管罗切斯特信息论发明人香农等人

1:09但就是这样一场很小的会议深刻的改变了几十年后世界的样貌

1:158年前战胜李世石的AlphaGo 如今能帮我们解决各种日常问题的GPT

1:21本质上都起源于这场会议所发起的研究如何制造出一种可以不断学习

1:27并模拟人类智能的机器呢这个领域在2018年拿到图灵奖之后

1:33又在今年一举斩获了诺贝尔物理奖和化学奖是的这个领域就叫人工智能

1:40而这场会议也被视为开创人工智能的起点达特茅斯会议

1:47人工智能，说白了就是人工搭建起一套智能要实现这个目标首先就要回答一个非常根本的问题

1:54什么是智能我们想想生活里什么时候我们会觉得一个物体有智能呢

2:07比如说我们跟狗狗说话让它坐它就会坐下让它叫它就会叫两声

2:12你骂它两句它就会一脸幽怨的盯着你此时我们会觉得哎这只小狗很聪明

2:18有灵性有灵性本质上就是说狗是一种有智能的生物

2:24和石头什么的不一样你无论怎么叫一块石头它都无动于衷所以是一个死物

2:30正因此尽管有关智能的定义千千万但他们都逃不开这样的核心

2:36智能本质上就是通过收集信息对于不同的情景作出针对性的反应

2:43中学有一个很有意思的小实验那就是观察草履虫的应激行为在另一端滴上肉汁

2:50草履虫就会跑过去而加上几粒盐它们就会四散逃跑正是这种针对环境的变化

2:57趋利避害的运动让我们相信这些水中的小颗粒是一种有智能的生物

3:03而不是无生命的灰尘事实上如果你看到有一些草履虫没有了趋利避害的反应

3:09这就说明一个很简单的道理它们死了智能随着生命消失

3:15既然智能说白了就是看情况做事那么所谓人工智能同样就是搭建起一个

3:21根据不同的环境信息给出针对性的输出和回应的系统

3:26这个输出可以是动作语言也可以是一种判断和预测

3:32比如说人脸识别可以根据不同的人脸针对性地反馈出不同人的身份信息

3:39AlphaGo 可以对于各种不同的复杂棋局的情况给出最佳的下法

3:44争取胜利 GPT可以根据上文不同的问题和任务的要求

3:49针对性地跟你说话并解决问题因此它们都是智能

3:55设想一下如果人脸识别把所有的人都认成了张三 AlphaGo在棋盘上到处乱下

4:01GPT的回答牛头不对马嘴那这个AI的全称应该叫artificial idiot

4:07人工智障总而言之智能的本质就是一个不会乱来的黑箱

4:13或者用数学一点的说法智能就是找到情景信息的输入

4:18和我们想要的聪明的行为输出之间的函数对应关系

4:24这里给大家听一段来自美国的老爷子Thomas Garrity激情四射的演讲

4:29相信你会对这个函数有更深的体会 functions 函数

4:36describe 描述了 the wor~~~~ld 世——界——！

4:44everything is described by functions 世间万物都被函数所描述 the sound of my voice on your eardrum, function 我的声音传到你的鼓膜，是函数！

4:52the light that’s kind of hitting your eye balls right now 那些正在照射向你们眼睛的光 function！ the entries you put in your random matrices 也是函数！那些你在矩阵中随机设置的数值

5:00function! it’s all~~~ function 还是函数！全——都是函数！ different classes and mathematics 不同的领域 different areas and mathematics study 数学不同方向的研究

5:05different kinds of function 研究不同的函数 high school math studies 高中数学研究 second degree one variable polynomials 单变量二次函数 calculus studies 微积分研究

5:11smooth one variable functions and it goes on and on 光滑的单变量函数，各种地方都如此 functions describe the world 函数，描述，世界！

5:20你也能更好地理解图灵测试因为图灵测试它就在说如果人无法区分是在跟人还是AI聊天

5:28那么这个AI就实现了人的智能它本质上正是在说所谓AI本质上就是它所定义的

5:36输入到输出的这个黑盒的函数关系它跟你回应的话和人没有任何区别

5:42那么这就是一个类似于人的智能了问题来了该怎么做出这样一个聪明的黑箱呢

5:48科学家针对这个问题提出了很多思路例如有一批人从数学的形式化推理体系中得到灵感

5:56主张智能可以用符号的逻辑推理来模拟这就是符号主义symbolism

6:02举个例子 a表示阴天 b表示湿度大于70% t表示将要下雨

6:08那么知识是一条逻辑规则如果a和b是真的那么t就是真的

6:14所谓智能就是看到阴天和湿度很大明白a和b都对那么利用这条规则

6:20推出t是真的从而预测到可能将要下雨这些人类的推理和思考

6:27都可以从这些符号和规则当中像算数一样计算出来

6:32因此符号主义相信智能正是一套像这样处理符号和规则的计算系统

6:39他把人类的知识和逻辑用如果a 那么b这样的规则存储下来

6:45然后呢不断进行符号推演就可以实现接近人类的智能这套思路最成功的典范

6:52就是曾经的专家系统他咨询人类的医学专家什么样的病可能会有什么样的症状

6:59接着把这些规则全部记录下来只要利用这些规则就可以根据已有的信息给出预测

7:06实现一个智能的黑箱这套系统一度在疾病诊断和金融咨询领域

7:12获得了很大的成功但随着时间推移它也逐渐暴露出致命的缺陷

7:18首先很多时候现实世界没有那么清晰的规则即使询问人类专家

7:24出现某个症状是不是得了某个病或者股票走势长成这个样子应该是买还是卖

7:30他们给出的回答往往都并不一致那你的系统只能选择一个

7:36到底该听谁的呢更要命的是这套系统完全是在复制人类经验

7:42所以他的能力上限就是专家的水平无法做到比人更好

7:48而且从你设计完成这套系统开始他就永远是静止不变的水平

7:54很难像人一样随着经验和时间的增长水平不断继续提升

8:00正因此从上世纪70年代开始另一个人工智能流派开始发扬光大

8:06他不追求一开始就有一个完美的黑箱但允许这个黑箱不断的变化

8:13通过不断的引导和学习让他在某一个任务上表现的越来越好

8:18哎没错也是一种成长型的心态这种思路啊就像训狗

8:23你发出坐的指令如果他坐下来呢你就奖励他狗粮或者摸摸狗头

8:29如果他没听懂或者瞪着个眼睛你就给他一逼斗久而久之

8:34狗这个黑箱就会越来越明白你发出坐这个指令和他需要坐下来的这个行为

8:41之间的关系就像条件反射一样之后只要听到坐这个命令的输入场景

8:49他就会给你坐下来这个动作于是一只会听指令的聪明小狗

8:54就训练完成了这个流派的名字也很生动就叫做机器学习

9:01顾名思义就是把在学习的对象从狗变成了机器通过给机器以奖励或者惩罚的方式

9:09让机器自主调整不断学习从而学会解决某一种任务的智能

9:15这个任务可能是识别图片里的数字和人脸也可能是下围棋或者是与人对话

9:22等等等等机器学习的强大之处在于它不需要任何专家的专业知识

9:29来人为搭建黑箱内部的结构它只需要两样东西一个强大且有学习能力的黑箱

9:36以及足够多的数据举个例子假设你想要一个能够识别数字的智能黑箱

9:43那么只需要准备一个具有学习能力的机器然后收集很多数字的图片

9:48人工标注出每张图片里的数字是什么接下来你只需要像训狗一样

9:54把一张张图片展示在这个机器面前让他预测里面的数字到底是

9:59什么如果他预测对了你就给他奖励错了呢你就给他惩罚

10:04让这个机器不断的自我调整当他见过的图片越来越多之后

10:10就能够神奇的做到正确识别这个图片里的数字是什么了

10:16相信你现在心里肯定有一个疑问哎哪来的黑箱这么神奇能够像狗和人一样越学越机灵

10:24而且给狗奖励是喂狗粮摸摸头给机器奖励和惩罚又是怎么一回事呢

10:30难不成是多给点电吗而且狗的条件反射和学习过程那么复杂

10:36人搭建起来的机器又是怎么自我调整和学习的呢

10:42哎问的非常好这三个问题啊其实就分别对应于机器学习的模型

10:47结构损失函数和训练过程接下来的视频就会详细解答这些问题

10:54让我们先解决第一个问题怎么搭建起一个有学习能力的黑箱机器呢

11:00有没有一种万能的超级强大的黑盒无论什么样的对应关系它都能表示和学会呢

11:07这里呢就值得一提另一派实现人工智能流派联结主义

11:12他们认为大自然已经给出了实现智能的标准答案那就是人类精妙的大脑

11:19只需要通过仿生的方式模拟单个神经元的复杂功能以及神经元之间复杂的连接

11:26那么我们只需要像运行一台精密的钟表一样运行这个人工搭建的神经网络

11:33人类就可以实现不可思议的智慧这一派思想被称作联结主义connectionism

11:41为了理解联结主义我们先考虑一些最简单的智能比如这里有一个苹果

11:47那为什么你会觉得它是一个苹果呢你可能会说因为它直径大约10厘米

11:52外表皮是红色的是个球形气味香甜没错我们对于很多概念

11:58比如苹果的理解是依赖于其他的概念属性组合而来的在每个不同的概念属性上

12:05不同的水果会有各自的特征比如大小方面西瓜是大的

12:10而其他的水果是小的所以在尺寸大这个特征上西瓜符合而其他的水果不符合

12:17在计算机的世界里我们用1来表示符合 0表示不符合这样我们就可以列出各种水果

12:25与不同属性之间的一张关系对应表当每个水果的特征

12:31都和苹果的属性吻合时我们就倾向于判断这是苹果

12:36如此我们就拥有了一种简单的识别水果的智能因此

12:41有一种最简单的搭建黑盒的方式比如说我们想要识别苹果

12:47那就将一个水果的所有特征比如说大小颜色气味什么的作为输入

12:53然后分别考虑它的每个特征是否像一个苹果具体来说

12:58就是乘一个系数比如说尺寸不大颜色是红色味道很甜

13:04这些都表明这个水果符合苹果的特征因此他们对于是苹果这个判断起到正向的促进作用

13:10我们会把它乘以一个正数而尺寸很大吃起来酸这些特征都表明不太可能是苹果

13:17所以我们把它乘以负的系数最后我们只需要将这些特征各自乘以它们对应的系数

13:24然后加在一起就可以得到一个苹果得分这个得分越高越像苹果

13:30越低则越不像所以我们就可以再设置一个得分的阈值b 如果最后的得分高于b

13:36那么这台机器就激活否则不激活此时整个这台机器就变成了一个苹果识别机

13:43只有你把苹果拿到它面前的时候它会激活亮起右边的灯泡而只要你放在前面的水果

13:50不满足苹果的特征它就不会激活所以根据我们的定义整个黑箱

13:55此时就具备了识别苹果的智能这个黑箱机器的厉害之处在于

14:01你不仅可以用它来识别苹果还可以用来识别其他的水果只需要通过调整这些连接的系数

14:08你就可以表示不同的概念比如说你可以让他在水果又大又绿又甜的时候激活

14:15那么此时这台机器的用途就是识别出西瓜或者在又小又红又酸的时候激活

14:23那么他就可以特别的筛选出山楂这里每一个特征到输出之间

14:29连接的系数就像一个机器的旋钮你只需要根据自己的需要

14:34设置这些旋钮的值就可以让整台机器非常针对性的指对某种水果激活

14:40而这种从输入数据中识别不同水果特征的模式

14:45理解概念的过程就叫做模式识别而这个玩意儿就是人类在1956年

14:51最早提出的一种模式识别的算法模型：感知机哎有人可能会说了

14:57你这个取各种条件合在一起判断的过程看起来和前面的专家系统

15:02好像也没啥区别呀哎你说的很对这是一个很多人都不知道的冷知识

15:08大家通常以为神经网络代表的联结主义从一开始就和符号主义水火不容

15:14分道扬镳但其实感知机这种最早期的神经网络它的设计

15:19很大程度上借鉴甚至是脱胎于逻辑推理其思路同样是组合不同的特征条件

15:27来进行推理这里的每个神经元也就像刚才我们说的符号逻辑当中的一个

15:33一个命题的字母一样只不过他是用数值计算的方式来模拟逻辑的

15:38而数值计算本身不局限于有限且明确的符号推理因而在更广泛的领域

15:45比如说控制环境感知图像识别等领域具有更强大的潜力

15:51这个我们在后面就会看到巧合的是这种设计同样和神经科学不谋而合

15:57中学的时候我们学过神经元通过电信号传递信息其中树突接收不同神经元的电信号

16:04而轴突则会将自己的信号传递给其他的神经元而感知机啊

16:09它也恰似一个神经元你看呢那些传入的数字分别表示它接收到的各种信号

16:16它们可能会激活或者抑制这个神经元的活动而这种影响

16:21就体现在每一条连边参数w的正负和大小上神经元直接叠加所有接收的影响

16:28而如果叠加的刺激足够大它就会激活进一步往后传递这一切

16:34都和生物神经元的活动不谋而合事实上这个数学模型的提出啊

16:39比人工智能还早早在1943年的二战期间 Pitts和Mcculloch在生物物理学通报上

16:47共同发表了神经活动中内在思想的逻辑演算提出了这套神经元的数学模型

16:54你注意看这套名字神经活动中内在的逻辑演算这更加表明

17:00联结主义和符号主义其实是同源的 1957年康奈尔大学的罗森布拉特

17:06造出了人类第一台有实际应用价值的：感知机这台感知机将图片的像素作为输入

17:12通过算法调整参数不断学习最终能够做到判断出一张图片里

17:18是男人还是女人或者是左箭头还是右箭头一时间轰动世界

17:25虽然在今天看来这可能没什么但让我换一个角度跟你解释你就会知道这有多了不起

17:32计算机和人是两种非常不同的东西对于人来说很困难的问题

17:38比如说计算两个十位数的乘法对于计算机来说却很简单但对人来说很简单的事情

17:45对于计算机来说却非常困难比如说理解图片的内容因为在计算机看来

17:51图片本质上是一堆像素的数值所以识别图片中的内容

17:57在数学本质上就是给你一大坨数字组成的矩阵然后问你啊这里面画的到底是一个什么

18:03或者问你这里面到底是个男人还是女人人的长相千姿百态

18:09各种五官光影角度的细微变化都会呈现出不同的图片

18:14导致像素的具体数值出现剧烈的变化而我们要通过纯粹的计算

18:20算出来真实照片里的人是男性还是女性现在你还觉得这整个数学问题

18:28也就是说从图片中看出是什么内容很容易吗人类的视觉和大脑

18:33是不是很不可思议呢而这个领域就叫做计算机视觉

18:39正因此在发明感知机之后啊时年30岁的罗森布拉特意气风发

18:44迫不及待的召开新闻发布会畅谈自己研究成果的美好未来吸引了众

18:50多媒体的极大关注比如说大名鼎鼎的纽约时报记者对感知机的先进性赞不绝口

18:57报道说这是一个能够行走拥有视觉能够写作能自我复制

19:02且有自我意识的电子计算机的雏形他把它称为电子大脑

19:08电脑这个名字最早也是从这个时候来的文章当时还非常乐观的估计

19:14再花上10万美元一年之后上述构想就可以实现那时感知机将能够识别出人

19:22并能叫出它们的名字而且还能把人们演讲的内容及时的翻译成另一种语言记录下来

19:29但经历过现实的我们知道这件事直到最近几年才算真正实现

19:34所以啊真心也好忽悠投资人也罢总之人类对于自己不了解的东西

19:40就是很容易浪漫也很容易对于未来过分乐观历史上

19:45每当人工智能取得一点点微小的进步人类就会开始赋予它无限能力的想象

19:52畅想与AI大战的场景从来如此回到一开始的问题

19:58那究竟该怎么搭建出一个有学习和进化能力的聪明黑盒子呢

20:03感知机就是一个简单的例子专业的说法这些东西啊都叫模型

20:09模型本身确定了它输出的函数形式比如说这里就是先用w i加权组合所有的输入

20:16然后减去阈值b 再激活就是它整个模型的输出这有一套函数形式

20:22但与此同时它又没有完全确定整个函数依然有一系列你需要调节和设定的数值

20:29比如说这里的每个w i和b 它们呢叫做参数我们只需要在设计模型的时候让它足够强大

20:37任何你想要它实现的功能本质上都可以通过设定模套参数实现

20:43那么我们只需要让这个模型不断调整自己的参数不断向着越来越有用

20:48符合我们需要的这种输出的模式变化就可以让它最终实现强大的智能

20:55这就是联结主义的信念这套故事在一开始提出的时候

21:00野心勃勃而且实现了感知机这样了不起的成就但联结主义一度陷入寒冬

21:07甚至被整个世界斥为骗子在最一开始的时候就有很多学者反对联结主义

21:14他们觉得这只是机械的模拟了生物的构造而且神经元建模的也太简单了

21:20而且他们觉得联结主义期待在一通乱联当中发生魔法

21:261969年马文闵斯基写了一本叫做感知机的书正如给你伸大拇指的人不一定是夸你

21:34也可能是想拿炮打你他这本书可不是要推广感知机而是要给感知机下死刑

21:39把棺材板上的钉子钉死闵斯基在书中指出了这样一个事实有一个逻辑电路里非常基本的操作

21:47叫做异或XOR 简单来说就是当输入的两个特征一样的时候

21:52输出是0 而输入的不一样的时候输出是1 就是这么一个非常简单的对应关系

21:59感知机却无法完成为什么会这样呢我们仔细看感知机的函数形式

22:05就会发现它本质上是在计算W1x加w2y减b的符号

22:12假如我们把所有的这样的x,y输入画在二维平面的坐标系上那么能够让感知机激

22:19活的所有输入满足w1x加w2y减b大于0

22:24中学的小伙伴可能会很熟悉这其实啊就是一个线性规划所以说能够激活的

22:30满足条件的输入和不激活的分界线永远是一条直线

22:35然而对于异或问题你会发现需要激活的这两个点和不激活的这两个点

22:41是这样分布的你永远没法用一条直线将这两种点恰好分在直线的两边

22:48所以呢就不存在一台感知机能够直接实现这个简单的异或运算

22:55闵斯基在这本书里直接毫不客气地说罗森布拉特的论文没有什么科学价值

23:01他本人在同年获得图灵奖这本书也因此将整个联结主义打入冷宫

23:08在之后的二三十年间神经网络这个名字仿佛就是骗子的代名词

23:13是连疑惑这个操作都做不好的无用的玩物在当时图灵奖得主的带头唱衰下

23:21神经网络一度陷入了极度的寒冬所有人都认为他是垃圾和骗子

23:26基金资助大为减少研究者纷纷转行 AI研究也因此陷入长达几十年的寒冬

23:34你看人类又是这么容易悲观一个小小的反例就自暴自弃

23:39放弃了充满潜力的研究方向但与此同时依然有一批研究者在坚持

23:46他们最后守得云开见月明成为了后来深度学习的奠基人并获得图灵奖

23:53我们可以听听图灵奖和诺贝尔奖双料得主辛顿当年在UCD大学

23:58接受采访的时候的一段表达 looking back at your career 回望你的整个学术生涯

24:05what aspects of it are you most proud of 你对其中的哪个方面最为自豪？ i’m not necessarily just thinking about your discoveries 我并不仅仅在说您的科学发现

24:12but maybe other aspects of your career as well 而包括您更大的整个生涯 the people who worked with the teams that you’ve built 那些与你合作的人，你建立的团队

24:17i guess i’m proud of the fact that i stuck with neural networks 我想我最骄傲的是我当年坚持了神经网络 even when people said they were rubbish 尽管当时人们都说这是垃圾 which was for about the first 40 years 而且说了整整40年

24:27but the intellectual achievement 在智力上的学术成就 i’m most proud of is boltz machines 我最自豪的是玻尔兹曼机 which were an alternative to back propagation 它是反向传播之外的另一种可能

24:35他们是怎么拯救神经网络的呢回到刚才异或的例子他们想既然一个神经元不行

24:42那么多来几个可不可以呢比如说我们将这些感知机的输出啊

24:48一个一个的拿出来然后在后面再嵌套接一层感知机作为他们下一个感知机的输入

24:56我们一套娃，套娃一层又一层出来一个新的感知机这样

25:01我们就可以让中间一层的两个神经元分别只被0，1和1，0激活

25:07比如说第一个神经元它的组合系数是1，-1 此时呢就只有1，0这个输入能给它最强的刺激

25:14大小为1 其他的都不超过0 所以我们如果再设置一个1/2的阈值就可以

25:19让它只在1，0这个输入的时候激活同理呢我们也可以对另一个神经元

25:25在0,1的情况下才会激活设置方式呢是系数-1， 1

25:32这样的话两个中间的神经元就可以分别关注两个我们想要激活的位置

25:38接着我们再把这两个神经元的输出直接加在一起大于0的时候给出最终的激活

25:45这样整个模型就可以刚好在1，0和0,1的时候激活而在0，0和1，1的时候不激活

25:52从而实现异或功能而这就是后来大名鼎鼎的MLP Multilayer Perceptron

26:00全名多层感知机这里中间层当然可以不止两个神经元

26:06层数也可以不止两层当这些神经元层层叠叠的时候就是大名鼎鼎的神经网络

26:14这里的每一根连线都标志着两个神经元之间的连接强度

26:19是一个可以调节的参数系数计算机科学家证明只要这个神经网络的深度和宽度

26:26都足够大那么理论上它可以拟合任何一种函数表达任何一种智能所需要的

26:32输入到输出之间的对应关系换言之只要你有一个超大的神

26:37经网络那么任何一个你想要的智能黑箱的功能都一定可以通过设定一套参数实现

26:44该怎么理解神经网络这种强大的能力呢还记得我们前面说过吗我们用不同的属性概念组合再激活

26:52就得到了一个可以识别苹果的感知机的智能而如果我们在感知机上继续套娃

26:58就可以不断地把原本简单基础的概念组合成更复杂的概念

27:04例如在数字识别的这个神经网络中啊最前面的神经元啊就负责识别一些非常基础的笔画

27:12和边缘而往后层的神经元呢就负责将这些基础的特征组合

27:18识别出一些更复杂的概念比如说圆形横线竖线折线等等

27:24接着更深的神经元可以组合这些线条图形识别出复杂的数字

27:29比如说9就是一个环形加上右下角的尾巴随着层次的加深

27:35神经网络逐渐从简单的这些特征推导出复杂的整体形态最终准确地识别一个复杂的概念

27:42而整个这个过程不需要任何人类专家知识的介入是他自动完成的

27:48而这正是神经网络的强大之处随着时间的推移神经网络的技术也不断的进步

27:55前面我们看到的多层感知机只是最经典最基础的一种如何设计更好更强大的模型结构

28:02一直是深度学习的重要课题比如真实世界里动物的视觉

28:08神经系统的神经元呐不需要和前一层的所有神经元全都稠密的连接

28:13而只需要和局部的几个神经元连接就行而且每个神经元和前一层连接的参数

28:20结构又都是类似的那么我们设计神经网络的时候也可以借鉴这一点

28:25从而减少参数和运算量提升神经网络的性能这就是大名鼎鼎的卷积神经网络CNN

28:34后来研究人员发现卷积层堆的多了训练起来有困难又增加了一种跳跃式的连接

28:40这就是残差网络Resnet 或者你可以把任何两层都跳跃连接起来

28:46这就是denset 再到今天GPT的基础框架Transformer 也就是attention

28:52它们本质上都是某种网络的基础框架结构然后有大量的参数需要去决定

28:59一个好的结构可以让黑盒学的更快需要的数据更少而这就是深度学习

29:04曾经一个非常重要的领域神经网络结构设计你肯定会问

29:09神经网络这么强大可以自主地发现数据中蕴藏的结构理解概念他究竟是怎么做到这一点的呢

29:17答案就是用数据训练通过奖励和惩罚来引导神经网络形成智能

29:22但我们应该究竟怎么奖励惩罚一个神经网络呢其实从GPT到Alphafold

29:29再到Midjourney和各种强化学习各种复杂又先进的人工智能模型

29:35几乎无一例外的都在使用着同一种算法来训练网络找到最好的参数

29:41而这个算法就叫做梯度下降特此说明啊这部分内容的数学知识很多

29:47而且技术性很强但因为它实在是太重要了所以我们必须要讲因此呢你实在听不懂也没有关系

29:54具体的我将沿用油管博主 Artem Kirsanov的视频和思路为大家讲解

30:00在讲解梯度下降之前先让我们简单回顾一下前面的内容我们首先提到

30:05智能的本质是一个黑箱这个黑箱能够从数据中找到输入和输出之间的对应关系

30:12换言之，在数据驱动的机器学习和统计学习眼里所谓的智能

30:18本质上就是给你一堆点然后用一个函数你和他们之间的关系罢了

30:23这里的x和y 可以是任何你关心的两个量只要学会了一个

30:29可以刻画这些点趋势的函数我们就可以获得任何一个输入对应的合理输出

30:35换言之实现了智能该怎么找到这些数据点所勾勒出的底层规律呢

30:42根据前面的内容你可能会想到神经网络这当然是一个办法不过这里呢为了理解梯度下降

30:48我们先用一个简单一点的方法找到这个函数比如说我们线性组合常数x

30:56x平方，x3次方 X4次方 X5次方这几个简单的单项式模块

31:02换言之我们想要找到一个五次多项式来刻画这些数据变化的规律

31:08我们需要找到K0到K5 这六个参数最好的组合

31:13那什么样的参数是一个好的组合呢我们需要一种定量的方式来度量一组系数所对应的多项式

31:21到底拟合的好不好而这就是损失函数其实大家早就见过损失函数了

31:28中学学过最小二乘法其实就是用一个简单的y等于k x加b的线性函数来搭建黑箱

31:35对每个数据点线性函数的预测和实际结果都会有偏差我们把这些偏差的平方

31:41加在一起就得到了这根直线的损失函数在复杂的非线性里

31:46损失函数也是一样的道理我们同样把函数预测的数值和实际数据点的数值误差平方

31:54加到一起就得到了这个函数的损失函数你可以看到当这个函数的预测

32:00越是贴合这些数据点的趋势时损失函数加在一块就会比较小

32:05而反之呢损失函数就会比较大大体来说损失函数就是在衡量一个模型预测的

32:13和真实的结果之间的偏差程度只需要记住，掌握规律就等于损失函数很小，就可以了

32:21请注意这里出现了两种函数大家不要混淆第一种是我们用来拟合数据点的这根曲线

32:28我们叫它拟合函数也就是那个五次多项式它的输入是x

32:34输出是y 我们需要决定这6个参数输入到输出的可能函数有无穷多个

32:40我们想要找到最好的那一个而什么叫最好呢哎为此我们提出了损失函数

32:47它衡量一个拟合函数到底好不好是一个打分机器它的输入是多项式的这6个系数

32:55接受到这些系数之后呢它会先构造出这个拟合的曲线函数

33:00然后呢逐以比对计算在所有数据点上的偏差将它们平方加在一起之后

33:07就会得到最终的损失函数的输出了我们只需要找到使得这个损失函数很低的输入参数

33:15组合K0到K5 我们就可以找到一个出色的拟合函数

33:20而有了这个拟合函数之后我们就可以把这个拟合函数机器拿过来输入任何一

33:26个我们关心的x 得到一个符合数据规律的合理的y

33:32你可以理解为我们在玩这样一个游戏每一个参数k啊是一个旋钮

33:38它们通过设置这个系数会产生一个不同的多项式曲线而你的目标就是调节这些旋钮

33:45让这跟拟合函数的曲线和数据点比较贴合事实上神经网络干的事情

33:51本质上也是完全一样的只要把这里的k 改成神经元之间的连接系数和阈值b

33:58那么训练神经网络同样也是一个调节参数旋钮来降低损失函数的游戏

34:06这个游戏难点在于旋钮实在是太多太多太多了你看这个5次多样式有6个参数旋钮

34:14已经让人非常头大而神经网络的参数个数更是多到离谱

34:19举个例子 GPT3一共有1,750亿个参数换言之你要同时调好1,000多亿个旋钮

34:27并且让这些旋钮组合起来的设置可以有很好的性能能够跟你对话解决问题

34:33是不是听起来很不可思议呢这几乎是一件不可能的事情在数学上

34:39这个问题叫做非凸优化求解它的难度是臭名昭著的大

34:45这个问题啊也一度困扰着联结主义的研究者们也是神经网络这一派研究

34:51一直没有真正发展起来非常重要的原因因为一旦你的模型做大做复杂

34:57你虽然觉得它很强大但是你找不到好的参数让它实现这种强大

35:03直到后来 1976年由Seppo Linnainmaa提出了一个巧妙的算法

35:08梯度下降并在1986年由David Rumelhart Geoffrey Hinton和Ronald Williams共

35:14同提出了反向传播算法才算真正解决了这个问题让我们先从最简单的地方开始

35:20假设这里除了K1之外的五个旋钮都已经被固定好了我告诉你已经有人把它设置在了最好的位置上

35:28现在你只需要去考虑把K1这个旋钮调好那么到底该怎么办呢

35:34哎我们可以调节它观察这个损失函数的变化此时你会发现

35:39损失函数就从原来的6个输入变量变成只有一个变量K1 哎这是一个一对一变化的函数

35:46我们很容易做图做出来的图大概长这样我们的目标就是找到它的最低点

35:53不过不要被这里的图误导了我们是解释方便所以直接把这个图像画出来

35:59但实际上我们并不知道这个整个图像我们知道的只是某一个具体的K1

36:06下这个拟合函数长什么样然后算出来这个K1对应的损失函数有多大

36:12所以说我们只能得到一系列离散的点对于每一个输入点知道函数值是多少而在这些点中间的位置

36:19损失函数到底是怎么变化的我们是全然不知的你会发现优化神经网络

36:25甚至比求损失函数的最小值更复杂因为你没有办法看到整个损失函数的全貌

36:32这就好比把你放到了一片地形高低起伏极其复杂的山地上

36:37每个参数的数值就好比是经纬度而海拔高度是损失函数的大小

36:43周围大雾弥漫你只能看到自己脚下的地形你该如何下山走到一个海拔比较低的地方呢

36:51还是用这个K1的例子刚才呢我们有一句话说的其实不是很对那就是我们知道的信息

36:57其实还是比纯粹的损失函数大小要多一点具体来说我们还可以知道在某一个位置下

37:05损失函数到底随着K1的增大是增大还是减小用数学一点的说法就是

37:11我们可以获得损失函数在这一点切线的斜率更专业的说法是导数

37:18这个方法呀大家调洗澡水和收音机的时候其实都用过那就是你可以把旋钮先往某一个方向

37:25转一点点 Delta x看看是更好还是更差比如说这里我们初始在X0的位置

37:32损失函数是Y0 然后增加了Delta x 到了X1的位置之后我们再看看损失函数变成了Y1（口误）

37:40所以我们就会发现损失函数增加了一个Delta y 也就是说它变差了那这个时候你就知道

37:46洗澡水应该往反方向调所以当我们的调节变化量 Delta x无限小的时候

37:53Delta y和Delta x变化量的比值会接近于一个定值那就是损失函数在这一个点切线的斜率

38:01而这就是函数在这一点的导数在变化很小的时候函数值y的变化量正比于x的变化量

38:08而这个比值就是导数所以我们就用一句话来概括一下

38:14梯度下降的精神那就是每次减小一点点我们每次看看要减小损失函数

38:20我们现在的这个位置应该往哪边走然后呢就往这个方向走一个很小的距离

38:26接着呢再看导数再走不断重复上述流程这样我们就可以不断地缩小损失函数

38:33直到最后停在底部参数基本不再变化此时我们就成功地将损失函数

38:38减小到一个很低的程度现在我们已经清楚了怎么调节一个旋钮

38:44但这有一个非常不现实的前提那就是其他5个旋钮已经调到了最优的状态

38:50并被固定住现实中你要同时调节好多旋钮而且所有的旋钮都没有调好

38:57这个方法有什么用呢哎有用事实上刚才我们的这个方法

39:02可以非常容易的拓展到更一般更复杂的情况比如说假设

39:07你现在要同时调节K1和K2两个旋钮此时损失函数变成一个输入是两个实数

39:15输出是一个实数的二元函数它可以表示成一个二维的曲面

39:20哎这就是很多人经常听到的损失曲面这里 K1 K2的损失曲面看起来就像一个碗

39:28且慢二元函数的导数是个啥呢现在有两个旋钮所以调节的方向出现了奇异

39:35到底是只调K1 还是只调K2 还是都调呢这里就涉及到偏导数的概念

39:42我们可以固定K2 只而只变化K1 此时我们就得到了损失函数对K1的偏导数

39:49反过来固定K1 只变化K2 此时就得到了对K2的偏导数

39:54它对应于我们固定K2或者K1当中的一个然后单独的调节另一个旋钮时

40:01对损失函数输出的影响几何意义上这意味着我们用两个垂直于坐标轴的截面

40:07和曲面相交截面会切出一根曲线来然后我们再求这根曲线的导数

40:13将这两个导数拼在一起我们就得到了那个你经常听说但可能不知道是什么的东西梯度

40:21梯度说白了就是在某个给定位置函数值变化最快的方向也是曲面在局部最陡峭的方向

40:29是一个二维版本的求导有了它我们就可以重复刚才的流程每次向着局部

40:35损失函数下降最快的方向前进我们完全就可以用刚才类似的方法愉快的同时调节两个旋钮了

40:42这个方法就是大名鼎鼎的梯度下降你想既然两个可以

40:49那么这套方法就可以应用到任意多个旋钮这个问题里完整的损失函数

40:55是一个复杂的六维曲面那我们还是可以如法炮制对每一个旋钮

41:00我们都固定其他的旋钮然后单独看这个旋钮和损失函数之间

41:05它的变化关系是什么样的增加它损失函数是增加还是减小这样我们就能得到每个旋钮的偏导数

41:12拼在一起得到了一个6维的梯度接下来我们只需要让每个旋钮

41:17都向着对应的方向不断迭代去减小损失函数从而拟合出这些数据底层的规律了

41:25现在我们知道梯度下降法可以优化网络找到损失函数比较低的参数

41:30可是面对一个层层堆叠的非常复杂的神经网络我们怎么计算出这个梯度呢

41:37这个问题啊非常专业答案是反向传播back propagation

41:42这是一个专门用于计算复杂的神经网络梯度的算法也是很多人学习深度学习

41:48被劝退的第一步这里我们不详细展开反向传播具体的细节只告诉你它最精髓

41:54的思想不管是神经网络还是刚才我们的多项式拟合本质上

41:59我们都是用一些非常简单的基础运算比如说加减乘除啊

42:04平方啊指数啊之类的不断的组合复合迭代形成了一个超大的复杂的函数

42:12它们就像我们用一个个基础的积木一样拼接成一个庞大的机器

42:17我们关心的无非是每个旋钮参数的梯度用最直白的话说

42:22我们关心每个旋钮动一点点最后面的损失函数随之变化的关系

42:29而这个信息是可以由后到前层层传递的为什么呢

42:34因为每个基本的这个积木的求导我们都很清楚而积木在组合过程当中

42:40梯度是怎么样组合变化传递的我们也很清楚你看中学我们就学过了

42:46求导的基础法则加在一起求导等于各自的导数相加乘在一起求导呢

42:52则是这个结果除了上面说的相加和相乘还有一个最重要的性质

42:58那就是链式法则如果我们先把一个x 送入了一个函数g

43:03再把g(x)这个输出当成输入送入函数f 那么这整个过程合在一块

43:09依然是输入一个x 输出一个数值它也是一个函数是f (g(x))比如说在这里

43:16如果一个是正弦一个是log 那么它的图像大概长成这个样子问题来了

43:22我们知道f和g各自的形式和各自的导数应该怎么求它这个合体的函数对于x的导数呢

43:30那么现在假设我们把输入x变化一个Delta 根据导数的定义我们知道

43:35第一个g(x)在输入变化Delta的时候它的输出会变化的比例是g'(x)

43:42所以你就知道这个中间的这个输出g(x) 此时会增加g'(x)乘以Delta

43:49那么进一步呢对于后面的这个FX来说注意到它的导数是f'(g(x))

43:55所以说当它的输入变化了中间这么大的数值的时候它的输出就会在中间这个变化量上

44:01进一步乘以f'(g(x)) 也就是这么大当我们把右边的这整个

44:07除以x的变化量Delta的时候就可以得到链式求导的法则也就是说先做g(x)

44:14再做f(x)一起求导得到的结果是g'(x)乘以f'(g(x))

44:21这就是复合函数的求导如果用前面积木的比喻你可以想象有三个齿轮相互咬合

44:29它们转过的角度啊就分别代表x,g(x)和f(g(x)) 而导数g'(x)呢

44:36就表示第二个齿轮g(x) 相较于第一个齿轮x 传动的速度之比

44:41那f'(g(x))呢就是第三个齿轮相当于第二个齿轮g(x)传动的速度之比

44:46如果我们想要知道变动一点点第一个齿轮x 第三个齿轮到底变化的速度会有多快

44:52我们就只需要把这两个齿轮的传动比乘在一起就可以了这就是链式法则有了链式法则

44:58我们就可以从后往前一步步拆解得到每一个参数的导数这是因为任何一个参数

45:05从它到损失函数一定是经过了一系列函数的复合到最后一层输出就是模型预测本身了

45:12我们可以直接计算损失函数以及它的导数接着我们就可以用刚才的链式法则

45:18一层一层从后往前的把每一层嵌套这个传导的导函数

45:24一步一步的乘在一起当我们回到最开始K1的位置的时候就得到了K1相较于整个输出

45:32损失函数的梯度而这个算法就叫做反向传播back propagation

45:39所以我们最后总结一下找到这个几百万个旋钮机器最好参数设置的方法

45:44就是用反向传播算法计算出每个参数的导数接着呢用梯度下降法

45:51每次让这些参数变化一点点不断地向着更好的参数演化和移动

45:56最后整个神经网络就会神奇的理解掌握数据中的规律学会底层函数

46:02并获得这种我们想要的智能在前面的内容中我们详细讲解了智能就是搭建黑箱

46:10以及神经网络这个强大通用的黑箱的构造和由来是什么还有如何训练一个神经网络

46:17不过这里还有一个非常重要的问题这个神经网络的黑盒是怎么举一反三的呢

46:23你看呢我们只是收集了一些数据然后训练它在我们收集的数据中

46:29对于见过的输入比如说这张数字图片它要输出成我们想要的输出6

46:35那他见过这些东西能够把它正确识别成6并不奇怪但是对于从来没有见过的其他图片

46:43训练好的网络是怎么能够同时认出其他的数字的呢

46:48这就好比你给一个人做了很多题他能够把你给他的练习册的题做对

46:54不奇怪但是他是怎么样学会这些解题的方法在新的题上考试也能考好的呢

47:02这个问题其实很深刻它涉及到机器学习能够成立的一个非常重要的问题

47:08泛化generalization 这个名词看起来很高端但正如我们刚才所说的

47:14它的本意就是推广举一反三活学活用我们还是从前面的最小2乘说起

47:22以及曲线拟合思考这样一个问题对于中间这个位置输入的x

47:28我们没有任何y的数据但你还是会觉得它应该就在这个范围里

47:35为什么呢没错因为这些零散的数据点勾勒出了一种趋势

47:41当我们用这样的一个连续平滑的函数准确地刻画出这种趋势之后

47:46就可以利用这个函数推测数据中我们没有见过的某一个输入下

47:52对应的合理的输出大概应该是多少这其实就是一种最简单的泛化

47:58我们将这种关联的趋势理解并且推广到我们没有见过的一些输入数值

48:05通过理解底层规律在未知情境下给出合理的预测和输出

48:10那同样的神经网络也有泛化能力而且是很强的泛化能力

48:17虽然在训练数据中他没有见过一模一样的图片但是呢他可以在训练过程中

48:23发现这些输入的图片和标签之间的趋势和这种微妙的关联性

48:31这种关联啊就跟我们前面的曲线拟合的时候中间断开的那一部分

48:36看起来应该要这样连线所以你可以预测那其中的函数值一样

48:42只不过在我们现实的数据里这个趋势可能非常抽象不如刚才的曲线拟合这么直观

48:49而这正是神经网络强大的地方你只需要提供数据那么底层抽象的趋势和规律

48:56只需要交给神经网络他自己学就可以学明白了很多行业和学科

49:01其实都面临着这类问题就是不同的情境里有一种感觉和规律

49:07这种感觉和规律难以用简单清晰的数学来计算和描述

49:12比如说围棋里这一块棋形看起来好不好能不能活有经验的棋手一眼能看出来

49:20行话叫做味道不好但是怎么样学会这种感觉和味道却非常复杂

49:26还有在说话这个问题上一句话前面的语境下后面该接上一个什么样的话

49:33也是一种复杂和微妙的语感但是怎么学呢很难说更不用说从氨基酸序列里

49:40分析出整个蛋白质结构这种极为抽象复杂的规律

49:46曾经我们需要非常专业的知识来模仿人类的聪明智慧而且模仿的还不好

49:52而有了深度学习你可以不管三七二十一只需要找一个架构合适的神经网络

49:58收集数据训练拟合然后这个神经网络就能领会数据当中

50:03你所描述的输入和输出间微妙的联系并举一反三应用到任何潜在的

50:09他没有见过的情景输入中很多时候做的比人都好这种公式一样的解决方案非常通用

50:17因而席卷了各个领域引发了这些年的人工智能革命

50:23但是神经网络和深度学习是万能的吗答案当然是否定的

50:29每当有一个很厉害的方法可以实现以往不可思议的任务时人类就有把它当成魔法的倾向

50:35尽管深度学习的确模仿了大脑的神经元结构但是它和真正的人类智能还有很大的区别

50:42我们都见过这样的梗图该怎么区分柴犬和面包说它们看起来有很多相似之处

50:48比如说都是黄色的呀长条形的呀什么难以区分这原本是一个玩梗

50:54但对于一切机器学习算法来说这都是一个根本且致命的问题

51:00因为你看这个模型它一直就是通过各种图像的特征输入和你要它的这个标签

51:07来理解图片的内容的所以它在训练当中所理解的事情就是

51:13一个黄色的长条形的物体是面包因此当你给它一个在训练集以外的柴犬

51:19图片时它会因为这个柴犬符合面包的各种特征而产生错误的判断

51:26这本质上是概念之间的相关性和因果关系之间微妙的区别

51:32他没有把握而这个问题在收集数据训练模型的这一套方法论中

51:38永远无法避免这就是为什么有很多用神经网络啊算命

51:43或者预测犯罪机率的应用广受批评因为模型会错误的把数据集里的共同出现

51:51当成必然联系比如说看到黑人就觉得一定会犯罪这个样子更糟糕的是

51:56你可能永远不知道强大的神经网络黑盒究竟领会了什么神秘的联系

52:02因为神经网络太过强大和复杂所以我们几乎无法理解它的内部是如何运作

52:07给出我们想要的合理预测的一个典型的例子是对抗样本这是两张图片

52:13你能看出它们有什么区别吗但如果让一个准确率非常高的最先进的神经网络

52:19来看第一张图片他觉得是熊猫但第二张图片他以99%的信心认为是一只乌龟

52:27仔细看你会发现第二张图片相较于第一张添加了一些十分微小的噪声

52:33而这些噪声可不是乱来的它经过了特别的设计专门用来欺骗神经网络

52:39这种图片就叫做对抗样本对于它的理解和研究直到现在还在进行

52:45而我们依然没有彻底理解它大家一般认为它触发了神经网络底层某些神奇的开关

52:52这些在人眼看来杂乱无章的噪声在神经网络看来却有着强烈的乌龟的特点和相关性

52:59看到这里你还觉得神经网络无所不能吗

1:25:34有关AI很多人关心的切身问题是他会让我失业吗总的来说

1:25:39深度学习和神经网络提供了一套全新的智能思路你只要收集数据再用梯度下降的方法

1:25:45训练一个好的神经网络就能让这个超级黑箱理解数据中的规律从而举一反三

1:25:51对任何未知的情景输入给出智能的预测这的确是一场革命

1:25:56它让AI解决了很多曾经只有人类才能完成的非常微妙复杂数据庞大的任务

1:26:03因此如果一个工作他数据充足模式固定其中机械性按部就班的性质比较强

1:26:11那么你就很容易收集大量的数据用于训练 AI就可以在基础的日常使用中

1:26:17相当程度上替代人工从这个角度上来说文秘插画摄影翻译财务

1:26:25甚至是底层程序员这些职业都会在未来面临极大的冲击

1:26:31然而正如前面所提到的那样如今的人工智能绝非万能相反很多时候它还是人工智障

1:26:46即便是现在的大模型依然在很多复杂的问题上表现的不够理想 AI在面对超出训练数据范围的

1:26:54全新问题时往往还是难以做出合理的判断实际上我认为

1:27:00AI的发展更有可能改变工作的性质而不是完全取代它比如说文秘工作

1:27:06可能会因为AI的介入变得更加高效人类将在监督和决策的层面上

1:27:13进行管理而并非亲自处理那些琐碎的事务同样设计和创意类的工作

1:27:20比如说插画广告等等领域尽管 AI可以为你生成一些初步的作品

1:27:25和基础的素材但真正打动人心的创意和灵感目前还是需要人类的参与

1:27:32同样的它可以帮助科研人员写文章改病句甚至是进行一些简单的公式推导

1:27:39和代码撰写但是真正的科研的idea还是得自己去想

1:27:45AI生成的内容往往缺乏人类情感的深度模糊和复杂性

1:27:50这也是它在某些领域难以超越人类的根本原因更重要的是

1:27:55目前的AI 还缺少在现实世界中交互的能力自动驾驶机器人这些领域

1:28:01AI的发展速度远不如大众想象的那么乐观所以总而言之

1:28:07AI的确会对一些职业造成影响尤其是那些重复性高模式固定的领域

1:28:12但同时它也会带来新的机遇未来的关键在于如何积极地适应这种变化

1:28:19提升自身的技能以便更好地与AI协同工作而不是被它所替代

1:28:24人类的创造力情感和智慧依然是AI无法模拟和完全超越的

1:28:31你也可以投入AI的潮流中就以这期视频为起点开始学习多看几遍

1:28:36打不过就加入嘛也不失为一种好的策略以上就是这期视频的全部内容

1:28:43制作真的很不容易还希望大家点赞收藏多多支持如果

1:28:48你以后想看到更多类似的深度科普记得关注我漫士沉思路学海引路不辛苦

1:28:54我们下期再会

发表评论 取消回复

发表评论取消回复