人工智能机器学习神经网络 这些听起来高大上的词汇 你是否还一知半解
0:07GPT大语言模型生成式AI 这些频繁出现在商业报道 乃至于日常生活的前沿技术
0:14你是否好奇 它们的发展、渊源和基本原理? 万物皆可AI的时代
0:20你是否担心被割韭菜或者被动失业 这期视频耗时半年 专为零基础的观众打造
0:26将实打实讲明白人工智能的来龙去脉 我是漫士 一位毕业于清华
0:31姚班的人工智能博士生 从本科到研究生 所有AI课程全部满分 排名年级第一
0:37目前正在从事深度学习理论的研究 刚刚从普林斯顿回国 视频制作实在不易
0:43还望点赞多多支持 看不完可以收藏或者关注我 之后慢慢看
0:501956年 一群科学家齐聚达特茅斯开了一场会 这场会议持续一个多月
0:55一共只有十来个人参加 但个个都是大佬 他们包括 达特茅斯的数学系教授麦卡锡
1:02哈佛大学数学与神经科学研究员 闵斯基,IBM主管罗切斯特 信息论发明人香农等人
1:09但就是这样一场很小的会议 深刻的改变了几十年后世界的样貌
1:158年前战胜李世石的AlphaGo 如今能帮我们解决各种日常问题的GPT
1:21本质上 都起源于这场会议所发起的研究 如何制造出一种可以不断学习
1:27并模拟人类智能的机器呢 这个领域在2018年拿到图灵奖之后
1:33又在今年 一举斩获了诺贝尔物理奖和化学奖 是的这个领域就叫人工智能
1:40而这场会议 也被视为开创人工智能的起点 达特茅斯会议
1:47人工智能,说白了就是人工搭建起一套智能 要实现这个目标 首先就要回答一个非常根本的问题
1:54什么是智能 我们想想 生活里什么时候 我们会觉得一个物体有智能呢
2:07比如说我们跟狗狗说话 让它坐它就会坐下 让它叫它就会叫两声
2:12你骂它两句 它就会一脸幽怨的盯着你 此时我们会觉得哎 这只小狗很聪明
2:18有灵性有灵性 本质上就是说 狗是一种有智能的生物
2:24和石头什么的不一样 你无论怎么叫一块石头 它都无动于衷 所以是一个死物
2:30正因此尽管有关智能的定义千千万 但他们都逃不开这样的核心
2:36智能本质上就是通过 收集信息 对于不同的情景作出针对性的反应
2:43中学有一个很有意思的小实验 那就是观察草履虫的应激行为 在另一端滴上肉汁
2:50草履虫就会跑过去 而加上几粒盐 它们就会四散逃跑 正是这种针对环境的变化
2:57趋利避害的运动 让我们相信 这些水中的小颗粒 是一种有智能的生物
3:03而不是无生命的灰尘 事实上如果你看到有一些草履虫 没有了趋利避害的反应
3:09这就说明一个很简单的道理它们死了 智能随着生命消失
3:15既然智能说白了就是看情况做事 那么所谓人工智能 同样就是搭建起一个
3:21根据不同的环境信息 给出针对性的输出和回应的系统
3:26这个输出可以是动作语言 也可以是一种判断和预测
3:32比如说人脸识别可以根据不同的人脸 针对性地反馈出不同人的身份信息
3:39AlphaGo 可以对于各种不同的复杂棋局的情况 给出最佳的下法
3:44争取胜利 GPT可以根据上文 不同的问题和任务的要求
3:49针对性地跟你说话并解决问题 因此它们都是智能
3:55设想一下 如果人脸识别 把所有的人都认成了张三 AlphaGo在棋盘上到处乱下
4:01GPT的回答牛头不对马嘴 那这个AI的全称应该叫artificial idiot
4:07人工智障 总而言之 智能的本质就是一个不会乱来的黑箱
4:13或者用数学一点的说法 智能就是找到情景信息的输入
4:18和我们想要的聪明的行为输出 之间的函数对应关系
4:24这里给大家听一段来自美国的 老爷子Thomas Garrity激情四射的演讲
4:29相信你会对这个函数有更深的体会 functions 函数
4:36describe 描述了 the wor~~~~ld 世——界——!
4:44everything is described by functions 世间万物都被函数所描述 the sound of my voice on your eardrum, function 我的声音传到你的鼓膜,是函数!
4:52the light that’s kind of hitting your eye balls right now 那些正在照射向你们眼睛的光 function! the entries you put in your random matrices 也是函数!那些你在矩阵中随机设置的数值
5:00function! it’s all~~~ function 还是函数!全——都是函数! different classes and mathematics 不同的领域 different areas and mathematics study 数学不同方向的研究
5:05different kinds of function 研究不同的函数 high school math studies 高中数学研究 second degree one variable polynomials 单变量二次函数 calculus studies 微积分研究
5:11smooth one variable functions and it goes on and on 光滑的单变量函数,各种地方都如此 functions describe the world 函数,描述,世界!
5:20你也能更好地理解图灵测试 因为图灵测试它就在说 如果人无法区分是在跟人还是AI聊天
5:28那么这个AI就实现了人的智能 它本质上正是在说 所谓AI本质上就是它所定义的
5:36输入到输出的这个黑盒的函数关系 它跟你回应的话和人没有任何区别
5:42那么这就是一个类似于人的智能了 问题来了 该怎么做出这样一个聪明的黑箱呢
5:48科学家针对这个问题提出了很多思路 例如有一批人 从数学的形式化推理体系中得到灵感
5:56主张 智能可以用符号的逻辑推理来模拟 这就是符号主义symbolism
6:02举个例子 a表示阴天 b表示湿度大于70% t表示将要下雨
6:08那么知识是一条逻辑规则 如果a和b是真的 那么t就是真的
6:14所谓智能 就是看到阴天和湿度很大 明白a和b都对 那么利用这条规则
6:20推出t是真的 从而预测到可能将要下雨 这些人类的推理和思考
6:27都可以从这些符号和规则当中 像算数一样计算出来
6:32因此符号主义相信 智能正是一套 像这样处理符号和规则的计算系统
6:39他把人类的知识和逻辑 用如果a 那么b这样的规则存储下来
6:45然后呢不断进行符号推演 就可以实现接近人类的智能 这套思路最成功的典范
6:52就是曾经的专家系统 他咨询人类的医学专家 什么样的病可能会有什么样的症状
6:59接着把这些规则全部记录下来 只要利用这些规则 就可以根据已有的信息给出预测
7:06实现一个智能的黑箱 这套系统 一度在疾病诊断和金融咨询领域
7:12获得了很大的成功 但随着时间推移 它也逐渐暴露出致命的缺陷
7:18首先很多时候 现实世界没有那么清晰的规则 即使询问人类专家
7:24出现某个症状 是不是得了某个病 或者股票走势长成这个样子 应该是买还是卖
7:30他们给出的回答往往都并不一致 那你的系统只能选择一个
7:36到底该听谁的呢 更要命的是 这套系统完全是在复制人类经验
7:42所以他的能力上限就是专家的水平 无法做到比人更好
7:48而且从你设计完成这套系统开始 他就永远是静止不变的水平
7:54很难像人一样 随着经验和时间的增长 水平不断继续提升
8:00正因此从上世纪70年代开始 另一个人工智能流派开始发扬光大
8:06他不追求一开始就有一个 完美的黑箱 但允许这个黑箱不断的变化
8:13通过不断的引导和学习 让他在某一个任务上表现的越来越好
8:18哎没错 也是一种成长型的心态 这种思路啊 就像训狗
8:23你发出坐的指令 如果他坐下来呢 你就奖励他狗粮或者摸摸狗头
8:29如果他没听懂或者瞪着个眼睛 你就给他一逼斗 久而久之
8:34狗这个黑箱就会越来越明白 你发出坐这个指令 和他需要坐下来的这个行为
8:41之间的关系 就像条件反射一样 之后只要听到坐这个命令的输入场景
8:49他就会给你坐下来这个动作 于是一只会听指令的聪明小狗
8:54就训练完成了 这个流派的名字也很生动 就叫做机器学习
9:01顾名思义 就是把在学习的对象从狗变成了机器 通过给机器以奖励或者惩罚的方式
9:09让机器自主调整 不断学习 从而学会解决某一种任务的智能
9:15这个任务 可能是识别图片里的数字和人脸 也可能是下围棋或者是与人对话
9:22等等等等 机器学习的强大之处在于 它不需要任何专家的专业知识
9:29来人为搭建黑箱内部的结构 它只需要两样东西 一个强大且有学习能力的黑箱
9:36以及足够多的数据 举个例子 假设 你想要一个能够识别数字的智能黑箱
9:43那么 只需要准备一个具有学习能力的机器 然后收集很多数字的图片
9:48人工标注出每张图片里的数字是什么 接下来你只需要像训狗一样
9:54把一张张图片展示在这个机器面前 让他预测里面的数字到底是
9:59什么如果他预测对了 你就给他奖励 错了呢你就给他惩罚
10:04让这个机器不断的自我调整 当他见过的图片越来越多之后
10:10就能够神奇的做到 正确识别这个图片里的数字是什么了
10:16相信你现在心里肯定有一个疑问哎 哪来的黑箱这么神奇 能够像狗和人一样越学越机灵
10:24而且给狗奖励是喂狗粮摸摸头 给机器奖励和惩罚又是怎么一回事呢
10:30难不成是多给点电吗 而且 狗的条件反射和学习过程那么复杂
10:36人搭建起来的机器 又是怎么自我调整和学习的呢
10:42哎问的非常好 这三个问题啊 其实就分别对应于机器学习的模型
10:47结构损失函数和训练过程 接下来的视频就会详细解答这些问题
10:54让我们先解决第一个问题 怎么搭建起一个 有学习能力的黑箱机器呢
11:00有没有一种万能的超级强大的黑盒 无论什么样的对应关系 它都能表示和学会呢
11:07这里呢 就值得一提另一派实现人工智能流派 联结主义
11:12他们认为 大自然 已经给出了实现智能的标准答案 那就是人类精妙的大脑
11:19只需要通过仿生的方式 模拟单个神经元的复杂功能 以及神经元之间复杂的连接
11:26那么我们只需要 像运行一台精密的钟表一样 运行这个人工搭建的神经网络
11:33人类就可以实现不可思议的智慧 这一派思想被称作联结主义connectionism
11:41为了理解联结主义 我们先考虑一些最简单的智能 比如这里有一个苹果
11:47那为什么你会觉得它是一个苹果呢 你可能会说 因为它直径大约10厘米
11:52外表皮是红色的 是个球形 气味香甜 没错我们对于很多概念
11:58比如苹果的理解 是依赖于其他的概念属性组合而来的 在每个不同的概念属性上
12:05不同的水果会有各自的特征 比如大小方面 西瓜是大的
12:10而其他的水果是小的 所以在尺寸大这个特征上 西瓜符合 而其他的水果不符合
12:17在计算机的世界里 我们用1来表示符合 0表示不符合 这样我们就可以列出各种水果
12:25与不同属性之间的一张关系对应表 当每个水果的特征
12:31都和苹果的属性吻合时 我们就倾向于判断这是苹果
12:36如此我们就拥有了一种简单的 识别水果的智能 因此
12:41有一种最简单的搭建黑盒的方式 比如说我们想要识别苹果
12:47那就将一个水果的所有特征 比如说大小颜色气味什么的作为输入
12:53然后分别考虑它的每个特征 是否像一个苹果 具体来说
12:58就是乘一个系数 比如说尺寸不大 颜色是红色 味道很甜
13:04这些都表明这个水果符合苹果的特征 因此他们对于是苹果这个判断 起到正向的促进作用
13:10我们会把它乘以一个正数 而尺寸很大 吃起来酸 这些特征都表明不太可能是苹果
13:17所以我们把它乘以负的系数 最后我们只需要将这些特征 各自乘以它们对应的系数
13:24然后加在一起 就可以得到一个苹果得分 这个得分越高越像苹果
13:30越低则越不像 所以 我们就可以再设置一个得分的阈值b 如果最后的得分高于b
13:36那么这台机器就激活 否则不激活 此时整个这台机器 就变成了一个苹果识别机
13:43只有你把苹果拿到它面前的时候 它会激活 亮起右边的灯泡 而只要你放在前面的水果
13:50不满足苹果的特征 它就不会激活 所以根据我们的定义 整个黑箱
13:55此时就具备了识别苹果的智能 这个黑箱机器的厉害之处在于
14:01你不仅可以用它来识别苹果 还可以用来识别其他的水果 只需要通过调整这些连接的系数
14:08你就可以表示不同的概念 比如说你可以让他在水果又大 又绿又甜的时候激活
14:15那么此时这台机器的用途 就是识别出西瓜 或者在又小又红又酸的时候激活
14:23那么他就可以特别的筛选出山楂 这里每一个特征到输出之间
14:29连接的系数 就像一个机器的旋钮 你只需要根据自己的需要
14:34设置这些旋钮的值 就可以让整台机器 非常针对性的指对某种水果激活
14:40而这种从输入数据中 识别不同水果特征的模式
14:45理解概念的过程就叫做模式识别 而这个玩意儿 就是人类在1956年
14:51最早提出的一种模式识别的算法 模型:感知机 哎有人可能会说了
14:57你这个取各种条件 合在一起判断的过程 看起来和前面的专家系统
15:02好像也没啥区别呀 哎你说的很对 这是一个很多人都不知道的冷知识
15:08大家通常以为 神经网络代表的联结主义 从一开始就和符号主义水火不容
15:14分道扬镳 但其实感知机这种最早期的神经网络 它的设计
15:19很大程度上 借鉴甚至是脱胎于逻辑推理 其思路同样是组合不同的特征条件
15:27来进行推理 这里的每个神经元 也就像刚才我们说的 符号逻辑当中的一个
15:33一个命题的字母一样 只不过 他是用数值计算的方式来模拟逻辑的
15:38而数值计算本身 不局限于有限且明确的符号推理 因而在更广泛的领域
15:45比如说控制环境感知图像识别等领域 具有更强大的潜力
15:51这个我们在后面就会看到 巧合的是 这种设计同样和神经科学不谋而合
15:57中学的时候我们学过 神经元通过电信号传递信息 其中树突接收不同神经元的电信号
16:04而轴突则会将自己的信号 传递给其他的神经元 而感知机啊
16:09它也恰似一个神经元 你看呢那些传入的数字 分别表示它接收到的各种信号
16:16它们可能会激活 或者抑制这个神经元的活动 而这种影响
16:21就体现在 每一条连边参数w的正负和大小上 神经元直接叠加所有接收的影响
16:28而如果叠加的刺激足够大 它就会激活 进一步往后传递 这一切
16:34都和生物神经元的活动不谋而合 事实上这个数学模型的提出啊
16:39比人工智能还早 早在1943年的二战期间 Pitts和Mcculloch在生物物理学通报上
16:47共同发表了 神经活动中内在思想的逻辑演算 提出了这套神经元的数学模型
16:54你注意看这套名字 神经活动中内在的逻辑演算 这更加表明
17:00联结主义和符号主义其实是同源的 1957年 康奈尔大学的罗森布拉特
17:06造出了 人类第一台有实际应用价值的:感知机 这台感知机将图片的像素作为输入
17:12通过算法调整参数 不断学习 最终能够做到判断出一张图片里
17:18是男人还是女人 或者是左箭头还是右箭头 一时间轰动世界
17:25虽然在今天看来这可能没什么 但让我换一个角度跟你解释 你就会知道这有多了不起
17:32计算机和人是两种非常不同的东西 对于人来说很困难的问题
17:38比如说计算两个十位数的乘法 对于计算机来说却很简单 但对人来说很简单的事情
17:45对于计算机来说却非常困难 比如说理解图片的内容 因为在计算机看来
17:51图片本质上是一堆像素的数值 所以识别图片中的内容
17:57在数学本质上 就是给你一大坨数字组成的矩阵 然后问你啊 这里面画的到底是一个什么
18:03或者问你 这里面到底是个男人还是女人 人的长相千姿百态
18:09各种五官光影角度的细微变化 都会呈现出不同的图片
18:14导致像素的具体数值出现剧烈的变化 而我们要通过纯粹的计算
18:20算出来真实照片里的人 是男性还是女性 现在你还觉得这整个数学问题
18:28也就是说 从图片中看出是什么内容很容易吗 人类的视觉和大脑
18:33是不是很不可思议呢 而这个领域就叫做计算机视觉
18:39正因此在发明感知机之后啊 时年30岁的罗森布拉特意气风发
18:44迫不及待的召开新闻发布会 畅谈自己研究成果的美好未来 吸引了众
18:50多媒体的极大关注 比如说大名鼎鼎的纽约时报记者 对感知机的先进性赞不绝口
18:57报道说 这是一个能够行走拥有视觉能够写作 能自我复制
19:02且有自我意识的电子计算机的雏形 他把它称为电子大脑
19:08电脑这个名字 最早也是从这个时候来的 文章当时还非常乐观的估计
19:14再花上10万美元 一年之后上述构想就可以实现 那时感知机将能够识别出人
19:22并能叫出它们的名字 而且还能把人们演讲的内容 及时的翻译成另一种语言记录下来
19:29但经历过现实的我们知道 这件事直到最近几年才算真正实现
19:34所以啊真心也好 忽悠投资人也罢 总之人类对于自己不了解的东西
19:40就是很容易浪漫 也很容易对于未来过分乐观 历史上
19:45每当人工智能取得一点点微小的进步 人类就会开始赋予它无限能力的想象
19:52畅想与AI大战的场景 从来如此 回到一开始的问题
19:58那究竟该怎么搭建出一个 有学习和进化能力的聪明黑盒子呢
20:03感知机就是一个简单的例子 专业的说法 这些东西啊 都叫模型
20:09模型本身确定了它输出的函数形式 比如说这里 就是先用w i加权组合所有的输入
20:16然后减去阈值b 再激活就是它整个模型的输出 这有一套函数形式
20:22但与此同时 它又没有完全确定整个函数 依然有一系列 你需要调节和设定的数值
20:29比如说这里的每个w i和b 它们呢叫做参数 我们只需 要在设计模型的时候让它足够强大
20:37任何你想要它实现的功能 本质上都可以通过设定模套参数实现
20:43那么我们只需要让这个模型 不断调整自己的参数 不断向着越来越有用
20:48符合我们需要的这种输出的模式变化 就可以让它最终实现强大的智能
20:55这就是联结主义的信念 这套故事在一开始提出的时候
21:00野心勃勃 而且实现了感知机这样了不起的成就 但联结主义一度陷入寒冬
21:07甚至被整个世界斥为骗子 在最一开始的时候 就有很多学者反对联结主义
21:14他们觉得 这只是机械的模拟了生物的构造 而且神经元建模的也太简单了
21:20而且他们觉得 联结主义期待在一通乱联当中 发生魔法
21:261969年 马文闵斯基写了一本叫做感知机的书 正如给你伸大拇指的人不一定是夸你
21:34也可能是想拿炮打你 他这本书可不是要推广感知机 而是要给感知机下死刑
21:39把棺材板上的钉子钉死 闵斯基在书中指出了这样一个事实 有一个逻辑电路里非常基本的操作
21:47叫做异或XOR 简单来说 就是当输入的两个特征一样的时候
21:52输出是0 而输入的不一样的时候 输出是1 就是这么一个非常简单的对应关系
21:59感知机却无法完成 为什么会这样呢 我们仔细看感知机的函数形式
22:05就会发现 它本质上 是在计算W1x加w2y减b的符号
22:12假如我们把所有的这样的x,y输入 画在二维平面的坐标系上 那么能够让感知机激
22:19活的所有输入满足w1x加w2y减b大于0
22:24中学的小伙伴可能会很熟悉 这其实啊 就是一个线性规划 所以说能够激活的
22:30满足条件的输入和不激活的 分界线永远是一条直线
22:35然而对于异或问题 你会发现 需要激活的这两个点 和不激活的这两个点
22:41是这样分布的 你永远没法用一条直线 将这两种点恰好分在直线的两边
22:48所以呢就不存在一台感知机 能够直接实现这个简单的异或运算
22:55闵斯基在这本书里直接毫不客气地说 罗森布拉特的论文没有什么科学价值
23:01他本人在同年获得图灵奖 这本书 也因此将整个联结主义打入冷宫
23:08在之后的二三十年间 神经网络这个名字 仿佛就是骗子的代名词
23:13是连疑惑这个操作都做不好的 无用的玩物 在当时图灵奖得主的带头唱衰下
23:21神经网络一度陷入了极度的寒冬 所有人都认为他是垃圾和骗子
23:26基金资助大为减少 研究者纷纷转行 AI研究也因此陷入长达几十年的寒冬
23:34你看人类又是这么容易悲观 一个小小的反例就自暴自弃
23:39放弃了充满潜力的研究方向 但与此同时 依然有一批研究者在坚持
23:46他们最后守得云开见月明 成为了后来深度学习的奠基人 并获得图灵奖
23:53我们可以听听 图灵奖和诺贝尔奖双料得主辛顿 当年在UCD大学
23:58接受采访的时候的一段表达 looking back at your career 回望你的整个学术生涯
24:05what aspects of it are you most proud of 你对其中的哪个方面最为自豪? i’m not necessarily just thinking about your discoveries 我并不仅仅在说您的科学发现
24:12but maybe other aspects of your career as well 而包括您更大的整个生涯 the people who worked with the teams that you’ve built 那些与你合作的人,你建立的团队
24:17i guess i’m proud of the fact that i stuck with neural networks 我想我最骄傲的是我当年坚持了神经网络 even when people said they were rubbish 尽管当时人们都说这是垃圾 which was for about the first 40 years 而且说了整整40年
24:27but the intellectual achievement 在智力上的学术成就 i’m most proud of is boltz machines 我最自豪的是玻尔兹曼机 which were an alternative to back propagation 它是反向传播之外的另一种可能
24:35他们是怎么拯救神经网络的呢 回到刚才异或的例子 他们想既然一个神经元不行
24:42那么多来几个可不可以呢 比如说我们将这些感知机的输出啊
24:48一个一个的拿出来 然后 在后面再嵌套接一层感知机 作为他们下一个感知机的输入
24:56我们一套娃,套娃 一层又一层出来一个新的感知机 这样
25:01我们就可以让中间一层的两个神经元 分别只被0,1和1,0激活
25:07比如说第一个神经元 它的组合系数是1,-1 此时呢 就只有1,0这个输入能给它最强的刺激
25:14大小为1 其他的都不超过0 所以我们如果再设置一个1/2的阈值 就可以
25:19让它只在1,0这个输入的时候激活 同理呢我们也可以对另一个神经元
25:25在0,1的情况下才会激活 设置方式呢是系数-1, 1
25:32这样的话 两个中间的神经元 就可以分别关注 两个我们想要激活的位置
25:38接着我们再把这两个神经元的输出 直接加在一起 大于0的时候给出最终的激活
25:45这样整个模型 就可以刚好在1,0和0,1的时候激活 而在0,0和1,1的时候不激活
25:52从而实现异或功能 而这 就是后来大名鼎鼎的MLP Multilayer Perceptron
26:00全名多层感知机 这里中间层当然可以不止两个神经元
26:06层数也可以不止两层 当这些神经元层层叠叠的时候 就是大名鼎鼎的神经网络
26:14这里的每一根连线 都标志着两个神经元之间的连接强度
26:19是一个可以调节的参数系数 计算机科学家证明 只要这个神经网络的深度和宽度
26:26都足够大 那么理论上它可以拟合任何一种函数 表达任何一种智能所需要的
26:32输入到输出之间的对应关系 换言之只要你有一个超大的神
26:37经网络那么 任何一个你想要的智能黑箱的功能 都一定可以通过设定一套参数实现
26:44该怎么理解 神经网络这种强大的能力呢 还记得我们前面说过吗 我们用不同的属性概念组合再激活
26:52就得到了一个可以识别苹果的感知机 的智能 而如果我们在感知机上继续套娃
26:58就可以不断地把原本简单基础的概念 组合成更复杂的概念
27:04例如在数字识别的这个神经网络中啊 最前面的神经元啊 就负责识别一些非常基础的笔画
27:12和边缘而往后层的神经元呢 就负责将这些基础的特征组合
27:18识别出一些更复杂的概念 比如说圆形横线竖线折线等等
27:24接着 更深的神经元可以组合这些线条图形 识别出复杂的数字
27:29比如说9就是一个环形 加上右下角的尾巴 随着层次的加深
27:35神经网络逐渐从简单的这些特征 推导出复杂的整体形态 最终准确地识别一个复杂的概念
27:42而整个这个过程 不需要任何人类专家知识的介入 是他自动完成的
27:48而这正是神经网络的强大之处 随着时间的推移 神经网络的技术也不断的进步
27:55前面我们看到的多层感知机 只是最经典最基础的一种 如何设计更好更强大的模型结构
28:02一直是深度学习的重要课题 比如真实世界里动物的视觉
28:08神经系统的神经元呐 不需要和前一层的所有神经元 全都稠密的连接
28:13而只需要和局部的几个神经元连接 就行 而且每个神经元和前一层连接的参数
28:20结构又都是类似的 那么我们设计神经网络的时候 也可以借鉴这一点
28:25从而减少参数和运算量 提升神经网络的性能 这就是大名鼎鼎的卷积神经网络CNN
28:34后来研究人员发现 卷积层堆的多了 训练起来有困难 又增加了一种跳跃式的连接
28:40这就是残差网络Resnet 或者 你可以把任何两层都跳跃连接起来
28:46这就是denset 再到今天GPT的基础框架Transformer 也就是attention
28:52它们本质上 都是某种网络的基础框架结构 然后有大量的参数需要去决定
28:59一个好的结构可以让黑盒学的更快 需要的数据更少 而这就是深度学习
29:04曾经一个非常重要的领域 神经网络结构设计 你肯定会问
29:09神经网络这么强大 可以自主地发现数据中蕴藏的结构 理解概念 他究竟是怎么做到这一点的呢
29:17答案就是用数据训练 通过奖励和惩罚 来引导神经网络形成智能
29:22但我们应该究竟怎么奖励 惩罚一个神经网络呢 其实从GPT到Alphafold
29:29再到Midjourney和各种强化学习 各种复杂又先进的人工智能模型
29:35几乎无一例外的 都在使用着同一种算法 来训练网络找到最好的参数
29:41而这个算法就叫做梯度下降 特此说明啊 这部分内容的数学知识很多
29:47而且技术性很强 但因为它实在是太重要了 所以我们必须要讲 因此呢你实在听不懂也没有关系
29:54具体的我将沿用油管博主 Artem Kirsanov的视频和思路 为大家讲解
30:00在讲解梯 度下降之前 先让我们简单回顾一下前面的内容 我们首先提到
30:05智能的本质是一个黑箱 这个黑箱 能够从数据中 找到输入和输出之间的对应关系
30:12换言之,在数据驱动的机器学习 和统计学习眼里 所谓的智能
30:18本质上就是给你一堆点 然后用一个函数 你和他们之间的关系罢了
30:23这里的x和y 可以是任何你关心的两个量 只要学会了一个
30:29可以刻画这些点趋势的函数 我们就可以获得任何一个输入 对应的合理输出
30:35换言之实现了智能 该怎么找到这些数据点 所勾勒出的底层规律呢
30:42根据前面的内容 你可能会想到神经网络 这当然是一个办法 不过这里呢 为了理解梯度下降
30:48我们先用一个简单一点的方法 找到这个函数 比如说我们线性组合常数x
30:56x平方,x3次方 X4次方 X5次方这几个简单的单项式模块
31:02换言之 我们想要找到一个五次多项式 来刻画这些数据变化的规律
31:08我们需要找到K0到K5 这六个参数最好的组合
31:13那什么样的参数是一个好的组合呢 我们需要一种定量的方式 来度量一组系数所对应的多项式
31:21到底拟合的好不好 而这就是损失函数 其实大家早就见过损失函数了
31:28中学学过最小二乘法 其实就是用一个简单的y等于k x加b的线性函数来搭建黑箱
31:35对每个数据点 线性函数的预测和实际结果 都会有偏差 我们把这些偏差的平方
31:41加在一起 就得到了这根直线的损失函数 在复杂的非线性里
31:46损失函数也是一样的道理 我们同样 把函数预测的数值 和实际数据点的数值误差平方
31:54加到一起 就得到了这个函数的损失函数 你可以看到 当这个函数的预测
32:00越是贴合这些数据点的趋势时 损失函数加在一块就会比较小
32:05而反之呢 损失函数就会比较大 大体来说 损失函数 就是在衡量一个模型预测的
32:13和真实的结果之间的偏差程度 只需要记住,掌握规律 就等于损失函数很小,就可以了
32:21请注意这里出现了两种函数 大家不要混淆 第一种 是我们用来拟合数据点的这根曲线
32:28我们叫它拟合函数 也就是那个五次多项式 它的输入是x
32:34输出是y 我们需要决定 这6个参数 输入到输出的可能函数有无穷多个
32:40我们想要找到最好的那一个 而什么叫最好呢哎 为此我们提出了损失函数
32:47它衡量一个拟合函数到底好不好 是一个打分机器 它的输入是多项式的这6个系数
32:55接受到这些系数之后呢 它会先构造出这个拟合的曲线函数
33:00然后呢 逐以比对计算在所有数据点上的偏差 将它们平方加在一起之后
33:07就会得到最终的损失函数的输出了 我们只需要找到 使得这个损失函数很低的输入参数
33:15组合K0到K5 我们就可以找到一个出色的拟合函数
33:20而有了这个拟合函数之后 我们就可以把这个拟合函数 机器拿过来 输入任何一
33:26个我们关心的x 得到一个符合数据规律的合理的y
33:32你可以理解为我们在玩这样一个游戏 每一个参数k啊是一个旋钮
33:38它们通过设置这个系数 会产生一个不同的多项式曲线 而你的目标就是调节这些旋钮
33:45让这跟拟合函数的曲线 和数据点比较贴合 事实上神经网络干的事情
33:51本质上也是完全一样的 只要把这里的k 改成神经元之间的连接系数和阈值b
33:58那么训练神经网络 同样也是一个调节参数旋钮 来降低损失函数的游戏
34:06这个游戏难点在于 旋钮实在是太多太多太多了 你看这个5次多样式有6个参数旋钮
34:14已经让人非常头大 而神经网络的参数个数更是多到离谱
34:19举个例子 GPT3一共有1,750亿个参数 换言之你要同时调好1,000多亿个旋钮
34:27并且让这些旋钮组合起来的设置 可以有很好的性能 能够跟你对话解决问题
34:33是不是听起来很不可思议呢 这几乎是一件不可能的事情 在数学上
34:39这个问题叫做非凸优化求解 它的难度是臭名昭著的大
34:45这个问题啊 也一度困扰着联结主义的研究者们 也是神经网络这一派研究
34:51一直没有真正发展起来 非常重要的原因 因为一旦你的模型做大做复杂
34:57你虽然觉得它很强大 但是你找不到好的参数 让它实现这种强大
35:03直到后来 1976年 由Seppo Linnainmaa提出了一个巧妙的算法
35:08梯度下降 并在1986年由David Rumelhart Geoffrey Hinton和Ronald Williams共
35:14同提出了反向传播算法 才算真正解决了这个问题 让我们先从最简单的地方开始
35:20假设这里除了K1之外的五个旋钮 都已经被固定好了 我告诉你 已经有人把它设置在了最好的位置上
35:28现在 你只需要去考虑把K1这个旋钮调好 那么到底该怎么办呢
35:34哎我们可以调节它 观察这个损失函数的变化 此时你会发现
35:39损失函数就从原来的6个输入变量 变成只有一个变量K1 哎这是一个一对一变化的函数
35:46我们很容易做图 做出来的图大概长这样 我们的目标就是找到它的最低点
35:53不过不要被这里的图误导了 我们是解释方便 所以直接把这个图像画出来
35:59但实际上我们并不知道这个整个图像 我们知道的只是某一个具体的K1
36:06下这个拟合函数长什么样 然后算出来 这个K1对应的损失函数有多大
36:12所以说 我们只能得到一系列离散的点 对于每一个输入点 知道函数值是多少 而在这些点中间的位置
36:19损失函数到底是怎么变化的 我们是全然不知的 你会发现 优化神经网络
36:25甚至比求损失函数的最小值更复杂 因为 你没有办法看到整个损失函数的全貌
36:32这就好比 把你放到了一片地形高低起伏 极其复杂的山地上
36:37每个参数的数值就好比是经纬度 而海拔高度是损失函数的大小
36:43周围大雾弥漫 你只能看到自己脚下的地形 你该如何下山 走到一个海拔比较低的地方呢
36:51还是用这个K1的例子 刚才呢 我们有一句话说的其实不是很对 那就是我们知道的信息
36:57其实还是比纯粹的损失函数大小 要多一点 具体来说 我们还可以知道在某一个位置下
37:05损失函数到底随着K1的增大 是增大还是减小 用数学一点的说法就是
37:11我们可以获得 损失函数在这一点切线的斜率 更专业的说法是导数
37:18这个方法呀 大家调洗澡水和收音机的时候 其实都用过 那就是 你可以把旋钮先往某一个方向
37:25转一点点 Delta x看看是更好还是更差 比如说这里 我们初始在X0的位置
37:32损失函数是Y0 然后增加了Delta x 到了X1的位置之后 我们再看看损失函数变成了Y1(口误)
37:40所以我们就会发现 损失函数增加了一个Delta y 也就是说它变差了 那这个时候你就知道
37:46洗澡水应该往反方向调 所以当我们的调节变化量 Delta x无限小的时候
37:53Delta y和Delta x变化量的比值 会接近于一个定值 那就是 损失函数在这一个点切线的斜率
38:01而这就是函数在这一点的导数 在变化很小的时候 函数值y的变化量正比于x的变化量
38:08而这个比值就是导数 所以我们就用一句话来概括一下
38:14梯度下降的精神 那就是每次减小一点点 我们每次看看要减小损失函数
38:20我们现在的这个位置应该往哪边走 然后呢 就往这个方向走一个很小的距离
38:26接着呢再看导数再走 不断重复上述流程 这样我们 就可以不断地缩小损失函数
38:33直到最后停在底部 参数基本不再变化 此时我们就成功地将损失函数
38:38减小到一个很低的程度 现在 我们已经清楚了怎么调节一个旋钮
38:44但这有一个非常不现实的前提 那就是其他5个旋钮 已经调到了最优的状态
38:50并被固定住 现实中你要同时调节好多旋钮 而且所有的旋钮都没有调好
38:57这个方法有什么用呢 哎有用 事实上刚才我们的这个方法
39:02可以非常容易的拓展到更一般 更复杂的情况 比如说假设
39:07你现在要同时调节K1和K2两个旋钮 此时 损失函数变成一个输入是两个实数
39:15输出是一个实数的二元函数 它可以表示成一个二维的曲面
39:20哎 这就是很多人经常听到的损失曲面 这里 K1 K2的损失曲面看起来就像一个碗
39:28且慢二元函数的导数是个啥呢 现在有两个旋钮 所以调节的方向出现了奇异
39:35到底是只调K1 还是只调K2 还是都调呢 这里就涉及到偏导数的概念
39:42我们可以固定K2 只而只变化K1 此时 我们就得到了损失函数对K1的偏导数
39:49反过来固定K1 只变化K2 此时就得到了对K2的偏导数
39:54它对应于 我们固定K2或者K1当中的一个 然后单独的调节另一个旋钮时
40:01对损失函数输出的影响 几何意义上 这意味着 我们用两个垂直于坐标轴的截面
40:07和曲面相交 截面会切出一根曲线来 然后我们再求这根曲线的导数
40:13将这两个导数拼 在一起 我们就得到了那个你经常听说 但可能不知道是什么的东西梯度
40:21梯度说白了 就是在某个给定位置 函数值变化最快的方向 也是曲面在局部最陡峭的方向
40:29是一个二维版本的求导 有了它我们就可以重复刚才的流程 每次向着局部
40:35损失函数下降最快的方向前进 我们完全就可以用刚才类似的方法 愉快的同时调节两个旋钮了
40:42这个方法就是大名鼎鼎的梯度下降 你想既然两个可以
40:49那么这套方法 就可以应用到任意多个旋钮 这个问题里 完整的损失函数
40:55是一个复杂的六维曲面 那我们还是可以如法炮制 对每一个旋钮
41:00我们都固定其他的旋钮 然后单独看这个旋钮和损失函数之间
41:05它的变化关系是什么样的 增加它损失函数是增加还是减小 这样我们就能得到每个旋钮的偏导数
41:12拼在一起 得到了一个6维的梯度 接下来我们只需要让每个旋钮
41:17都向着对应的方向 不断迭代去减小损失函数 从而拟合出这些数据底层的规律了
41:25现在我们知道 梯度下降法可以优化网络 找到损失函数比较低的参数
41:30可是面对一个层层堆叠的 非常复杂的神经网络 我们怎么计算出这个梯度呢
41:37这个问题啊 非常专业 答案是反向传播back propagation
41:42这是一个专门用于计算 复杂的神经网络梯度的算法 也是很多人学习深度学习
41:48被劝退的第一步 这里 我们不详细展开反向传播具体的细节 只告诉你它最精髓
41:54的思想 不管是神经网络 还是刚才我们的多项式拟合 本质上
41:59我们都是用一些非常简单的基础运算 比如说加减乘除啊
42:04平方啊指数啊之类的 不断的组合复合迭代 形成了一个超大的复杂的函数
42:12它们 就像我们用一个个基础的积木一样 拼接成一个庞大的机器
42:17我们关心的 无非是每个旋钮参数的梯度 用最直白的话说
42:22我们关心每个旋钮动一点点 最后面的损失函数随之变化的关系
42:29而这个信息是可以由后到前 层层传递的 为什么呢
42:34因为每个基本的这个积木的求导 我们都很清楚 而积木在组合过程当中
42:40梯度是怎么样组合变化传递的 我们也很清楚 你看中学我们就学过了
42:46求导的基础法则 加在一起求导 等于各自的导数相加 乘在一起求导呢
42:52则是这个结果 除了上面说的相加和相乘 还有一个最重要的性质
42:58那就是链式法则 如果我们先把一个x 送入了一个函数g
43:03再把g(x)这个输出当成输入 送入函数f 那么这整个过程合在一块
43:09依然是输入一个x 输出一个数值 它也是一个函数 是f (g(x))比如说在这里
43:16如果一个是正弦 一个是log 那么它的图像大概长成这个样子 问题来了
43:22我们知道f和g各自的形式 和各自的导数 应该怎么求它 这个合体的函数对于x的导数呢
43:30那么现在 假设我们把输入x变化一个Delta 根据导数的定义 我们知道
43:35第一个g(x)在输入变化Delta的时候 它的输出会变化的比例是g'(x)
43:42所以你就知道 这个中间的这个输出g(x) 此时会增加g'(x)乘以Delta
43:49那么进一步呢 对于后面的这个FX来说 注意到它的导数是f'(g(x))
43:55所以说当它的输入 变化了中间这么大的数值的时候 它的输出就会在中间这个变化量上
44:01进一步乘以f'(g(x)) 也就是这么大 当我们把右边的这整个
44:07除以x的变化量Delta的时候 就可以得到链式求导的法则 也就是说先做g(x)
44:14再做f(x)一起求导 得到的结果是g'(x)乘以f'(g(x))
44:21这就是复合函数的求导 如果用前面积木的比喻 你可以想象有三个齿轮相互咬合
44:29它们转过的角度啊 就分别代表x,g(x)和f(g(x)) 而导数g'(x)呢
44:36就表示第二个齿轮g(x) 相较于第一个齿轮x 传动的速度之比
44:41那f'(g(x))呢 就是第三个齿轮 相当于第二个齿轮g(x)传动的速度之比
44:46如果我们想要知道变动一点点 第一个齿轮x 第三个齿轮到底变化的速度会有多快
44:52我们就只需要把这两个齿轮的传动比 乘在一起就可以了 这就是链式法则 有了链式法则
44:58我们就可以从后往前一步步拆解 得到每一个参数的导数 这是因为任何一个参数
45:05从它到损失函数 一定是经过了一系列函数的复合 到最后一层输出就是模型预测本身了
45:12我们可以直接 计算损失函数以及它的导数 接着我们就可以用刚才的链式法则
45:18一层一层从后往前的 把每一层嵌套这个传导的导函数
45:24一步一步的乘在一起 当我们回到最开始K1的位置的时候 就得到了K1相较于整个输出
45:32损失函数的梯度 而这个算法 就叫做反向传播back propagation
45:39所以我们最后总结一下 找到这个几百万个旋钮 机器最好参数设置的方法
45:44就是用反向传播算法 计算出每个参数的导数 接着呢用梯度下降法
45:51每次让这些参数变化一点点 不断地向着更好的参数演化和移动
45:56最后整个神经网络就会神奇的理解 掌握数据中的规律 学会底层函数
46:02并获得这种我们想要的智能 在前面的内容中 我们详细讲解了智能就是搭建黑箱
46:10以及神经网络 这个强大 通用的黑箱的构造和由来是什么 还有如何训练一个神经网络
46:17不过这里还有一个非常重要的问题 这个神经网络的黑盒 是怎么举一反三的呢
46:23你看呢我们只是收集了一些数据 然后训练它 在我们收集的数据中
46:29对于见过的输入 比如说这张数字图片 它要输出成我们想要的输出6
46:35那他见过这些东西 能够把它正确识别成6并不奇怪 但是对于从来没有见过的其他图片
46:43训练好的网络 是怎么能够同时认出其他的数字的呢
46:48这就好比你给一个人做了很多题 他能够把你给他的练习册的题做对
46:54不奇怪 但是他是怎么样学会这些解题的方法 在新的题上考试也能考好的呢
47:02这个问题其实很深刻 它涉及到 机器学习能够成立的 一个非常重要的问题
47:08泛化generalization 这个名词看起来很高端 但正如我们刚才所说的
47:14它的本意就是推广 举一反三 活学活用 我们还是从前面的最小2乘说起
47:22以及曲线拟合思考这样一个问题 对于中间这个位置输入的x
47:28我们没有任何y的数据 但你还是会觉得 它应该就在这个范围里
47:35为什么呢 没错因为这些零散的数据点 勾勒出了一种趋势
47:41当我们用这样的一个连续平滑的函数 准确地刻画出这种趋势之后
47:46就可以利用这个函数 推测 数据中我们没有见过的某一个输入下
47:52对应的合理的输出大概应该是多少 这其实就是一种最简单的泛化
47:58我们将这种关联的趋势理解 并且推广到 我们没有见过的一些输入数值
48:05通过理解底层规律 在未知情境下给出合理的预测和输出
48:10那同样的 神经网络也有泛化能力 而且是很强的泛化能力
48:17虽然在训练数据中 他没有见过一模一样的图片 但是呢他可以在训练过程中
48:23发现 这些输入的图片和标签之间的趋势 和这种微妙的关联性
48:31这种关联啊 就跟我们前面的曲线拟合的时候 中间断开的那一部分
48:36看起来应该要这样连线 所以你可以预测那其中的函数值一样
48:42只不过在我们现实的数据里 这个趋势可能非常抽象 不如刚才的曲线拟合这么直观
48:49而这正是神 经网络强大的地方 你只需要提供数据 那么底层抽象的趋势和规律
48:56只需要交给神经网络 他自己学就可以学明白了 很多行业和学科
49:01其实都面临着这类问题 就是不同的情境里有一种感觉和规律
49:07这种感觉和规律 难以用简单清晰的数学来计算和描述
49:12比如说围棋里 这一块棋形看起来好不好 能不能活 有经验的棋手一眼能看出来
49:20行话叫做味道不好 但是怎么样学会这种感觉和味道 却非常复杂
49:26还有在说话这个问题上 一句话前面的语境下 后面该接上一个什么样的话
49:33也是一种复杂和微妙的语感 但是怎么学呢 很难说更不用说从氨基酸序列里
49:40分析出整个蛋白质结构 这种极为抽象复杂的规律
49:46曾经我们需要非常专业的知识 来模仿人类的聪明智慧 而且模仿的还不好
49:52而有了深度学习 你可以不管三七二十一 只需要找一个架构合适的神经网络
49:58收集数据 训练拟合 然后这个神经网络 就能领会数据当中
50:03你所描述的输入和输出间微妙的联系 并举一反三 应用到任何潜在的
50:09他没有见过的情景输入中 很多时候做的比人都好 这种公式一样的解决方案非常通用
50:17因而席卷了各个领域 引发了这些年的人工智能革命
50:23但是神经网络和深度学习是万能的吗 答案当然是否定的
50:29每当有一个很厉害的方法 可以实现以往不可思议的任务时 人类就有把它当成魔法的倾向
50:35尽管深度学习的确模 仿了大脑的神经元结构 但是 它和真正的人类智能还有很大的区别
50:42我们都见过这样的梗图 该怎么区分柴犬和面包 说它们看起来有很多相似之处
50:48比如说都是黄色的呀 长条形的呀什么 难以区分 这原本是一个玩梗
50:54但对于一切机器学习算法来说 这都是一个根本且致命的问题
51:00因为你看这个模型 它一直就是通过各种图像的特征输入 和你要它的这个标签
51:07来理解图片的内容的 所以它在训练当中所理解的事情就是
51:13一个黄色的长条形的物体 是面包因此 当你给它一个在训练集以外的柴犬
51:19图片时它会因为这个柴犬 符合面包的各种特征 而产生错误的判断
51:26这本质上是概念之间的相关性 和因果关系之间微妙的区别
51:32他没有把握 而这个问题 在收集数据 训练模型的这一套方法论中
51:38永远无法避免 这就是为什么有很多用神经网络啊 算命
51:43或者预测犯罪机率的应用广受批评 因为 模型会错误的把数据集里的共同出现
51:51当成必然联系 比如说 看到黑人就觉得一定会犯罪这个样子 更糟糕的是
51:56你可能永远不知道 强大的神经网络黑盒 究竟领会了什么神秘的联系
52:02因为神经网络太过强大和复杂 所以我们几乎无法理解 它的内部是如何运作
52:07给出我们想要的合理预测的 一个典型的例子是对抗样本 这是两张图片
52:13你能看出它们有什么区别吗 但如果让一个准确率非常高的 最先进的神经网络
52:19来看第一张图片 他觉得是熊猫 但第二张图片 他以99%的信心认为是一只乌龟
52:27仔细看你会发现 第二张图片相较于第一张 添加了一些十分微小的噪声
52:33而这些噪声可不是乱来的 它经过了特别的设计 专门用来欺骗神经网络
52:39这种图片就叫做对抗样本 对于它的理解和研究 直到现在还在进行
52:45而我们依然没有彻底理解它 大家一般认为 它触发了 神经网络底层某些神奇的开关
52:52这些在人眼看来杂乱无章的噪声 在神经网络看来 却有着强烈的乌龟的特点和相关性
52:59看到这里 你还觉得神经网络无所不能吗
1:25:34有关AI很多人关心的切身问题是 他会让我失业吗 总的来说
1:25:39深度学习和神经网络 提供了一套全新的智能思路 你只要收集数据 再用梯度下降的方法
1:25:45训练一个好的神经网络 就能让这个超级黑箱 理解数据中的规律 从而举一反三
1:25:51对任何未知的情景输入 给出智能的预测 这的确是一场革命
1:25:56它让AI解决了很多 曾经只有人类才能完成的 非常微妙复杂数据庞大的任务
1:26:03因此 如果一个工作他数据充足模式固定 其中机械性按部就班的性质比较强
1:26:11那么你就很容易收集大量的数据 用于训练 AI就可以在基础的日常使用中
1:26:17相当程度上替代人工 从这个角度上来说 文秘插画摄影翻译财务
1:26:25甚至是底层程序员 这些职业都会在未来面临极大的冲击
1:26:31然而正如前面所提到的那样 如今的人工智能绝非万能 相反很多时候它还是人工智障
1:26:46即便是现在的大模型 依然在很多复杂的问题上 表现的不够理想 AI在面对超出训练数据范围的
1:26:54全新问题时 往往还是难以做出合理的判断 实际上我认为
1:27:00AI的发展更有可能改变工作的性质 而不是完全取代它 比如说文秘工作
1:27:06可能会因为AI的介入变得更加高效 人类将在监督和决策的层面上
1:27:13进行管理 而并非亲自处理那些琐碎的事务 同样设计和创意类的工作
1:27:20比如说插画广 告等等领域 尽管 AI可以为你生成一些初步的作品
1:27:25和基础的素材 但真正打动人心的创意和灵感 目前还是需要人类的参与
1:27:32同样的 它可以帮助科研人员写文章改病句 甚至是进行一些简单的公式推导
1:27:39和代码撰写 但是 真正的科研的idea还是得自己去想
1:27:45AI生成的内容 往往缺乏人类情感的深度 模糊和复杂性
1:27:50这也是它在某些领域 难以超越人类的根本原因 更重要的是
1:27:55目前的AI 还缺少在现实世界中交互的能力 自动驾驶机器人这些领域
1:28:01AI的发展速度 远不如大众想象的那么乐观 所以总而言之
1:28:07AI的确会对一些职业造成影响 尤其是那些重复性高模式固定的领域
1:28:12但同时它也会带来新的机遇 未来的关键在于 如何积极地适应这种变化
1:28:19提升自身的技能 以便更好地与AI协同工作 而不是被它所替代
1:28:24人类的创造力情感和智慧 依然是AI无法模拟和完全超越的
1:28:31你也可以投入AI的潮流中 就以这期视频为起点 开始学习 多看几遍
1:28:36打不过就加入嘛 也不失为一种好的策略 以上就是这期视频的全部内容
1:28:43制作真的很不容易 还希望大家点赞收藏 多多支持 如果
1:28:48你以后想看到更多类似的深度科普 记得关注我 漫士沉思路 学海引路不辛苦
1:28:54我们下期再会