机器学习扫盲 | Automannn的学习园地

# 机器学习

1956年，夏季由科学家提出利用机器模拟人类思维或人类智能的问题，并首次提出人工智能概念（差不多与图灵一个时代）
20世纪50年代至70年代,普遍认为只要机器被赋予逻辑推理能力，就可以实现人工智能
20世纪70年代至90年代,认为没有一定数量专业领域知识支撑，很难实现对复杂实际问题的逻辑推理，主张基于专家知识库进行知识推理
20世纪90年代中期依赖，如何使得机器能够像人类一样具有学习能力，逐步取代专家系统成为人工智能的主流核心技术;

# 机器学习的学习方法

# 监督学习

先收集数据
通过强人工干预/监督的方式，喂给模型一套经过人工校验的输入输出组合
模型通过模仿，完成学习

# 无监督学习

不需要人工干预，只给定输入，没有人工给出正确的输出
目的是让模型开放式地，自己学习数据之间的关系

# 半监督学习

模型会尝试从未标记的数据中提取信息来改进预测能力
使用已标记的数据，来验证预测结果

# 强化学习

一种比较复杂的机器学习方法，强调系统与外界的不断交互反馈
主要针对流程中，不断推理的场景，如无人汽车驾驶

# 人类文明的数据沉淀

1950-2018，模型参数增长了7个数量级
2018-2022，模型参数增长了5个数量级
当数据量充足，机器学习就具备进一步升级的可能，而这个可能性在2038年就已经存在

# 机器学习的计算历史

2010年以前，前深度学习时代，训练计算的增长符合摩尔定律，大约每20个月翻一番
2010年，深度学习问世，训练计算的规模，月6个月翻一番。
2015-2016年左右，出现大规模模型趋势，这一趋势始于2015年末的AlphaGo。

# 机器学习的模型

# 线性模型

最简单，最基本的模型
用于挖掘特征之间的线性组合关系，无法对更加复杂，更加强大的非线性组合进行建模

# 核方法与支持向量机模型

# 核方法

通过一个非线性变换，将输入数据映射到高维的希尔伯特空间中，在高维空间中，低维的复杂问题更容易解决(所谓的降维打击？)，本质上为高维映射;

# 支持向量机

通过核函数，将原始输入空间，变换为一个高维(甚至是无穷维)的空间，在这个而空间寻找一个超平面,在这个超平面，将训练集的正例和负例尽可能地分开

# 决策树与Boosting

# 决策树

根据数据的属性，构造出树状结构的决策模型。

# Bootsting

先训练一个弱学习器，根据弱学习器的表现对训练样本的分布进行调整，使得原来弱学习器无法搞定的错误样本在后续的学习中得到更多的关注,持续迭代，知道达到弱学习器的上线或者达到预期精度。

# 神经网络

一种典型的非线性模型，它的设计受到生物神经网络的启发

# 全连结神经网络(深度神经网络)-DNN

把神经元互相连接起来，形成层次结构
全连接神经网络，虽然看起来简单，但它有着非常强大的表达能力，可以用来解决非常复杂的问题

# 卷积神经网络-CNN

受到生物视觉系统的启发，研究表明，视觉细胞只对于局部的小区域敏感；卷积神经网络引入局部连接的概念，在空间上平铺具有同样参数结构的滤波器(也称卷积核)
卷积，就是卷积核的各个参数核图像中空间位置为营的像素值进行点乘，再求和，经过卷积操作后，得到一个和原图像类似大小的新图层，通常称为特征映射

# 循环神经网络-RNN

也具有很强的仿生学基础，如我们看报，阅读一个句子时，不会单纯的理解当前看到的那个字悲伤，而是根据之前读到的文字在脑海里形成的记忆，帮助我们更好的理解当前看到的文字
这个过程是递归的，在看下一个文字时，当前文字和历史记忆又会共同成为我们的新的记忆，并对我们下一个文字的理解提供帮助
实际应用中，无限长时间的循环迭代没有太大意义，通过将神经网络在时域上展开，然后在展开的网络上利用梯度下降法来求参数矩阵，称为时域反向传播
循环神经网络应用于: 图像配文字，情感分类，机器翻译;

# 大模型起步的时代

2015年,AlphaGo带来的震撼

# ELMo模型

2018年3月，发表
ELMo是一个训练好的模型，是动态的，是一个过程，当给出一句话时，模型会根据上下文来判断每个词对应的词向量，最后输出

# Google的Bert模型

与初代GPT一样，采用Transformer模型结构
BERT模型出来后，无监督训练+下游任务微调的范式奠定了霸主地位

# 初代GPT

2018年,OpenAI发布初代GPT模型
该模型采用了12层 Transformer Decoder结构,用了大约**5GB无监督文本数据进行语言模型任务的训练

# transformer

由google于2017年提出，最初用于机器翻译任务,现在，transformer已经成为自然语言处理NLP领域中的重要模型
使用了一堆的自注意力机制(self-attention)，来解决RNN不能并行计算，不能有效学习全局信息的问题

# transformer的优点

可以并行计算，加快训练速度
可以处理较长的序列，不受梯度消失问题的影响
可以捕捉长距离依赖关系，更够更好的处理序列中的语义信息