第二期机器学习的那些事 - smartcar - Powered by Discuz!NT Archiver

TUhjnbcbe - 2022/5/27 14:03:00

一起探寻人工智能领域的奥秘！！！

人工智能

机器学习

MachineLearning

ArtificialIntelligence

年

4月刊

PART01

机器学习基本概念

HOTHOTHOTHOTHOTHOTHOT

1.定义

机器学习一般被定义为一个系统自我改进的过程，更确切地说，是把人类思考归纳经验的过程转化为计算机通过对数据的处理计算得出模型的过程。

从字面意义上说，机器是指计算机，学习是这个自我改进的过程。最初的机器学习这个名字由ArthurSamuel提出，他给了机器学习一个非正式的定义：“计算学习在程序员并不对其进行显式编程的情况下进行自我学习的能力”，具体来讲，机器学习是一门针对算法和统计模型的学科，主要依靠模型和推断，机器学习算法会建立在一个关于样本数据的数学模型，这些样本数据通常被称为“训练集”。

HOTHOTHOTHOTHOTHOTHOT

2.类型

通常而言，机器学习分为监督学习和非监督学习，监督学习分为回归和分类两类问题，非监督学习分为聚类和降维。监督学习是指从标注数据中学习预测模型的机器学习方法，分为学习和预测两个过程，本质在于学习输入到输出的映射的统计规律，如感知机模型，K临近法，决策树等。非监督学习是指从无标注的数据中学习模型的机器学习问题，本质在于学习数据中的潜在结构或统计规律，如聚类方法，奇异值分解，PageRank算法等

HOTHOTHOTHOTHOTHOTHOT

3.特点

（1）编程范式

在经典的程序设计中，人们输入的是规则（即程序）和需要根据这些规则进行处理的数据，系统输出的是答案，而利用机器学习，人们输入的是数据和从这些数据中预期得到的答案，系统输出的是模型。

（2）数据

在处理数据方面，传统的编程处理的数据往往都是简单的数据或存在数据库里的关系型数据，经常对数据进行增删改查工作。而机器学习处理的数据一般都是很大的数据，经常把它叫做数据集，能高效处理数据。

（3）功能性强

机器学习在理论上无法证明它为何有效，但在实际问题上它的确有效，这一领域是靠实验结果而不是理论指导，所以只有当合适的数据和硬件可用于尝试新想法时，才可能出现算法上的改进，因而，机器学习领域工程性强，实践性强。

PART02

构建机器学习应用的步骤

HOTHOTHOTHOTHOTHOTHOT

机器学习有很多任务场景，为了简要说明机器学习的大体应用方法与步骤，这里以较为常见的手写识别任务为例。

根据TomM.Mitchell对机器学习的定义，手写识别任务的T、P、E分别为：

任务T：训练出高准确率的手写识别模型；

性能P：分类的准确率、召回率等；

训练经验E：带标签的手写图片。

HOTHOTHOTHOTHOTHOTHOT

如果对于一个手写识别任务来说，机器学习的应用步骤如下所述：

数据预处理：手写数据的图片就是其数据特征，0,…，9的数字为其标签。首先需要将图片转换为数值特征，此步骤称为数据预处理。手写识别图片为灰度图且只有一个通道，那么每张图片就可以抽选特征成为一个数组，例如将图片转换为×维的由［0，1］组成的一组数据，然后再让模型去学习。

数据切分：将数据按照7/2/1的比例切分成训练集、验证集和测试集。此处需要注意的是，为了不让数据的分布产生差别，三个数据集中的每一个都包含所有的标签类别，需要采用分层抽样技术。

选择模型(一组泛函)：对于分类来说，有很多模型类型可以使用。每种模型代表一组泛函，学习的目的就是搜索泛函中性能优异的函数。针对分类问题，可用的函数族有很多，例如逻辑回归、决策树、支持向量机以及神经网络等。

选择目标函数：根据所选模型的不同，应选择相应的目标函数以及优化方法。合适的目标函数与优化方法搜索出的模型参数可以使模型达到最优的性能。例如，对于逻辑回归，可用的目标函数为交叉熵；对于决策树，在分裂时目标函数为熵或者基尼系数；而对于AdaBoost模型，则选取对数损失函数。

根据目标函数选择相应的优化方法：最常用的优化方法是梯度下降法、牛顿法等。需要目标函数有较好的性质才能找到其最优解。

根据评价函数计算性能，并优化模型参数：通过选取合适的模型-目标函数-优化方法，模型在这个流程中学习到了参数。此时，模型已经可以执行预测工作。

了解模型性能：对于分类问题有很多模型评价指标，例如查准率、查全率、F1值、AUC值、PR曲线等。若计算得出的模型性能并非十分优秀，那么就要重新进行参数搜索。最终获得模型。

PART03

机器学习的应用

HOTHOTHOTHOTHOTHOTHOT

1.物联网

物联网（InternetofThings），或者说IOT，是指你家里和办公室里联网的物理设备。流行的物联网设备是智能灯泡，其销售额在过去几年里猛增。随着机器学习的进步，物联网设备比以往任何时候都更聪明、更复杂。

机器学习有两个主要的与物联网相关的应用：使你的设备变得更好和收集你的数据。让设备变得更好是非常简单的：使用机器学习来个性化您的环境，比如，用面部识别软件来感知哪个是房间，并相应地调整温度和AC。收集数据更加简单，通过在你的家中保持网络连接的设备(如亚马逊回声)的通电和监听，像Amazon这样的公司收集关键的人口统计信息，将其传递给广告商，比如电视显示你正在观看的节目、你什么时候醒来或睡觉、有多少人住在你家。

HOTHOTHOTHOTHOTHOTHOT

2.聊天机器人

在过去的几年里，我们看到了聊天机器人的激增，成熟的语言处理算法每天都在改进它们。聊天机器人被公司用在他们自己的移动应用程序和第三方应用上，比如Slack，以提供比传统的(人类)代表更快、更高效的虚拟客户服务，并对其添加一些命令。

HOTHOTHOTHOTHOTHOTHOT

3.自动驾驶

我个人最喜欢的下一个大型机器学习项目是最远离广泛生产的项目之一。然而，目前有几家大型公司正在开发无人驾驶汽车，如雪佛兰、Uber和Tesla。这些汽车使用了通过机器学习实现导航、维护和安全程序的技术。一个例子是交通标志传感器，它使用监督学习算法来识别和解析交通标志，并将它们与一组标有标记的标准标志进行比较。这样，汽车就能看到停车标志，并认识到它实际上意味着停车，而不是转弯，单向或人行横道。

PART01

MachineLearningBasicConcepts

HOTHOTHOTHOTHOTHOTHOT

1.Difinition

Machinelearningisgenerallydefinedasaprocessinwhichasystemimprovesitself,ormorespecifically,aprocessinwhicha

昆仑山