机器学习的30个基本概念，都在这里了

发布时间：2021-02-22 16:45:44 所属栏目：动态来源：互联网

导读：其中每个xj(i)为一个特征维度上的取值。标记（Label）：又称样本标签，用于描述事物某个特性的事项。标记值：标记的取值。在二分类问题中，取值通常为0和1。标记空间（输出空间）：所有标记的集合，记为Y。样例（Sample）：又称样本。拥有了对应标记的记

其中每个xj(i)为一个特征维度上的取值。

(xj，yj)， j=1，2，…，N， xj∈X，yj∈Y

假设空间F通常是由一个参数向量决定的函数族：

F={f|Y=fw(X)，w∈Rn}

其中，参数向量w取值于n维向量空间Rn，称为参数空间。假设空间F也可定义为条件概率的集合（概率模型）：

F={P|P(Y|X)}

其中，X是定义在输入空间X上的随机变量，Y是定义在输出空间Y上的随机变量。

上述公式理解起来可能较为抽象，接下来我们通过一个实际的例子来理解相关概念。

首先，在建立模型前，一定会有一个由多个样例组成的样本集，比如：

（用户A，{年龄：29，身高：185，年收入：70，婚姻状况：未婚，状态：逾期}）

（用户B，{年龄：24，身高：167，年收入：31，婚姻状况：已婚，状态：未逾期}）

（用户C，{年龄：46，身高：177，年收入：50，婚姻状况：离异，状态：未逾期}）

…

其中每一个用户及其属性对称为一个样本（或观测）。这样的一系列用户及其自身的属性构成了样本集，其中用户“A”“B”“C”构成了样本空间，“特征年龄”“身高”“年收入”“婚姻状况”构成了特征空间。

此外还有一个空间叫作参数空间，即由组成预测函数的参数的所有取值所组成的空间。“状态”这个字段则代表着样本的标签，也就是需要模型来判别的结果。

这个例子中特征空间有4个取值：年龄、身高、年收入、婚姻状况。这4个取值就代表着特征空间中的4个维度，或者说这个特征空间的维度是4。在良好的假设条件下，模型期望每个特征之间互不干扰，然而在实际情况下，通常每个特征之间都有可能存在关系。

比如我们可以将其中两个维度（年龄和身高）画出来。当处于低龄时（即0～8岁），我们可以明显地观察到身高的取值随着年龄增长也在不断地变大，如图3-1所示。

（编辑：孝感站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

我们自己能决定平台推	用互联网来分配能源，
科沃斯石头科技开展打	沉浸式陷入内卷国内