加入收藏 | 设为首页 | 会员中心 | 我要投稿 孝感站长网 (https://www.0712zz.com.cn/)- 运营、云管理、管理运维、云计算、大数据!
当前位置: 首页 > 站长资讯 > 动态 > 正文

机器学习的30个基本概念,都在这里了

发布时间:2021-02-22 16:45:44 所属栏目:动态 来源:互联网
导读:其中每个xj(i)为一个特征维度上的取值。 标记(Label):又称样本标签,用于描述事物某个特性的事项。 标记值:标记的取值。在二分类问题中,取值通常为0和1。 标记空间(输出空间):所有标记的集合,记为Y。 样例(Sample):又称样本。拥有了对应标记的记

其中每个xj(i)为一个特征维度上的取值。

  •  标记(Label):又称样本标签,用于描述事物某个特性的事项。
  •  标记值:标记的取值。在二分类问题中,取值通常为0和1。
  •  标记空间(输出空间):所有标记的集合,记为Y。
  •  样例(Sample):又称样本。拥有了对应标记的记录,由(记录,标记)对表示。例如,第j个样例可以表示为:

  (xj,yj), j=1,2,…,N, xj∈X,yj∈Y

假设空间F通常是由一个参数向量决定的函数族:

F={f|Y=fw(X),w∈Rn}

其中,参数向量w取值于n维向量空间Rn,称为参数空间。假设空间F也可定义为条件概率的集合(概率模型):

F={P|P(Y|X)}

其中,X是定义在输入空间X上的随机变量,Y是定义在输出空间Y上的随机变量。

上述公式理解起来可能较为抽象,接下来我们通过一个实际的例子来理解相关概念。

首先,在建立模型前,一定会有一个由多个样例组成的样本集,比如:

(用户A,{年龄:29,身高:185,年收入:70,婚姻状况:未婚,状态:逾期})

(用户B,{年龄:24,身高:167,年收入:31,婚姻状况:已婚,状态:未逾期})

(用户C,{年龄:46,身高:177,年收入:50,婚姻状况:离异,状态:未逾期})

其中每一个用户及其属性对称为一个样本(或观测)。这样的一系列用户及其自身的属性构成了样本集,其中用户“A”“B”“C”构成了样本空间,“特征年龄”“身高”“年收入”“婚姻状况”构成了特征空间。

此外还有一个空间叫作参数空间,即由组成预测函数的参数的所有取值所组成的空间。“状态”这个字段则代表着样本的标签,也就是需要模型来判别的结果。

这个例子中特征空间有4个取值:年龄、身高、年收入、婚姻状况。这4个取值就代表着特征空间中的4个维度,或者说这个特征空间的维度是4。在良好的假设条件下,模型期望每个特征之间互不干扰,然而在实际情况下,通常每个特征之间都有可能存在关系。

比如我们可以将其中两个维度(年龄和身高)画出来。当处于低龄时(即0~8岁),我们可以明显地观察到身高的取值随着年龄增长也在不断地变大,如图3-1所示。



 

(编辑:孝感站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读