机器学习的30个基本概念,都在这里了
|
其中每个xj(i)为一个特征维度上的取值。
(xj,yj), j=1,2,…,N, xj∈X,yj∈Y 假设空间F通常是由一个参数向量决定的函数族: F={f|Y=fw(X),w∈Rn} 其中,参数向量w取值于n维向量空间Rn,称为参数空间。假设空间F也可定义为条件概率的集合(概率模型): F={P|P(Y|X)} 其中,X是定义在输入空间X上的随机变量,Y是定义在输出空间Y上的随机变量。 上述公式理解起来可能较为抽象,接下来我们通过一个实际的例子来理解相关概念。 首先,在建立模型前,一定会有一个由多个样例组成的样本集,比如: (用户A,{年龄:29,身高:185,年收入:70,婚姻状况:未婚,状态:逾期}) (用户B,{年龄:24,身高:167,年收入:31,婚姻状况:已婚,状态:未逾期}) (用户C,{年龄:46,身高:177,年收入:50,婚姻状况:离异,状态:未逾期}) … 其中每一个用户及其属性对称为一个样本(或观测)。这样的一系列用户及其自身的属性构成了样本集,其中用户“A”“B”“C”构成了样本空间,“特征年龄”“身高”“年收入”“婚姻状况”构成了特征空间。 此外还有一个空间叫作参数空间,即由组成预测函数的参数的所有取值所组成的空间。“状态”这个字段则代表着样本的标签,也就是需要模型来判别的结果。 这个例子中特征空间有4个取值:年龄、身高、年收入、婚姻状况。这4个取值就代表着特征空间中的4个维度,或者说这个特征空间的维度是4。在良好的假设条件下,模型期望每个特征之间互不干扰,然而在实际情况下,通常每个特征之间都有可能存在关系。
比如我们可以将其中两个维度(年龄和身高)画出来。当处于低龄时(即0~8岁),我们可以明显地观察到身高的取值随着年龄增长也在不断地变大,如图3-1所示。 (编辑:孝感站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

