- 积分
- 3628
- 贡献
-
- 精华
- 在线时间
- 小时
- 注册时间
- 2014-10-21
- 最后登录
- 1970-1-1

|
登录后查看更多精彩内容~
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
我们让机器来学习一个买瓜的过程,
我们判断西瓜好坏,是依据其3个【属性】:色泽,根蒂,敲声。
每个瓜是一个【样本】,我们取3个样本(瓜),其属性与【属性值】如下:
(色泽=青绿,根蒂=蜷缩,敲声=浊响)
(色泽=乌黑,根蒂=稍蜷,敲声=沉闷)
(色泽=浅白,根蒂=硬挺,敲声=清脆)
这是3条【记录】,每条记录是该样本的属性和属性值的集合,有些类似字典键值对的样子。
以上3条记录可以合称为一个【数据集】(data set)
注意:
有时,样本也会指一个数据集,这无非是一个瓜和多个瓜的区别。
同义词:
属性 attribute = 特征 feature
样本 sample = 示例 instance
属性张成的空间叫【属性空间】。
我的理解:把样本的每个属性都看成一个维度。
于是,每颗瓜在以色泽,根蒂,敲声为3个坐标轴的空间里,都有自己的坐标,
而这个坐标和原点又形成了该瓜的【特征向量】
同义词:
属性空间 = 样本空间 = 输入空间
从数据中学得【模型】的过程叫【学习】或【训练】
训练过程使用的数据叫【训练数据】,
每个样本叫【训练样本】
训练样本的集合叫【训练集】
数据的潜在规律叫【真相】,学习过程就是为了逼近真相
学得的模型可称为【假设】,它对应着真相,是在给定数据和参数空间上的实例化。
同义词:
学习=训练
真相=真实
模型=学习器
以上的记录没有给出好瓜坏瓜的判断结果,每个样本的结果信息叫做【标记】label
标记的集合叫【标记空间】或【输出空间】
有标记的样本叫【样例】example
如果将标记看作对象本身的一部分,样例也可叫样本。
如果预测的是离散值,如好瓜坏瓜,此类学习任务叫【分类】
如果只有2个类别,则2个分别叫【正类】【反类/负类】
如果有多个类别,叫【多分类】
如果预测的是连续值,如西瓜成熟度,此类学习任务叫【回归】
学得模型后,需要用【测试样本】对模型进行【测试】
测试样本通过模型给出的结果叫【预测标记】
对西瓜做【聚类】,可将西瓜分成若干组,每组叫一个【簇】,
这些簇是在没有标记的情况下自动形成的,是由数据内在规律驱动的,
聚类属于非监督学习。
|
|