机器学习之基本术语

15195775117 · 发表于 2022-8-15 22:19:56

登录后查看更多精彩内容~

您需要登录才可以下载或查看，没有帐号？立即注册

x

我们让机器来学习一个买瓜的过程，
我们判断西瓜好坏，是依据其3个【属性】：色泽，根蒂，敲声。
每个瓜是一个【样本】，我们取3个样本（瓜），其属性与【属性值】如下：
(色泽=青绿,根蒂=蜷缩,敲声=浊响)
(色泽=乌黑,根蒂=稍蜷,敲声=沉闷)
(色泽=浅白,根蒂=硬挺,敲声=清脆)
这是3条【记录】，每条记录是该样本的属性和属性值的集合，有些类似字典键值对的样子。
以上3条记录可以合称为一个【数据集】(data set)

注意：
有时，样本也会指一个数据集，这无非是一个瓜和多个瓜的区别。

同义词：
属性 attribute = 特征 feature
样本 sample = 示例 instance

属性张成的空间叫【属性空间】。
我的理解：把样本的每个属性都看成一个维度。

于是，每颗瓜在以色泽，根蒂，敲声为3个坐标轴的空间里，都有自己的坐标，
而这个坐标和原点又形成了该瓜的【特征向量】

同义词：
属性空间 = 样本空间 = 输入空间

从数据中学得【模型】的过程叫【学习】或【训练】
训练过程使用的数据叫【训练数据】，
每个样本叫【训练样本】
训练样本的集合叫【训练集】
数据的潜在规律叫【真相】，学习过程就是为了逼近真相
学得的模型可称为【假设】，它对应着真相，是在给定数据和参数空间上的实例化。

同义词：
学习=训练
真相=真实
模型=学习器

以上的记录没有给出好瓜坏瓜的判断结果，每个样本的结果信息叫做【标记】label
标记的集合叫【标记空间】或【输出空间】

有标记的样本叫【样例】example
如果将标记看作对象本身的一部分，样例也可叫样本。
如果预测的是离散值，如好瓜坏瓜，此类学习任务叫【分类】
如果只有2个类别，则2个分别叫【正类】【反类/负类】
如果有多个类别，叫【多分类】
如果预测的是连续值，如西瓜成熟度，此类学习任务叫【回归】

学得模型后，需要用【测试样本】对模型进行【测试】
测试样本通过模型给出的结果叫【预测标记】

对西瓜做【聚类】，可将西瓜分成若干组，每组叫一个【簇】，
这些簇是在没有标记的情况下自动形成的，是由数据内在规律驱动的，
聚类属于非监督学习。

15195775117 · 发表于 2022-8-15 22:29:03

基本术语，话里有话

我们随便翻开《西瓜书》的某一页，从语法角度，我们可以流畅地阅读，但实际上看不懂，
像《西瓜书》这种专业书籍的基本术语，不能按字面意思来理解，它们都“话里有话”，是带有明确的数学含义的，
比如【属性】，书中是按维度来看的，多个属性是按向量理解的，
如果我们以为属性只是属性，那就完了，后面的推理就完全看不懂了

topmad · 发表于 2022-8-15 23:01:56

真行这么快就开始学习了

几度★夕阳红?_? · 发表于 2022-8-16 07:24:27

真是通俗易懂啊，奥力给！

xiaomaozhao77 · 发表于 2022-8-16 08:11:01

学习中，非常感谢分享

贫道敬孔 · 发表于 2022-8-16 09:22:14

向楼主学习

		自动登录	找回密码
密码			立即注册

[经验总结] 机器学习之基本术语

登录后查看更多精彩内容~

浏览过的版块