请选择 进入手机版 | 继续访问电脑版
爱气象,爱气象家园! 

气象家园

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博登陆

只需一步, 快速开始

搜索
查看: 235|回复: 5

[经验总结] 机器学习之基本术语

[复制链接]

新浪微博达人勋

发表于 2022-8-15 22:19:56 | 显示全部楼层 |阅读模式

登录后查看更多精彩内容~

您需要 登录 才可以下载或查看,没有帐号?立即注册 新浪微博登陆

x
我们让机器来学习一个买瓜的过程,
我们判断西瓜好坏,是依据其3个【属性】:色泽,根蒂,敲声。
每个瓜是一个【样本】,我们取3个样本(瓜),其属性与【属性值】如下:
(色泽=青绿,根蒂=蜷缩,敲声=浊响)
(色泽=乌黑,根蒂=稍蜷,敲声=沉闷)
(色泽=浅白,根蒂=硬挺,敲声=清脆)
这是3条【记录】,每条记录是该样本的属性和属性值的集合,有些类似字典键值对的样子。
以上3条记录可以合称为一个【数据集】(data set)

注意:
有时,样本也会指一个数据集,这无非是一个瓜和多个瓜的区别。

同义词:
属性 attribute = 特征 feature
样本 sample = 示例 instance


属性张成的空间叫【属性空间】。
我的理解:把样本的每个属性都看成一个维度。

于是,每颗瓜在以色泽,根蒂,敲声为3个坐标轴的空间里,都有自己的坐标,
而这个坐标和原点又形成了该瓜的【特征向量】

同义词:

属性空间 = 样本空间 = 输入空间

从数据中学得【模型】的过程叫【学习】或【训练】
训练过程使用的数据叫【训练数据】,

每个样本叫【训练样本】
训练样本的集合叫【训练集】
数据的潜在规律叫【真相】,学习过程就是为了逼近真相
学得的模型可称为【假设】,它对应着真相,是在给定数据和参数空间上的实例化。

同义词:
学习=训练
真相=真实
模型=学习器


以上的记录没有给出好瓜坏瓜的判断结果,每个样本的结果信息叫做【标记】label
标记的集合叫【标记空间】或【输出空间】

有标记的样本叫【样例】example
如果将标记看作对象本身的一部分,样例也可叫样本。
如果预测的是离散值,如好瓜坏瓜,此类学习任务叫【分类】
如果只有2个类别,则2个分别叫【正类】【反类/负类】
如果有多个类别,叫【多分类】
如果预测的是连续值,如西瓜成熟度,此类学习任务叫【回归】

学得模型后,需要用【测试样本】对模型进行【测试】
测试样本通过模型给出的结果叫【预测标记】

对西瓜做【聚类】,可将西瓜分成若干组,每组叫一个【簇】,

这些簇是在没有标记的情况下自动形成的,是由数据内在规律驱动的,
聚类属于非监督学习。




密码修改失败请联系微信:mofangbao

新浪微博达人勋

 楼主| 发表于 2022-8-15 22:29:03 | 显示全部楼层
基本术语,话里有话

我们随便翻开《西瓜书》的某一页,从语法角度,我们可以流畅地阅读,但实际上看不懂,
像《西瓜书》这种专业书籍的基本术语,不能按字面意思来理解,它们都“话里有话”,是带有明确的数学含义的,
比如【属性】,书中是按维度来看的,多个属性是按向量理解的,
如果我们以为属性只是属性,那就完了,后面的推理就完全看不懂了

密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

新浪微博达人勋

发表于 2022-8-15 23:01:56 | 显示全部楼层
真行 这么快就开始学习了
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

新浪微博达人勋

发表于 2022-8-16 07:24:27 | 显示全部楼层
真是通俗易懂啊,奥力给!
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

新浪微博达人勋

发表于 2022-8-16 08:11:01 | 显示全部楼层
学习中,非常感谢分享
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

新浪微博达人勋

发表于 2022-8-16 09:22:14 | 显示全部楼层
向楼主学习
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

Copyright ©2011-2014 bbs.06climate.com All Rights Reserved.  Powered by Discuz! (京ICP-10201084)

本站信息均由会员发表,不代表气象家园立场,禁止在本站发表与国家法律相抵触言论

快速回复 返回顶部 返回列表