爱气象,爱气象家园! 

气象家园

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博登陆

只需一步, 快速开始

搜索
查看: 11571|回复: 1

[经验总结] 机器学习之数据分布特征

[复制链接]

新浪微博达人勋

发表于 2022-10-5 17:39:28 | 显示全部楼层 |阅读模式

登录后查看更多精彩内容~

您需要 登录 才可以下载或查看,没有帐号?立即注册 新浪微博登陆

x
数据结构是算法的基础,
数据质量是科研的生命,
大多数算法模型对数据的统计特征都是有要求的,
如果数据跟假设的不一样,结果往往也“不能直视”。
所以,我们需要用一些【测度】来表征数据的特征。


数据特征
测度
介绍
算法
集中趋势
均值

众数
不受极端值影响

中位数

调和平均数
应用很少

几何平均数
仅适用于具有等比或近似等比关系的数据

离散程度
(描述离散程度的测度值也叫【变异指标】)

异众比率
讲的是众数

极差

最大值-最小值
四分位差=四分位数=内距=四分间距

上四分位-下四分位
方差,标准差

离散系数
不同组数据的方差/标准差之间无法对比,2组数据的离散程度,可以用离散系数对比
方差或标准差/均值
偏态
偏态系数(SK)
是对数据分布的偏移方向和程度的描述
看百度百科。偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。
峰度
峰度系数
是对数据分布的扁平程度的描述
看百度百科



密码修改失败请联系微信:mofangbao

新浪微博达人勋

发表于 2023-10-26 09:14:05 | 显示全部楼层
老师,现在还在做机器学习这一块么
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

Copyright ©2011-2014 bbs.06climate.com All Rights Reserved.  Powered by Discuz! (京ICP-10201084)

本站信息均由会员发表,不代表气象家园立场,禁止在本站发表与国家法律相抵触言论

快速回复 返回顶部 返回列表