爱气象,爱气象家园! 

气象家园

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 9641|回复: 10

[经验总结] 机器学习之【性能度量】

[复制链接]
发表于 2022-8-20 00:23:57 | 显示全部楼层 |阅读模式

登录后查看更多精彩内容~

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
1、概念简介

评价模型好坏(也就是它的【泛化性能】)的标准,叫【性能度量】

一个模型的【性能度量】有多种方式,【任务需求】不同,侧重点就不同。

比如,精确和速度往往是一对矛盾,学术界偏向精确,公司偏向速度。

可以理解为具有一定的主观色彩。

以下介绍几种常见的性能度量。

密码修改失败请联系微信:mofangbao
 楼主| 发表于 2022-8-20 00:28:10 | 显示全部楼层
2、【均方误差】


其实就是,预测值与实际值之差的平方,的均值。


公式如下:


均方误差.jpg
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-8-20 00:32:13 | 显示全部楼层
3、【错误率】和【精度】

分类问题专用,
【错误率】=分错的比例
【精度】=分对的比例,也就是正确率
所以,【错误率】+【精度】=1

以下公式唬人,含义却很白痴,
乍惊之后,露出了不屑的表情~~

错误率与精度.jpg

密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-8-20 01:21:20 | 显示全部楼层
4、【查准率】和【查全率】

【错误率】和【精度】只管判断对错,不管结果的“正反”,
【查准率】和【查全率】是在判断对错上,又加了结果正反的因素。

易懂实例:

比如现在有10个瓜,5好5坏,
好瓜中,4个判对了,1个判成了坏瓜,
坏瓜中,2个判成了好瓜,3个判对了。

我们把以上结果做成一个表:

判为好瓜 判为坏瓜
实际好瓜 4(真正例) 1(假反例)
实际坏瓜 2(假正例) 3(真反例)

这种表有个专用名称:【分类结果混淆矩阵】

那么:

【查准率】是指,“判为好瓜的判断”的正确率,即4/(4+2)
【查全率】是指,实际的好瓜,有多少被正确判断出来,即4/(4+1)

几个概念与术语:

实际好瓜,且判为好瓜的,叫【真正例】TP
实际好瓜,且判为坏瓜的,叫【假反例】FN
实际坏瓜,且判为好瓜的,叫【假正例】FP
实际坏瓜,且判为坏瓜的,叫【真反例】TN

其中,
“真假”是指判断的对错,
“正反”是指判断的瓜的好坏,不是实际好坏。
T代表True,F代表False
P代表Positive,N代表Negative

查准率一般用P表示;
查全率一般用R表示

应用场景举例:

以广告推广为例,
查准率:推给用户的广告,多少是用户感兴趣的?100/(100+300)
查全率:用户会感兴趣的广告,推了多少?100/(100+400)

推了 没推
感兴趣的 100400
不感兴趣 300200






密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-8-20 11:45:29 | 显示全部楼层
本帖最后由 15195775117 于 2022-8-20 11:46 编辑

5、P-R曲线

【查准率】与【查全率】经常难以两全,存在着矛盾,
以广告推广为例,你公司有10000支广告,用户对其中100支感兴趣,你又不知道是哪100支,
你的推送算法可以是精选100支推出去,这样你的【查准率】就高,
也可以把10000支都推出去,由于这里包含了用户感兴趣了100支,那【查全率】就最高,但【查准率】就低了。

【查准率】关系着用户体验,
【查全率】关系着公司库存广告的利用率。

表征二者关系有个工具,叫【P-R曲线】或【P-R图】,定义如下:

PR曲线.jpg

密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-8-20 12:15:00 | 显示全部楼层
本帖最后由 15195775117 于 2022-8-20 12:54 编辑

6、从【P-R曲线】看性能

【P-R曲线】可以表征模型(即算法)的性能,
把多个模型的【P-R曲线】画在一起,可以对比优劣。
但是,如何比较呢?以下是几个评价指标。

指标1:面积

不可取。

评价PR.jpg

指标2:【平衡点BEP】

过于简单。

这个点的位置,画在上一楼的P-R曲线图中。

BEP.jpg

指标3:【F1】

比较常用。

这个“1”从何而来?其实是跟后面的【Fβ】比照来的。
【F1】是P和R的调和平均。

F1.jpg

指标4:【Fβ】

可以自由控制对【查全率】和【查准率】的偏好程度。
β=1,则Fβ=F1。
【Fβ】是P和R的加权调和平均。

FB.jpg

一些更遥远的推广演绎:

【宏查准率】【宏查全率】【宏F1】
【微查准率】【微查全率】【微F1】

这几个概念我没细看,
因为了解前面的基本知识就行了,这里无非是在数量和范围上的推广,
等用到了,再细看。

宏微.jpg
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-8-20 18:24:48 | 显示全部楼层
7、ROC曲线

【ROC曲线】类似【P-R曲线】
据说诞生于二战,应用于对"虚惊警报"和"真实警报"的分析。

这个曲线的内涵,我还没有吃透,
以我的理解,
【P-R曲线】将结果分为“非此即彼”的正负二态,
而ROC额外支持了90%正、60%负的过渡状态。
好比,以前的显示器的像素点,只有明暗二态,也就只有黑白二色;
后来,黑与白中间的过渡色---【灰阶】被发明出来。

ROC曲线的需求由来:

ROC的由来.jpg

ROC的公式定义:

ROC和PR都是由【混淆矩阵】来的

ROC的定义.jpg

ROC图的画法和含义:

对角线代表“瞎蒙”对错各一半,要是比这更差,就把模型反过来。

ROC图的画法与含义.jpg

从ROC曲线比较模型性能---看面积AUC:

PR曲线的面积不好算,ROC的面积AUC可能是好算的。

ROC优劣比较.jpg

排序损失:

排序造成的误差,
Lrank中的L代表Loss,rank=排序
Lrank+AUC=1

排序损失.jpg


密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-8-21 16:40:24 | 显示全部楼层
8、【代价曲线】

PR曲线和ROC曲线都没有考虑不同的错误的代价是不一样的,

扎心实例:

航空气象系统有个潜规则:
有打雷的可能,哪怕很低,也一定要报打雷。
因为飞机最怕打雷了。
预报了打雷,实际没打雷,降低了预报准确率,不痛不痒;
预报不打雷,实际打雷了,全系统通报批评,评奖评优也就别想了。

理论原理:

所以,我们为不同的预测错误赋予【非均等代价】,
可理解为一种代价的权重,
那么,评价模型的标准就是【总体代价】了。
我们用一个考虑了代价的错误率来表征【总体代价】,
它就是【代价敏感错误率】=所有预测的代价的均值。
由于预测对了代价=0,所以,如果都预测对了,结果是0

代价曲线的画法:

代价曲线原理.jpg

代价曲线.jpg



密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

发表于 2022-8-22 11:05:15 | 显示全部楼层
今天的内容有点多..感觉一口吃不进去了
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-8-22 13:23:24 | 显示全部楼层
topmad 发表于 2022-8-22 11:05
今天的内容有点多..感觉一口吃不进去了

我也感觉写得挺累,
盖中盖高钙片,一片顶十片!
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright ©2011-2014 bbs.06climate.com All Rights Reserved.  Powered by Discuz! (京ICP-10201084)

本站信息均由会员发表,不代表气象家园立场,禁止在本站发表与国家法律相抵触言论

快速回复 返回顶部 返回列表