请选择 进入手机版 | 继续访问电脑版
爱气象,爱气象家园! 

气象家园

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博登陆

只需一步, 快速开始

搜索
查看: 132|回复: 4

[经验总结] 机器学习之【训练集】和【测试集】的划分方法

[复制链接]

新浪微博达人勋

发表于 2022-8-18 20:40:49 | 显示全部楼层 |阅读模式

登录后查看更多精彩内容~

您需要 登录 才可以下载或查看,没有帐号?立即注册 新浪微博登陆

x
我们手里有一堆样本,如何划分出【训练集】和【测试集】呢?
有几种成熟的方法。

1、留出法

这个名字有些词不达意,
其实它是最容易被想到的方法,就是把手里有的样例直接分成2部分,一部分用来训练,一部分用来测试。

按惯例,将2/3~4/5的样本用于训练,其余用于测试。

单次留出法的结果不够可靠,一般进行若干次随机划分,多次评估后取均值。

注意:
划分存在一个风险,就是出现S和T的样例类型差别大的情况,
比如,样例是100男和100女,训练样本100男40女,测试样本0男60女,那就会出问题。
能保留类别比例的采样方式叫【分层采样】

密码修改失败请联系微信:mofangbao

新浪微博达人勋

 楼主| 发表于 2022-8-18 21:09:38 | 显示全部楼层
2、交叉验证法

这又是一个简单的想法。

把样本大致均等地分10份,
以其中9份为训练集,剩余1份为测试集,获得结果,
10份样本轮流充当测试集,也就得到10个结果,
最后取这10个结果的均值。

【10折交叉验证】是常用方法,如果将10推广为数字k,则有【k折交叉验证】

为了防止最初的分类造成误差,我们再进行p次划分,每次划分后重复以上的过程,则有【p次k折交叉验证】,常用的是【10次10折交叉验证】

观察交叉验证法的过程,我们发现,划分得越细,训练次数越多。
有个特殊情况是一份只有1个样本,叫【留一法(LOO)】
留一法的优势是准确,劣势是开销大:
1000个样本,按900+100分,要训练10次
按999+1分,要训练1000次。


密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

新浪微博达人勋

 楼主| 发表于 2022-8-18 21:41:21 | 显示全部楼层
3、自助法

当手里的样本比较少时,可使用该法。

过程如下:
你有一副扑|克牌(54张),
随机抽1张,记下牌后塞回去,重复54次,
理论上,没有被抽过的牌占36.8%,
我们记录的54张牌中有重复的,

以被抽过的54张牌为训练集,从没被抽过的牌为测试集,获得的结果叫【包外估计】


密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

新浪微博达人勋

 楼主| 发表于 2022-8-18 22:00:35 | 显示全部楼层
4、调参与最终模型

以上的划分方法,模型每次训练都没有使用全部样本,
最后要让模型在所有样本上跑一下,才算是交付的模型。

如果把模型在【生产模式】处理的样本叫【测试集】,
那么开发阶段的【测试集】就改称【验证集】,
【验证集】用来模型选择和调参。


密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

新浪微博达人勋

发表于 2022-8-19 09:33:35 | 显示全部楼层
UP感谢分享{:5_213:}
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

Copyright ©2011-2014 bbs.06climate.com All Rights Reserved.  Powered by Discuz! (京ICP-10201084)

本站信息均由会员发表,不代表气象家园立场,禁止在本站发表与国家法律相抵触言论

快速回复 返回顶部 返回列表