- 积分
- 3638
- 贡献
-
- 精华
- 在线时间
- 小时
- 注册时间
- 2014-10-21
- 最后登录
- 1970-1-1
|
登录后查看更多精彩内容~
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
模型选择问题
面对具体的问题,首要的是选择用哪种模型。
这就是机器学习中的【模型选择问题】------“如何选择最佳的算法(模型)和参数?”
训练误差/经验误差
如果模型完全符合样例,那八成会【过拟合】。
为了泛化性,模型对【训练样本】的【预测输出】,与样例的【真实输出】会有差异,该差异叫【训练误差】或【经验误差】。
【训练误差】不好作为模型优劣的评价标准,因为【训练误差】包含着我们对【过拟合】的妥协,存在着主观性,是人为控制的。
注意:
过拟合是无法避免的,只能缓解,它是机器学习的关键障碍。
泛化误差-->测试误差
模型在新样本上的误差叫【泛化误差】,
评价模型好坏,就看它的【泛化误差】的大小。
但【泛化误差】是无法求的,因为新样本通常是无限多的,
通常用模型在【测试集】的【测试误差】作为【泛化误差】的近似。
通常,我们训练模型的数据就是“一整堆”,我们得自己划分【训练集S】和【测试集T】。
注意:【测试集】应尽可能与【训练集】互斥,即测试样例不要出现在训练集中。
从数据集划分训练集和测试集的方法有多种成熟模式,后面说。
番外:分类模型的评价
分类问题中,
模型分类错误的比例叫【错误率】,
正确的比例叫【精度】,也就是正确率。
显然,【错误率】+【精度】=1
|
|