您的位置首页生活百科

什么是「过拟合」,如何判断,常见的原因是什么

什么是「过拟合」,如何判断,常见的原因是什么

的有关信息介绍如下:

什么是「过拟合」,如何判断,常见的原因是什么

从标准定义来说,过拟合是指,给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。判断方法是,模型在验证集合上和训练集合上表现都很好,而在测试集合上变现很差。

常见原因主要是学习过度和样本特征不均衡,如果细分,还可以包括(并未能列举全部原因)。

1、建模样本选取有误,样本标签错误等,导致选取的样本数据不足以代表预定的分类规则。

2、样本噪音干扰过大,使得机器将学习了噪音,还认为是特征,从而扰乱了预设的分类规则。

3、假设的模型无法合理存在,或者说是假设成立的条件实际并不成立。

4、参数太多,模型复杂度过高。

5、对于tree-based模型,如果我们对于其深度与split没有合理的限制,有可能使节点只包含单纯的事件数据(event)或非事件数据(no event),使其虽然可以完美匹配(拟合)训练数据,但是无法适应其他数据集。

6、对于神经网络模型,权值学习迭代次数太多(Overtraining),BP算法使权值可能收敛过于复杂的决策面。

解决方法,模型上,神经网络加dropout,batch normalization,基于树的模型限制深度,加入正则化项等,设置提前终止条件。数据上,增加数据集,对数据集进行增强处理(augmentation)。