2.2.2 交叉验证法
“交叉验证法”(cross validation)先将数据集D划分为尼、个大小相似的互斥子集,即D= Di u D2 u...U Dk,DinDj=g(t≠j).每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层采样得到.然后,每次用k-l个子集的并集作为训练集,余下的那个子集作为测试集;这样就可获得南组训练/测试集,从而可进行庇次训练和测试,最终返回的是这庇个测试结果的均值,显然,交叉验证法评估结果的稳定性和保真性在很大程度上取决于忌的取值,为强调这一点,通常把交叉验证法称为“惫折交叉验证”(k-fold cross亦称“忌倍交叉验证”,’validation).露最常用的取值是10,此时称为10折交叉验证;其他常用的忌值有5、20等,图2.2给出了10折交叉验证的示意图.与留出法相似,将数据集D划分为忌个子集同样存在多种划分方式.为减小因样本划分不同而引入的差别,尼折交叉验证通常要随机使用不同的划分重复p次,最终的评估结果是这p次后折交叉验证结果的均值,例如常见的有"10次10折交叉聪证法。