软件研发

一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果

2018-08-16 09:51:35　|　来源：中培企业IT培训网

例如在上面的例子中，可以把D中的样本排序，然后把前350个正例放到训练集中，也可以把最后350个正例放到训练集中，……这些不同的划分将导致不同的训练／测试集，相应的，模型评估的结果也会有差别，因此，单次使用留出法得到的估计结果往往不够稳定可靠，在使用留出法时，一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果，例如进行100次随机划分，每次产生一个训练／测试集用于实验评估，100次后就得到100个结果，而留出法返回的则是这100个结果的平均．此外，我们希望评估的是用D训练出的模型的性能，但留出法需划分训练／测试集，这就会导致一个窘境：若令训练集S包含绝大多数样本，则训练出的模型可能更接近于用D训练出的模型，但由于T比较小，评估结果可能不够稳定准确；若令测试集T多包含一些样本，则训练集S与D差别更大了，被评估的模型与用D训练出的模型相比可能有较大差别，从而降低了评估结果的保真性(fidelity).这个问题没有完美的解决方案，常见做法是将大约2/3～4/5的样本用于训练，剩余样本用于测试．?

标签：评估结果

上一篇：训练／测试集的划分要尽可能保持数据分布的一致性
下一篇：交叉验证法

软件研发

一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果

猜你喜欢

热门课程

预约领优惠