影响可信度的七个常见错误

发布时间：2021-02-22 16:53:38 所属栏目：外闻来源：互联网

导读：初学者常常会犯数据和模型滥用这个错误。在常见的情况下，实验设计存在缺陷，例如训练数据用作测试数据。使用简单的分类器，这导致大多数问题的识别率达到100%。在更复杂，更深入的模型中，精度可能不是100%，而是9899%。因此，如果在第一张照片中获得了如

初学者常常会犯数据和模型滥用这个错误。在常见的情况下，实验设计存在缺陷，例如训练数据用作测试数据。使用简单的分类器，这导致大多数问题的识别率达到100%。在更复杂，更深入的模型中，精度可能不是100%，而是98–99%。

因此，如果在第一张照片中获得了如此高的识别率，则应仔细检查实验设置。但是，如果使用新数据，模型将完全崩溃，甚至可能产生比随机猜测更糟糕的结果，即准确度低于1 / K，其中K是类别数，例如两类问题的比例不到50%。

在同一行中，还可以通过增加参数的数量来轻松过拟合模型，从而完全记住训练数据集。另一个变体是使用过小的训练集，它不能代表您的应用程序。所有这些模型都可能会破坏新数据，即在实际应用场景中使用时。

错误2：不公平的比较

即使是机器学习方面的专家也会犯这种错误。如果想要证明你的新方法比最先进的方法更好，它通常会被提交。特别是研究论文往往会屈服于这一点，以说服评审者他们的方法具有优越性。

在最简单的情况下，从某个公共存储库下载一个模型，并使用这个模型，而不需要对模型进行微调或适当的超参数搜索，这个模型是针对当前的问题开发的，你可以调整所有参数以获得优质的测试数据性能。

关于这个错误，最近的一个例子是Isensee等人在论文中证明了原始的U-net几乎胜过所有自2015年以来针对十个不同问题提出的对该方法的改进。

因此，在应用于新建议的方法时，应该始终对比较新的模型执行相同数量的参数调优。

错误3：微不足道的进步

（编辑：孝感站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

谷歌成立高速互联网项	日本企业正在研发新型
9月开学季，看韩国德国	马斯克全球仍需要石油