本文转自AI科技大本营
机器学习中的数据偏差是一种错误,其中数据集的某些元素比其他元素具有更大的权重和或表示。有偏见的数据集不能准确地表示模型的用例,从而导致结果偏斜,准确性水平低和分析错误。
通常,用于机器学习项目的训练数据必须代表现实世界。这很重要,因为这些数据是机器学习如何完成其工作的方式。数据偏差可能会发生在从人类报告和选择偏差到算法和解释偏差的一系列区域中。下图是仅在数据收集和注释阶段可能出现的各种偏差的一个很好的示例。
解决机器学习项目中的数据偏差意味着首先确定它在哪里。只有在知道存在偏见的地方之后,你才可以采取必要的措施来纠正它,无论是解决数据不足还是改善注释过程的问题。考虑到这一点,请务必对数据的范围,质量和处理保持警惕,以免产生偏差。这不仅影响模型的准确性,而且还会涉及道德,公平和包容性问题。
下面,我列出了机器学习中最常见的7种数据偏见类型,以帮助你分析和了解其发生的位置以及你可以采取的措施。
(如果你需要有关机器学习项目的数据收集和数据标签的更多信息,请在阅读本文的其余部分之前,这里有一个链接,可详细了解有关机器学习的训练数据。)
点击阅读原文,了解更多