随着公司和决策者越来越多地依靠机器学习来理解大量数据,确保用于机器学习问题的训练数据的质量变得至关重要。该数据由人工数据注释者(通常从在线众包平台雇用)进行编码和标记,这引起了人们的担忧,即数据注释者会在不经意间在过程中引入偏见,最终降低机器学习应用程序输出的可信度。
由橡树岭国家实验室的 Gautam Thakur 领导的一组科学家开发了一种新的科学方法来筛选人类数据注释者的偏见,确保机器学习任务的高质量数据输入。研究人员还设计了一个名为 ThirdEye的在线平台,可以扩大筛选过程。
“我们已经创建了一种非常系统、非常科学的方法来寻找好的数据注释器,”Thakur 说。“这种急需的方法将改善围绕舆论、在线叙述和信息感知的机器学习决策的结果和现实性。”
2016 年秋季的英国脱欧公投为 Thakur 和他的同事 Dasha Herrmannova、Bryan Eaton 和 Jordan Burdette 以及合作者 Janna Caspersen 和 Rodney "RJ" Mosquito 提供了一个机会来测试他们的方法。他们研究了如何将五种常见的态度和知识度量结合起来,以创建数据注释者的匿名档案,他们可能会以最准确、无偏见的方式标记用于机器学习应用程序的数据。他们使用 2019 年以来的数千个社交媒体帖子测试了来自 26 个国家/地区的 100 名潜在数据注释者。
“假设您想使用机器学习来检测人们在谈论什么。就我们的研究而言,他们是在以积极还是消极的方式谈论英国退欧?数据注释者是否可能将数据标记为仅反映他们对离开或离开的信念?留在欧盟是因为他们的偏见影响了他们的表现?” 塔库尔说。“能够抛开自己的信念的数据注释者将提供更准确的数据标签,我们的研究有助于找到它们。”
研究人员的混合方法设计使用定性测量筛选数据注释者,以了解他们的态度和信仰。然后,他们针对一位对英国脱欧和英国地缘气候具有广泛知识的主题专家以及一位在煽动性语言和在线宣传方面具有专业知识的社会科学家,对分配给社交媒体帖子的标签注释者进行了统计分析。
Thakur 强调,该团队的方法可以通过两种方式进行扩展。首先,它跨越领域,影响与交通、气候和机器人决策相关的机器学习问题的数据质量,以及与国家安全相关的医疗保健和地缘叙事。其次,该团队的开源交互式网络平台 ThirdEye 扩大了态度和信念的测量范围,允许对更大的潜在数据注释者群体进行分析,并更快地确定最佳员工。
“这项研究有力地表明,数据注释者的道德、偏见和有关叙述的先验知识会显着影响标记数据的质量,从而影响机器学习模型的性能,”塔库尔说。“依赖标记数据来理解叙述的机器学习项目如果要对他们的结果做出明确的陈述,就必须对数据注释者的世界观进行定性评估。”