人类协议重新定义了数据标记和众包的市场,以实现更好的准确性
人类协议重新定义了数据标记和众包的市场,以实现更好的准确性
人工智能(AI)只有在对高质量数据进行培训的情况下才能实现其目的。 AI算法的成功在很大程度上取决于所使用的培训数据的质量和数量。 因此,它不应该感到惊讶 AI项目的创建专门用于优化训练数据
大多数AI项目都面临着收集或购买高质量数据的艰巨任务。 在几种情况下,项目通常以低质量数据或标记数据结尾。 尽管近年来已经创建了几种数据识别服务,这些服务在一定程度上面临着挑战,但他们有自己的问题。 质量低的标记数据的主要原因是,例如用于标签的人员,过程或技术。
但是标记的数据到底是什么?
数据标记:AI模型的燃料
与AI相关,标记的数据与“标记或评论”的数据有关,以便机器学习模型可以预测所需的结果。 通常,整个数据识别过程通常包括多个步骤,例如数据注释,分类,标记,适度和处理。
数据标记的方法可以独立于彼此或组合使用。 这包括内部数据标记,外包,众包和使用机器的使用(使用机器学习算法标记数据)。
根据问题的复杂性,AI项目经常使用广泛的标记过程,以便将未标记的数据转换为您需要教的AI模型所需的培训数据,这些数据可以识别为创建所需的版本。
许多可用方法是众包,其中第三方平台用于同时访问大量的人工工人,这是项目的最常用策略之一来识别数据。 近年来,除其他外,亚马逊MTURK,Appen Meeta Dash,Label Box和Tagog等几个平台已成为一些最有希望的平台,用于众包人类工人进行数据标记。
但是,几个项目对众包平台的数据质量表示担忧。 例如,使用亚马逊机械土耳其人(MTURK)进行数据质量问题,该问题可以追溯到2018年。许多数据研究人员怀疑,还确定了使用机器人和全自动代码或脚本的数据,以便快速支持对某些数据集的反应中的人。
问题的一部分归因于来自不同位置的用户使用VPN参与不适合其区域方案的调查和问卷。 由于众包平台适当地向人工付款以完成任务,因此用户经常参加双重活动以实现更多的收入。 例如,来自不同国家 /地区的许多用户可以使用VPN参与需要美国居民某些答案的数据识别程序。 这导致了劣等和荒谬的答案,进而降低了数据质量。
如果提交了低质量数据,这会引起有关现有质量保证过程的严重问题。 由于大多数现有的用于数据识别的众包平台都是强烈集中的,因此几乎不可能评估质量和工作流程。 所有这些问题,再加上区块链技术的类似彗星的增长,为分散且无批准的众包解决方案铺平了道路。
在这里,人类协议通过创建一个支持无许可的劳动力市场的基础设施来提出一种新的数据标记方法,这些方法也为人工提供工作,并为组织提供了工作,并使组织访问工人 - 所有中央中间人都没有。
人类协议自然是一个分散且自动化的开源基础架构,为人类工作的组织,评估和报酬提供了混合框架。 人类协议既服务于雇员和雇主的利益。 结果,它可以用于各种应用程序,包括众包和基于演出的项目。 尽管人类协议几乎普遍适用,但它首先关注与机器学习(ML)相关的分散市场的支持。 更确切地说,人类协议使记录大量高质量的人类评论数据变得更加容易,同时保持最佳服务水平。 >最初来自Hcaptcha是Web 2.0上最受欢迎和测试的Captcha Services之一HCAPTCHA,此后,该平台通过为几乎每个任务识别数据识别的全能市场提供了支持的全能市场,从而确立了一个完全独特的单位。 人类就业市场当前提供视频,图像和文字援助市场,在这些市场上,买家和卖家都聚集在一起。 基础协议可以将作业(任务)分配给许多这些市场,并将其发送到相应的交易所(工人用来完成工作的应用程序)。 此外,它可以抵消所有就业市场上的数据,以确保质量。 此外,人类协议团队还为每个就业市场选择了最佳的可用工具。 他们已经开发了交流,并不断优化它们,为员工提供完成所需任务所需的一切。 该协议还包含维护对传输作业的端到端质量控制的工具。 这有效地意味着,如果在同一交易所进行类似的工作,请求将获得更确定性的结果。 毕竟,与强烈集中和微管理的平台相比,人类协议提供了完全开放的解决方案,这使各种项目能够使用其基础架构。 此外,它还提供了帮助项目添加自己的工具以更精确,有效和没有中间经销商的数据标记的要求。 最重要的是,由于该协议的区块链技术的应用,除了数百万的微付款之外,工作的清单,分配和报酬是自动化的,以促进交易和计费,以实现有序,可靠和公平的方式。
促进无批准的就业市场
> > > > > > > 资料来源:加密 - news-flash.com
Kommentare (0)