Le protocole humain redéfinit le marché du marquage des données et du crowdsourcing pour atteindre une meilleure précision

Le protocole humain redéfinit le marché du marquage des données et du crowdsourcing pour atteindre une meilleure précision

 )

L'intelligence artificielle (AI) ne peut atteindre son objectif que si elle est formée sur des données de haute qualité. Le succès d'un algorithme d'IA dépend en grande partie de la qualité et de la quantité des données de formation utilisées. En conséquence, il ne devrait pas surprendre La création d'un projet d'IA est consacrée à l'optimisation des données de formation

La plupart des projets IA sont confrontés à la tâche difficile de collecter ou d'acheter des données de haute qualité. Il existe plusieurs cas dans lesquels les projets se terminent souvent par des données de faible qualité ou des données marquées. Bien que plusieurs services d'identification des données aient été créés ces dernières années qui sont confrontés au défi dans une certaine mesure, ils ont leurs propres problèmes. Les principales raisons des données marquées de faible qualité sont, par exemple, les personnes, les processus ou les technologies utilisées pour l'étiquetage.

Mais quelles sont exactement les données étiquetées?

Marquage des données: le carburant pour les modèles AI

En relation avec l'IA, les données marquées concernent des données "marquées ou commentées" afin qu'un modèle d'apprentissage automatique puisse prédire le résultat souhaité. En général, l'ensemble du processus d'identification des données comprend généralement plusieurs étapes, telles que les commentaires de données, la classification, le marquage, la modération et le traitement.

Il existe plusieurs approches de l'étiquetage des données qui peuvent être utilisées indépendamment les unes des autres ou en combinaison. Cela comprend le marquage interne des données, l'externalisation, le crowdsourcing et l'utilisation des machines (par laquelle les données sont étiquetées à l'aide d'algorithmes d'apprentissage automatique).

Selon la complexité du problème, les projets d'IA utilisent souvent des processus d'étiquetage étendus afin de convertir les données non étiquetées en données de formation dont vous avez besoin pour enseigner vos modèles d'IA, qui peuvent être identifiés pour créer l'édition souhaitée.

Les nombreuses méthodes disponibles sont le crowdsourcing, dans lequel une plate-forme tierce est utilisée pour accéder à de grandes quantités de travailleurs humains en même temps, l'une des tactiques de projets les plus fréquemment utilisées pour identifier les données. Ces dernières années, entre autres, plusieurs plates-formes telles qu'Amazon MTURK, Appen Meeta Dash, Label Box et Tagog sont devenues certaines des plateformes les plus prometteuses pour les travailleurs humains du crowdsourcing pour le marquage des données.

Cependant, plusieurs projets ont exprimé des préoccupations quant à la qualité des données des plates-formes de crowdsourcing. Par exemple, prenez le problème de qualité des données avec Amazon Mechanical Turk (MTURK), qui remonte à 2018. De nombreux chercheurs de données soupçonnent que des données utilisant des bots en plus de la moitié et du code ou des scripts entièrement automatique ont été identifiés afin de soutenir les personnes dans la réaction rapidement à certains ensembles de données.

Une partie du problème a été attribuée aux utilisateurs de différents emplacements qui utilisaient des VPN pour participer à des enquêtes et à des questionnaires qui ne convenaient pas à leur programme régional. Étant donné que les plateformes de crowdsourcing paient des travailleurs humains de manière appropriée pour l'achèvement des tâches, les utilisateurs participent souvent à des activités doubles pour obtenir plus de revenus. Par exemple, un certain nombre d'utilisateurs de différents pays peuvent utiliser VPN pour participer à un programme d'identification des données qui nécessite certaines réponses des résidents américains. Cela conduit à des réponses inférieures et absurdes, ce qui abaisse à son tour la qualité des données.

Si des données de faible qualité sont soumises, cela soulève de sérieuses questions sur le processus d'assurance qualité existant. Étant donné que la plupart des plates-formes de crowdsourcing existantes pour l'identification des données sont fortement centralisées, il est presque impossible d'évaluer la qualité et le flux de travail. Tous ces problèmes, associés à la croissance de la technologie de la blockchain, ont ouvert la voie à des solutions de crowdsourcing décentralisées et sans approbation.

Ici, le protocole humain présente une nouvelle approche de l'étiquetage des données en créant une infrastructure qui soutient les marchés du travail sans autorisation qui fournissent également aux travailleurs humains et donnent aux organisations accès aux travailleurs-tout sans intermédiaires centraux.

Faciliter les marchés du travail sans approbation

Protocole humain

Le protocole humain est naturellement une infrastructure open source décentralisée et automatisée qui offre un cadre hybride pour l'organisation, l'évaluation et la rémunération du travail humain. Le protocole humain sert à la fois les intérêts des employés et des employeurs. En conséquence, il peut être utilisé dans une variété d'applications, notamment le crowdsourcing et les projets basés sur des concerts.

Bien que le protocole humain soit presque universellement applicable, il se concentre d'abord sur le soutien des marchés décentralisés en relation avec l'apprentissage automatique (ML). Pour être plus précis, le protocole humain facilite l'enregistrement d'énormes quantités de données de commentaires humains de haute qualité tout en conservant des niveaux de service optimaux.

Alors que le protocole humain est sorti à l'origine de HCAPTCHA, l'un des services CAPTCHA les plus populaires et les plus testés sur le Web 2.0, la plate-forme s'est depuis établie comme une unité complètement unique en offrant la technologie sous-jacente pour soutenir les marchés allongés dans lesquels presque toutes les tâches, y compris l'identification des données - le crochet possible.

Le marché du travail humain propose actuellement des marchés d'assistance vidéo, d'image et de texte sur lesquels les acheteurs et les vendeurs sont réunis. Le protocole sous-jacent peut diviser un travail (tâche) à plusieurs de ces marchés et l'envoyer aux échanges correspondants (les applications que les travailleurs utilisent pour faire le travail). De plus, il peut contrer les données sur tous les marchés du travail pour garantir la qualité.

En outre, l'équipe du protocole humain a sélectionné les meilleurs outils disponibles pour chaque marché du travail. Ils ont développé les échanges et les optimisent en permanence pour offrir aux employés tout ce dont ils ont besoin pour effectuer les tâches demandées. Le protocole contient également des outils qui maintiennent un contrôle de qualité de bout en bout sur les travaux transmis. Cela signifie effectivement que les demandes reçoivent un résultat plus déterministe si des emplois similaires sont effectués à peu près le même échange.

Après tout, le protocole humain offre une solution complètement ouverte par rapport aux plates-formes fortement centralisées et micro-gérées, ce qui permet à une variété de projets d'utiliser son infrastructure. De plus, il offre également la possibilité d'aider les projets à ajouter vos propres outils pour répondre aux exigences pour l'étiquetage des données plus précisément, efficacement et sans concessionnaires intermédiaires. La chose la plus importante est que la liste, la distribution et la rémunération des emplois sont automatisées en plus de millions de micro-paiements, grâce à l'application de la technologie blockchain du protocole, afin de faciliter les transactions et la facturation pour une voie ordonnée, fiable et équitable.

Kommentare (0)