Protokół ludzki na nowo definiuje rynek oznaczania danych i crowdsourcingu, aby osiągnąć lepszą dokładność

Protokół ludzki na nowo definiuje rynek oznaczania danych i crowdsourcingu, aby osiągnąć lepszą dokładność

Sztuczna inteligencja (AI) może spełnić swój cel tylko wtedy, gdy jest przeszkolony w zakresie danych wysokiej jakości. Sukces algorytmu AI zależy w dużej mierze od jakości i ilości wykorzystanych danych treningowych. W związku z tym nie powinno to zaskoczyć Tworzenie projektu AI jest przeznaczone na optymalizację danych treningowych

Większość projektów AI stoi w obliczu trudnego zadania zebrania lub zakupu danych wysokiej jakości. Istnieje kilka przypadków, w których projekty często kończą się danymi niskiej jakości lub zaznaczonymi danymi. Podczas gdy w ostatnich latach utworzono kilka usług identyfikacyjnych danych, które do pewnego stopnia staną przed wyzwaniem, mają własne problemy. Głównymi przyczynami oznaczonych danych o niskiej jakości są na przykład osoby, procesy lub technologie używane do etykietowania.

Ale jakie dokładnie są oznaczone dane?

oznaczenie danych: paliwo dla modeli AI

W związku z AI oznaczone dane odnoszą się do danych, które są „oznaczone lub komentowane”, aby model uczenia maszynowego może przewidzieć pożądany wynik. Ogólnie rzecz biorąc, cały proces identyfikacji danych zwykle obejmuje kilka kroków, takich jak komentarz danych, klasyfikacja, oznaczenie, moderacja i przetwarzanie.

Istnieje kilka podejść do etykietowania danych, które można albo stosować niezależnie od siebie lub w kombinacji. Obejmuje to wewnętrzne oznaczanie danych, outsourcing, crowdsourcing i korzystanie z maszyn (w których dane są oznaczone za pomocą algorytmów uczenia maszynowego).

W zależności od złożoności problemu, projekty AI często wykorzystują obszerne procesy etykietowania w celu przekonwertowania danych nie oznaczonych danych na dane szkoleniowe, których potrzebujesz, aby uczyć modeli AI, które można zidentyfikować w celu utworzenia pożądanej edycji.

z wielu dostępnych metod to crowdsourcing, w którym platforma zewnętrzna jest używana do dostępu do dużych ilości ludzkich pracowników jednocześnie, jedna z najczęściej stosowanych taktyk projektów do identyfikacji danych. W ostatnich latach kilka platform, takich jak Amazon MTurk, Appen Meeta Dash, Label Box i Tagog pojawiło się jako jedne z najbardziej obiecujących platform dla crowdsourcing ludzkich pracowników do oznaczania danych.

Jednak kilka projektów wyraziło obawy dotyczące jakości danych platform crowdsourcingowych. Na przykład weź problem jakości danych za pomocą Amazon Mechanical TURK (MTURK), który sięga 2018 r.

Część problemu została przypisana użytkownikom z różnych lokalizacji, które wykorzystali VPN do uczestnictwa w ankietach i kwestionariuszach, które nie były odpowiednie dla ich schematu obszarowego. Ponieważ platformy crowdsourcingowe odpowiednio płacą ludziom za wykonanie zadań, użytkownicy często uczestniczą w podwójnych działaniach, aby osiągnąć większy dochód. Na przykład wielu użytkowników z różnych krajów może korzystać z VPN do uczestnictwa w programie identyfikacji danych, który wymaga pewnych odpowiedzi od mieszkańców amerykańskich. Prowadzi to do gorszych i nonsensownych odpowiedzi, co z kolei obniża jakość danych.

Jeśli przesyłane są dane o niskiej jakości, rodzą to poważne pytania dotyczące istniejącego procesu zapewnienia jakości. Ponieważ większość istniejących platform crowdsourcingowych do identyfikacji danych jest silnie scentralizowana, prawie niemożliwe jest ocena jakości i przepływu pracy. Wszystkie te problemy, w połączeniu z kometowym wzrostem technologii blockchain, utorowały drogę do zdecentralizowanych i wolnych od zatwierdzenia rozwiązań crowdsourcingowych.

Protokół ludzki przedstawia nowe nowe podejście do etykietowania danych poprzez tworzenie infrastruktury, która wspiera pozbawione pozwolenia rynki pracy, które zapewniają również ludziom pracę i dają organizacjom dostęp do pracowników bez środkowych pośredników.

Ułatwianie rynków pracy wolnych od zatwierdzenia

Human Protocol Protokół ludzki jest oczywiście zdecentralizowaną i zautomatyzowaną infrastrukturą open source, która oferuje hybrydową ramę dla organizacji, oceny i wynagrodzenia ludzkiej pracy. Protokół ludzki służy zarówno interesom pracowników, jak i pracodawców. W rezultacie można go stosować w różnych aplikacjach, w tym w projektach crowdsourcingowych i koncertowych.

Chociaż ludzki protokół ma prawie powszechnie stosowany, najpierw koncentruje się na wsparciu zdecentralizowanych rynków w związku z uczeniem maszynowym (ML). Mówiąc dokładniej, ludzki protokół ułatwia rejestrowanie ogromnych ilości wysokiej jakości danych z ludzkimi komentarzami przy jednoczesnym utrzymaniu optymalnych poziomów usług.

Podczas gdy ludzki protokół pierwotnie wyłonił się z Hcaptcha, jednej z najpopularniejszych i najbardziej testowanych usług CAPTCHA w Web 2.0, platforma stała się możliwą jako całkowicie unikalną jednostką, oferując podstawową technologię w celu obsługi wszystkich rynków, w których prawie każda identyfikacja danych dotyczących zadań.

Rynek pracy na ludziach oferuje obecnie rynki wideo, obrazu i pomocy tekstowej, na których łączy się kupujący i sprzedawcy. Podstawowy protokół może podzielić zadanie (zadanie) na wiele z tych rynków i wysłać go do odpowiednich giełd (aplikacje, których pracownicy używają do wykonywania zadania). Ponadto może przeciwdziałać danych na wszystkich rynkach pracy, aby zapewnić jakość.

Ponadto zespół protokołu ludzkiego wybrał najlepsze dostępne narzędzia na każdy rynek pracy. Opracowali giełdy i stale optymalizowali je, aby zaoferować pracownikom wszystko, czego potrzebują, aby wykonać żądane zadania. Protokół zawiera również narzędzia, które utrzymują kompleksową kontrolę jakości nad przesyłanymi zadaniami. Skutecznie oznacza to, że żądania otrzymują bardziej deterministyczny wynik, jeśli podobne zadania zostaną przeprowadzane o tej samej wymianie.

W końcu ludzki protokół oferuje całkowicie otwarte rozwiązanie w porównaniu z silnie scentralizowanymi i mikro-zarządzanymi platformami, które umożliwiają różnorodne projekty korzystanie z infrastruktury. Ponadto oferuje również możliwość pomocy projektom dodawania własnych narzędzi, aby spełnić wymagania dotyczące etykietowania danych dokładniej, wydajnie i bez pośrednich dealerów. Najważniejsze jest to, że aukcja, dystrybucja i wynagrodzenie pracy jest zautomatyzowane oprócz milionów mikro-płatników, dzięki zastosowaniu technologii blockchain protokołu, w celu ułatwienia transakcji i rozliczeń dla uporządkowanego, niezawodnego i uczciwego drogi.

Kommentare (0)