Človeški protokol na novo definira trg za označevanje podatkov in množico, da doseže boljšo natančnost
Človeški protokol na novo definira trg za označevanje podatkov in množico, da doseže boljšo natančnost
Umetna inteligenca (AI) lahko izpolni svoj namen le, če je usposobljena za kakovostne podatke. Uspeh algoritma AI je v veliki meri odvisen od kakovosti in količine uporabljenih podatkov o usposabljanju. V skladu s tem ne bi smelo presenetiti Ustvarjanje projekta AI je namenjeno optimizaciji podatkov o usposabljanju
Večina projektov AI se sooča s težko nalogo zbiranja ali nakupa kakovostnih podatkov. Obstaja več primerov, v katerih se projekti pogosto končajo z nizko kakovostnimi podatki ali označenimi podatki. Medtem ko je bilo v zadnjih letih ustvarjenih več storitev identifikacije podatkov, ki se do neke mere soočajo z izzivom, imajo svoje težave. Glavni razlogi za izrazite podatke nizke kakovosti so na primer ljudje, procesi ali tehnologije, ki se uporabljajo za označevanje.
Toda kaj točno so označeni podatki?
Označevanje podatkov: gorivo za modele AI
V povezavi z AI se označeni podatki nanašajo na podatke, ki so "označeni ali komentirani", tako da lahko model strojnega učenja napoveduje želeni rezultat. Na splošno celoten postopek identifikacije podatkov običajno vključuje več korakov, kot so komentar podatkov, klasifikacija, označevanje, zmernost in obdelava.
Obstaja več pristopov k označevanju podatkov, ki jih je mogoče uporabiti neodvisno drug od drugega ali v kombinaciji. To vključuje notranje označevanje podatkov, zunanje izvajanje, množično izvajanje in uporabo strojev (s katerimi so podatki označeni z uporabo algoritmov strojnega učenja).
Glede na zapletenost problema AI projekti pogosto uporabljajo obsežne procese označevanja, da pretvorijo ne označene podatke v podatke o usposabljanju, ki jih potrebujete za učenje svojih modelov AI, ki jih je mogoče identificirati, da ustvarite želeno izdajo.
od številnih razpoložljivih metod je množična, v kateri se za dostop do velikih količin človeških delavcev hkrati uporablja ena najpogosteje uporabljenih taktik projektov za prepoznavanje podatkov. V zadnjih letih se je med drugim več platform, kot so Amazon Mturk, Appen Meeta Dash, Label Box in Tagog, pojavile kot nekatere najbolj obetavne platforme za množično izvajanje človeških delavcev za označevanje podatkov.
Vendar je več projektov izrazilo zaskrbljenost glede kakovosti podatkov na platformah za množično izvajanje. Na primer, vzemite težavo s kakovostjo podatkov z Amazon Mechanical Turk (MTURK), ki sega v leto 2018. Številni raziskovalci podatkov sumijo, da so bili podatki, ki uporabljajo bote, poleg polovice in popolnoma samodejne kode ali skripte opredeljeni, da bi podprli ljudi v reakciji na določene nabore podatkov.
Del problema je bil pripisan uporabnikom z različnih lokacij, ki so za sodelovanje v raziskavah in vprašalnikih, ki niso primerne za njihovo območje, uporabili VPN. Ker platforme za množično izvajanje človeških delavcev ustrezno plačujejo za dokončanje nalog, uporabniki pogosto sodelujejo v dvojnih dejavnostih, da bi dosegli več dohodka. Na primer, številni uporabniki iz različnih držav lahko za sodelovanje v programu identifikacije podatkov uporabijo VPN, ki zahteva določene odgovore ameriških prebivalcev. To vodi do manjvrednih in nesmiselnih odgovorov, kar posledično znižuje kakovost podatkov.
Če so predloženi podatki o nizki kakovosti, to sproža resna vprašanja o obstoječem postopku zagotavljanja kakovosti. Ker je večina obstoječih platform za množično izvajanje za identifikacijo podatkov močno centralizirana, je skoraj nemogoče oceniti kakovost in potek dela. Vse te težave, povezane s kometom podobno rast tehnologije blockchain, so utrle pot za decentralizirane rešitve za množično izvajanje in brez odobritve.
Tu človeški protokol predstavlja nov nov pristop k označevanju podatkov z ustvarjanjem infrastrukture, ki podpira trge dela brez dovoljenj, ki človeškim delavcem omogočajo delo in organizacijam omogočajo dostop do delavcev-brez centralnih posrednikov.
Čeprav je človeški protokol skoraj splošno uporaben, se najprej osredotoči na podporo decentraliziranih trgov v povezavi s strojnim učenjem (ML). Če smo natančnejši, človeški protokol olajša beleženje ogromnih količin kakovostnih podatkov o komentarjih pri ljudeh, hkrati pa ohranja optimalne ravni storitev. Medtem ko je človeški protokol prvotno izhajal iz Hcaptcha, enega najbolj priljubljenih in preizkušenih storitev Captcha na spletu 2.0, se je platforma od takrat uveljavila kot popolnoma edinstvena enota, tako da je ponudila osnovno tehnologijo za podporo vsestranske trge, na katerih je skoraj vsak, ki je skorajda identifikacija podatkov, ki vključujejo podatke. Trg človeškega dela trenutno ponuja trge video, slik in besedila, na katerih se združujejo kupci in prodajalci. Osnovni protokol lahko deli delo (nalogo) na številne od teh trgov in ga pošlje na ustrezne izmenjave (aplikacije, ki jih delavci uporabljajo za opravljanje dela). Poleg tega lahko prepreči podatke o vseh trgih dela, da bi zagotovili kakovost. Poleg tega je ekipa za človeški protokol izbrala najboljša razpoložljiva orodja za vsak trg dela. Razvili so izmenjave in jih nenehno optimizirajo, da bi zaposlenim ponudili vse, kar potrebujejo za opravljanje zahtevanih nalog. Protokol vsebuje tudi orodja, ki vzdržujejo nadzor kakovosti od konca do konca. To dejansko pomeni, da zahteve prejmejo bolj determiniran rezultat, če se podobna opravila izvajajo približno iste izmenjave. Konec koncev človeški protokol ponuja popolnoma odprto rešitev v primerjavi z močno centraliziranimi in mikro upravljanimi platformami, ki različnim projektom omogočajo uporabo njegove infrastrukture. Poleg tega ponuja tudi možnost, da projekti pomagajo dodati svoja orodja za izpolnjevanje zahtev za natančnejše, učinkovito in brez vmesnih trgovcev. Najpomembneje je, da se seznam, distribucija in prejemki delovnih mest poleg milijonov mikroplačil avtomatizira, zahvaljujoč uporabi tehnologije blockchain protokola, da bi olajšali transakcije in obračunavanje za urejen, zanesljiv in pravičen način.
Olajšanje trgov brez odobritve
Kommentare (0)