P:
Per què alguns projectes d’aprenentatge automàtic requereixen un gran nombre d’actors?
R:Quan penseu en l'aprenentatge de màquines, acostumeu a pensar en científics de dades qualificats que treballin en teclats a les sales d'informàtica. Es fa un èmfasi extrem en l’anàlisi i els algoritmes quantitatius. No hi ha molts contextos immediats del món real en molts d'aquests programes, almenys, això és el que molts pensarien.
Tot i això, alguns dels programes d’aprenentatge de màquines més innovadors actuals fan ús d’autèntics exèrcits d’actors humans fora del carrer, en botigues i en qualsevol lloc on puguin modelar activitats humanes bàsiques com caminar, treballar o comprar.
Descàrrega gratuïta: Aprenentatge automàtic i per què és important |
Un article cablejat de Tom Simonite ho il·lustra molt bé amb el títol apte "Per fer més intel·ligent AI, els humans realitzen tasques de baix pagament remunerat".
Utilitzant l’exemple de vídeos breus realitzats en una botiga de queviures Whole Foods, Simonite posa de manifest els tipus de treball que ajudaran a desenvolupar part de la següent fase d’aprenentatge automàtic.
Això porta a la pregunta de per què totes aquestes persones es dediquen a filmar-se en vídeos breus i senzills que documenten accions tan rudimentàries com moure un braç o una cama.
La resposta genera una llum sobre on es troba l'aprenentatge automàtic i cap a on es dirigeix.
"Els investigadors i els empresaris volen que l'AI entengui i actuï en el món físic", escriu Simonite, explicant per què tant ell com altres persones caminen amb les càmeres. "D'aquí la necessitat que els treballadors facin escenes als supermercats i cases. Estan generant material d’instrucció per ensenyar algoritmes sobre el món i la gent que hi ha. ”
Tal com molts experts assenyalen, algunes de les majors fronteres de l’aprenentatge automàtic són el processament d’imatges i el processament de llenguatges naturals. Es tracta de procediments extremadament quantitatius, és a dir, no hi ha un gran ventall d’entrades com hi ha en entorns del món real “performants”. En canvi, els programes d'aprenentatge automàtic utilitzen dades visuals i d'àudio de maneres molt específiques per construir models. Amb el processament d’imatges, es trien funcions des d’un camp de visió (finit). Per a PNL, es tracta de muntar fonemes.
Superar aquestes categories específiques d’entrada implica quelcom que podríeu anomenar “bretxa d’imatges i de parla”: per anar més enllà de coses com el processament d’imatges i el reconeixement de veu, us moveu cap a zones on els ordinadors han de ser analítics de diferents maneres. Els conjunts de formació seran fonamentalment diferents.
Entra a l'exèrcit de videògrafs. En alguns d’aquests nous projectes d’aprenentatge automàtic, les idees més petites de les activitats humanes són els conjunts de formació. En comptes de ser entrenats per cercar funcions i arestes i píxels que es componen en tasques de classificació, els ordinadors utilitzen, en canvi, vídeos de formació per avaluar què semblen diferents tipus d’acció.
El més important és què poden fer els enginyers amb aquestes dades quan s’agregen i es carreguen i quan l’ordinador s’entrena. Ben aviat veureu els resultats en diversos camps, per exemple, això farà que la vigilància sigui extremadament eficaç. Els ordinadors podran "veure" en l'àmbit visual el que fa la gent i aplicar-ho a camps com el màrqueting i les vendes, o potser, en alguns casos, el treball d'agència governamental o la justícia penal.
Les ramificacions també posen una mica de llum en el debat entre el màxim benefici i les preguntes de privacitat. Gran part de l'ús d'aquests vídeos es basa en models d'aprenentatge de màquines que funcionin per a la vigilància, però, i les persones que no volen ser vigilades? Quan es desenvolupen aquests nous programes d'aprenentatge automàtic a l'espai públic, quins són els drets de l'individu i cap a on es dibuixa aquesta línia?
En qualsevol cas, les empreses utilitzen aquest tipus de recursos humans i de vídeo per aprofundir en algunes rondes del progrés d’aprenentatge de màquines que realment permetran als ordinadors reconèixer el que passa al seu voltant, en comptes de classificar imatges o treballar amb els fonemes de discurs Es tracta d’un desenvolupament extremadament interessant i controvertit en intel·ligència artificial i que mereix la seva part d’atenció als mitjans de comunicació tecnològics i més enllà.