P:
Com s’ha convertit el raspat de dades per a l’aprenentatge automàtic en el coll d’ampolla més intensiu en mà d’obra des de l’entrada manual de dades en la migració heretada?
R:Un dels problemes pràctics que poden tenir les empreses quan intenten iniciar un projecte d'aprenentatge automàtic (ML) és el repte d'adquirir els conjunts de dades de formació inicial. Això pot incloure processos intensius en mà d’obra com el rascatge web o altres rascades de dades.
Els termes rascratge web i rascat de dades es refereixen en gran mesura a l’activitat automatitzada per part del programari informàtic, però, per a molts projectes de ML, hi haurà casos en què els ordinadors no tinguin la sofisticació de recopilar les dades d’orientació adequades, per la qual cosa s’haurà de fer. "a mà." Es pot anomenar "rastreig de dades / dades humanes" i és un treball ingrat. Generalment consisteix a sortir i buscar dades o imatges per "alimentar" el programa ML mitjançant conjunts d'entrenament. Sovint és bastant iteratiu, cosa que fa que el treball sigui tediós, lent i exigent.
Descàrrega gratuïta: Aprenentatge automàtic i per què és important |
El rascat de dades de conjunts d'entrenament ML representa un coll d'ampolla únic problemàtic en l'aprenentatge de màquines, en part perquè gran part de l'altre treball és molt conceptual i no repetitiu. Moltes persones poden tenir una idea fantàstica per a una nova aplicació que faci tasques d’aprenentatge de màquines, però les femelles i els cargols i el treball pràctic poden ser molt difícils. En particular, delegar el treball de muntatge dels conjunts d'entrenament pot ser una de les parts més difícils d'un projecte de ML, tal com s'explora plenament al programa de televisió "Silicon Valley" de Mike Judge. En un capítol de la quarta temporada, un empresari que inicia una primera persona persisteix a un company a fer feina intensiva i, després, intenta passar-la als estudiants universitaris disfressant-la com a tasca.
Aquest exemple és instructiu, ja que mostra com de desagradable i aparentment poc important és el rascat manual de dades. Tot i això, també demostra que aquest procés és necessari per a una àmplia gamma de productes d'aprenentatge automàtic. Tot i que la majoria de les persones odien l’entrada de dades, els grups d’entrenament s’han d’assemblar d’alguna manera. Els experts en el procés solen recomanar utilitzar un servei de rascatge web, essencialment només subcontractar aquest treball molt intens a mà d’obra a parts externes, però que pot comportar ramificacions de seguretat i causar altres problemes. Quan es mantenen els treballs manuals de recollida de dades a casa, de nou, hi ha d’haver una disposició per al que sovint és un procés molt manual i que requereix molt de temps.
D’alguna manera, el “rascatge de dades humanes” per a l’aprenentatge automàtic sembla l’entrada manual de dades que de vegades s’havia de fer en la migració heretada. A mesura que el núvol es va anar fent més popular i les empreses van posar els seus processos i fluxos de treball al núvol, alguns van trobar que no havien treballat a través dels aspectes pràctics de com aconseguir que les seves dades corporatives d’un sistema llegat aïllat en aplicacions natives del núvol. Com a resultat, algunes persones que eren d’altra manera científics de dades o persones creatives amb habilitats informàtiques essencials es van trobar fent tasques desagradables d’entrada de dades.
És probable que passi el mateix amb l’aprenentatge automàtic. Potser escolteu un científic de dades que es queixa que "sóc una persona creativa" o "estic al costat del desenvolupament", però algú ha de fer el treball brut.
Una vegada més, si el flux creatiu no es correspon amb una avaluació pràctica de la delegació del flux de treball, hi haurà una desajust en la manera com es dirigeix la gestió de tasques. Quan una empresa no té persones que facin el treball de rascat de dades en la recollida de conjunts de dades, manca una part clau de la cadena de procediments per a un projecte amb èxit. Val la pena tenir-ho en compte sempre que una empresa tracti de fer-se una idea basada en el desenvolupament de noves aplicacions d'aprenentatge automàtic.