P:
Quines són algunes maneres claus d’automatitzar i optimitzar els processos de ciències de dades?
R:Els processos de ciències de dades en el context de l'aprenentatge automàtic i la IA es poden dividir en quatre fases diferents:
- adquisició i exploració de dades,
- construcció de models,
- desplegament del model i
- avaluació i perfeccionament en línia.
Segons la meva experiència, les fases més impedeixen són les fases d’adquisició de dades i implementació de models en qualsevol procés de ciència de dades basat en l’aprenentatge automàtic, i hi ha dues maneres d’optimitzar-les:
1. Establiu una botiga de dades altament accessible.
En la majoria d’organitzacions, les dades no s’emmagatzemen en una ubicació central. Prenem només informació relacionada amb els clients. Teniu informació de contacte del client, correus electrònics d’assistència al client, comentaris de clients i historial de navegació del client si el vostre negoci és una aplicació web. Totes aquestes dades es troben disperses de manera natural, ja que serveixen per a propòsits diferents. Poden residir en bases de dades diferents i algunes poden estar totalment estructurades i algunes desestructurades, i fins i tot es poden emmagatzemar com a fitxers de text normal.
Malauradament, la dispersió d’aquests conjunts de dades es limita molt al treball en ciències de dades, ja que la base de tots els problemes de PNL, d’aprenentatge automàtic i d’IA són les dades . Així, tenir totes aquestes dades en un sol lloc (el magatzem de dades) és primordial per accelerar el desenvolupament i el desplegament del model. Atès que es tracta d’una peça crucial per a tots els processos de ciències de dades, les organitzacions haurien de contractar enginyers qualificats de dades per ajudar-los a construir els seus llocs de dades. Això pot iniciar-se fàcilment com a dipòsits de dades senzills en una ubicació i lentament convertir-se en un dipòsit de dades ben pensat, completament documentat i consultable amb eines d’utilitat per exportar subconjunts de dades a diferents formats amb finalitats diferents.
2. Exposeu els vostres models com a servei per a una integració perfecta.
A més d’habilitar l’accés a les dades, també és important poder integrar els models desenvolupats pels científics de dades al producte. Pot ser extremadament difícil integrar models desenvolupats a Python amb una aplicació web que funciona amb Ruby. A més, és possible que els models tinguin moltes dependències de dades que el producte no pot proporcionar.
Una manera d’afrontar-ho és configurar una infraestructura forta al voltant del vostre model i exposar prou la funcionalitat necessària pel vostre producte per tal d’utilitzar el model com a “servei web”. Per exemple, si la vostra aplicació necessita una classificació sentimental en les revisions del producte. Tot el que hauria de fer és invocar el servei web, proporcionant el text pertinent i el servei retornaria la classificació de sentiments adequada que el producte pot utilitzar directament. D’aquesta manera, la integració es fa simplement en forma d’una trucada API. Desacoblar el model i el producte que l’utilitza fa que sigui fàcil que els nous productes que us presentin utilitzin també aquests models amb poc problema.
Ara, la configuració de la infraestructura al voltant del vostre model és tota una altra història i requereix una gran inversió inicial dels vostres equips d’enginyeria. Una vegada que la infraestructura hi hagi, només es tracta de construir models de manera que s’ajustin a la infraestructura.