Entre les startups tecnològiques, data scientist és un terme cada vegada més freqüent que s’utilitza per referir-se a geeks de dades capaços de posar de pont tradicionalment àrees funcionals d’intel·ligència de dades. Un científic de dades és algú que es mostra còmode per realitzar diversos (si no tots) aspectes dels projectes d’intel·ligència de dades:
- Adquisició de dades: això pot comportar l'escriptura d'analitzadors personalitzats i rastrejadors web o scripts que orientin serveis web específics o API per a fonts de dades no tradicionals.
- Gestió de dades: ETL, manipular, consultar i mantenir dades a bases de dades, magatzems de valor clau o Hadoop.
- Visualització d'informació: descoberta de patrons mitjançant l'ús de conjunts d'eines de visualització estàtica i / o plataformes interactives basades en Flash, JavaScript o Processing.
- Analytics: pot anar des de tècniques senzilles a complexes en estadístiques multivariades, aprenentatge automàtic i PNL.
- Insight: extreure, resumir i presentar conclusions principals a un públic ampli.
Hi ha moltes eines, habilitats i detalls tècnics, i es pot passar anys amb el control de cadascun dels elements enumerats anteriorment. Tot i que un científic de dades pot no tenir veritables coneixements experts en cap de les àrees, ell es troba còmode saltant cap endavant i endavant realitzant tasques bàsiques en totes elles. El resultat és una dada que és suficientment útil per investigar ràpidament un projecte de dades i produir respostes a preguntes (d’alt nivell) de la direcció. (sobre els científics de dades de Data Scientists: The New Rock Stars of the Tech World.)
Per fomentar els científics de dades, les empreses han de centrar-se més en la cultura i l’estructura organitzativa. Molts treballadors de dades tenen prou habilitats i formació per convertir-se ràpidament en productius en diverses àrees d’intel·ligència de dades. El problema és que la majoria no funcionen en entorns que els animen a convertir-se en científics de dades. Es troben en sitges i es limiten a una o dues àrees d’intel·ligència de dades. Sovint, es restringeixen a utilitzar eines "aprovades" pels seus gestors.