L’ETL (extreure, transformar i carregar) és un dels processos més importants en l’analítica de dades grans i, alhora, pot ser un dels seus colls d’ampolla més grans. (Per obtenir més informació sobre dades grans, consulteu 5 cursos útils de big data que podeu realitzar en línia.)
La raó per la qual ETL és tan important és que la majoria de dades que recopila un negoci no està preparada, en la seva forma crua, per a una solució d’anàlisi analítica. Per tal que una solució d’analítica crei informació, cal extreure les dades en brut de l’aplicació on resideix actualment, transformar-la en un format que un programa d’analítica pot llegir i, després, carregar-se al propi programa d’analítica.
Aquest procés és anàleg a la cuina. Els seus ingredients crus són les seves dades en brut. Cal extreure'ls (comprar a una botiga), transformar-los (cuinar) i després carregar-los (xapats) abans de poder-los analitzar (tastar). La dificultat i la despesa poden augmentar-se de forma imprevisible: és fàcil fer formatge mac per a tu, però és molt més difícil crear un menú gourmet per a 40 persones en un sopar. No cal dir que un error en qualsevol moment pot fer que el vostre menjar sigui indigest.