Taula de continguts:
Les dades grans, el nom atractiu per a volums massius de dades estructurades, no estructurades o semestructurades, són notòriament difícils de capturar, emmagatzemar, gestionar, compartir, analitzar i visualitzar, si més no mitjançant bases de dades i aplicacions de programari tradicionals. És per això que les tecnologies de dades grans tenen el potencial de gestionar i processar volums massius de dades de manera eficaç i eficaç. I és Apache Hadoop el que proporciona el marc i les tecnologies associades per processar grans conjunts de dades en clústers d’ordinadors de forma distribuïda. Per tant, per entendre realment les dades grans, heu d’entendre una mica sobre Hadoop. Aquí farem un cop d'ull als termes principals que escolteu sobre Hadoop i què signifiquen.
Webinar: Big Iron, Meet Big Data: Alliberar dades de mainframe amb Hadoop i Spark Registra't aquí |
Però primer, repassa com funciona Hadoop
Abans d’entrar a l’ecosistema Hadoop, heu d’entendre clarament dues coses fonamentals. El primer és com es guarda un fitxer a Hadoop; el segon és com es processen les dades emmagatzemades. Totes les tecnologies relacionades amb Hadoop funcionen principalment en aquestes dues àrees i la fan més fàcil d’utilitzar. (Obteniu els conceptes bàsics sobre com funciona Hadoop a Com Hadoop ajuda a resoldre el problema de grans dades.)
Ara, seguint els termes.