Casa Tendències Què $ @! és hadoop?

Què $ @! és hadoop?

Taula de continguts:

Anonim

Tothom està parlant d’Hadoop, la calorosa i nova tecnologia que té un preu molt apreciat entre els desenvolupadors i que potser canviarà el món (de nou). Però, què és, de totes maneres? És un llenguatge de programació? Una base de dades? Un sistema de processament? Un te indi acollidor?


La resposta àmplia: Hadoop és totes aquestes coses (excepte el te acollidor), i molt més. És una biblioteca de programari que proporciona un marc de programació per a un processament econòmic i útil d’una altra paraula de paraula moderna: big data.

D’on va venir Hadoop?

Apache Hadoop forma part del Projecte de la Fundació Apache Software Foundation, una organització sense ànim de lucre que té com a missió "proporcionar programari per al bé públic". Com a tal, la biblioteca Hadoop és lliure de programari de codi obert disponible per a tots els desenvolupadors.


La tecnologia subjacent que potencia Hadoop va ser realment inventada per Google. Ja en els primers dies, el motor de cerca no gaire gegant necessitava una forma d’indexar les masses quantitats de dades que recopilaven d’Internet i convertir-lo en resultats significatius i rellevants per als seus usuaris. Sense res disponible al mercat que pogués complir els seus requisits, Google va construir la seva pròpia plataforma.


Aquestes innovacions es van publicar en un projecte de codi obert anomenat Nutch, que més tard va utilitzar Hadoop com a fundació. Essencialment, Hadoop aplica el poder de Google a les dades grans de manera assequible per a empreses de totes les mides.

Com funciona Hadoop?

Com s'ha esmentat anteriorment, Hadoop no és una cosa: són moltes coses. La biblioteca de programari que és Hadoop consta de quatre parts primàries (mòduls) i una sèrie de solucions de complements (com bases de dades i llenguatges de programació) que milloren el seu ús en el món real. Els quatre mòduls són:

  • Hadoop Common: Aquesta és la col·lecció d’utilitats comunes (la biblioteca comuna) que suporta els mòduls Hadoop.
  • Sistema de fitxers distribuïts Hadoop (HDFS): un sistema de fitxers distribuït robust, sense restriccions a les dades emmagatzemades (el que significa que les dades poden ser estructurades o desestructurades i esquemades, on moltes DFS només emmagatzemaran dades estructurades) que proporciona un accés de gran rendiment amb redundància ( HDFS permet emmagatzemar dades a diverses màquines, de manera que si una màquina falla, la disponibilitat es manté a través de les altres màquines).
  • Hadoop YARN: Aquest marc és responsable de la planificació de treballs i la gestió de recursos de clúster; s’assegura que les dades s’estenguin prou per diverses màquines per mantenir la redundància. YARN és el mòdul que fa que Hadoop sigui una manera assequible i rendible de processar big data.
  • Hadoop MapReduce: aquest sistema basat en YARN, basat en la tecnologia de Google, realitza processament paral·lel de grans conjunts de dades (estructurats i no estructurats). MapReduce també es pot trobar a la majoria dels grans marcs de processament de dades actuals, incloses les bases de dades MPP i NoSQL.
Tots aquests mòduls que treballen junts generen processament distribuït per a grans conjunts de dades. El marc Hadoop utilitza models de programació senzills que es repliquen en grups d’ordinadors, el que significa que el sistema pot augmentar des de servidors singulars fins a milers de màquines per augmentar el poder de processament, en lloc de confiar només en el maquinari.


El maquinari que pot gestionar la quantitat de potència de processament necessària per treballar amb dades grans és car, per dir-ho suaument. Aquesta és la veritable innovació de Hadoop: la capacitat de descomposar quantitats massives de potència de processament en diverses màquines més petites, cadascuna amb el seu propi càlcul i emmagatzematge localitzat, juntament amb una redundància integrada al nivell de l’aplicació per evitar errors.

Què fa Hadoop?

Simplement, Hadoop fa que les grans dades siguin accessibles i utilitzables per a tothom.


Abans de Hadoop, les empreses que utilitzaven dades grans ho feien sobretot amb bases de dades relacionals i magatzems de dades empresarials (que utilitzen quantitats massives de maquinari car). Si bé aquestes eines són excel·lents per processar dades estructurades, que són dades ja ordenades i organitzades de forma manejable, la capacitat de processament de dades no estructurades era molt limitada, de manera que gairebé no existia. Per ser utilitzables, primer s’havien d’estructurar les dades perquè s’ajustessin perfectament a les taules.


El marc Hadoop canvia aquest requisit i ho fa de manera barata. Amb Hadoop, es poden processar quantitats massives de dades de 10 a 100 gigabytes i estructures, tant estructurades com no estructurades, utilitzant servidors ordinaris (commodity).


Hadoop aporta aplicacions de big data potencials per a empreses de totes les mides, a totes les indústries. El marc de codi obert permet a les empreses financeres crear models sofisticats per a l’avaluació de la cartera i l’anàlisi de riscos o als minoristes en línia per afinar les respostes de cerca i orientar els clients cap a productes que tenen més probabilitats de comprar.


Amb Hadoop, les possibilitats són realment il·limitades.

Què $ @! és hadoop?