Taula de continguts:
- Com va començar Hadoop?
- Què té d’important Hadoop?
- Què és l'esquema de llegir?
- Què és Rusc?
- Quin tipus de dades analitza Hadoop?
- Pots donar un exemple d’Hadoop al món real?
- Hadoop ja està obsoleta o simplement es morria?
Què és Hadoop? És un elefant de joguina groga. No és el que esperaves? Què passa amb això: Doug Cutting, co-creador d’aquest projecte de programari de codi obert, va agafar en préstec el nom del seu fill que va passar a cridar el seu elefant de joguina Hadoop. En definitiva, Hadoop és un marc de programari desenvolupat per la Apache Software Foundation que s’utilitza per desenvolupar informàtica distribuïda intensiva en dades. I és un component clau en un altre tipus de paraules clau que els lectors mai no poden semblar prou: big data. A continuació, es mostren set coses que haureu de saber sobre aquest programari únic, de llicència lliure.
Com va començar Hadoop?
Fa dotze anys, Google va construir una plataforma per manipular la quantitat massiva de dades que recopilava. Com fa sovint la companyia, Google va posar a disposició del públic el seu disseny en forma de dos papers: Google File System i MapReduce.
Al mateix temps, Doug Cutting i Mike Cafarella treballaven a Nutch, un nou motor de cerca. Els dos també lluitaven per manejar grans quantitats de dades. Aleshores, els dos investigadors van obtenir els articles de Google. Aquella afortunada intersecció va canviar-ho tot introduint Cutting i Cafarella a un millor sistema de fitxers i una manera de fer un seguiment de les dades, que va acabar conduint a la creació d’Hadoop.
Què té d’important Hadoop?
Avui en dia, recopilar dades és més fàcil que mai. Tenir totes aquestes dades presenta moltes oportunitats, però també hi ha reptes:- Quantitats massives de dades requereixen nous mètodes de processament.
- Les dades que es capturen tenen un format no estructurat.
A continuació, van haver d’abordar dades o dades no estructurades en formats que els sistemes de bases de dades relacionals estàndard no eren capaços de manejar. Cutting i Cafarella van dissenyar Hadoop per treballar amb qualsevol tipus de dades: estructurades, no estructurades, imatges, fitxers d’àudio, fins i tot text. Aquest llibre blanc de Cloudera (integrador Hadoop) explica per què és important:
-
"En fer que totes les vostres dades siguin utilitzables, no només en les bases de dades, Hadoop us permet descobrir relacions ocultes i revela respostes que sempre han estat fora de l'abast. Podeu començar a prendre més decisions basades en dades dures, en lloc de comptes, i mirar. en conjunts de dades complets, no només mostres i resums. "
Què és l'esquema de llegir?
Com s'ha comentat anteriorment, un dels avantatges de Hadoop és la seva capacitat per manejar dades no estructurades. En certa manera, això és "donar un cop de peu a la llauna". Finalment, les dades necessiten algun tipus d’estructura per analitzar-la.
És aquí on entra en joc l’esquema de lectura. Esquema a la lectura és la fusió del format en què es troben les dades, on trobar-ne les dades (recordeu que les dades es troben disperses entre diversos servidors) i què cal fer per a les dades, no una tasca senzilla. Es diu que manipular dades en un sistema Hadoop requereix les habilitats d’un analista empresarial, un estadístic i un programador Java. Malauradament, no hi ha molta gent amb aquestes titulacions.
Què és Rusc?
Si Hadoop anava a tenir èxit, s’hauria de simplificar el treball amb les dades. Així doncs, la gent de codi obert va començar a treballar i va crear Hive:-
"L'Hive proporciona un mecanisme per projectar l'estructura d'aquestes dades i consultar les dades mitjançant un llenguatge similar a SQL anomenat HiveQL. Al mateix temps, aquest llenguatge també permet als programadors de mapes / reductors tradicionals connectar els seus mapadors i reductors personalitzats quan no sigui convenient o ineficient per expressar aquesta lògica a HiveQL. "
L’Hive permet el millor d’ambdós mons: el personal de bases de dades familiaritzat amb les ordres SQL pot manipular les dades i els desenvolupadors familiaritzats amb l’esquema del procés de lectura encara poden crear consultes personalitzades.
Quin tipus de dades analitza Hadoop?
L’analítica web és el primer que ens ve al cap, analitzar els registres web i el trànsit web per optimitzar els llocs web. Facebook, per exemple, es converteix definitivament en analítica web, utilitzant Hadoop per ordenar els terabytes de les dades que l’empresa acumula.
Les empreses utilitzen clústers Hadoop per realitzar anàlisis de riscos, detecció de fraus i segmentació de clients. Les empreses de serveis utilitzen Hadoop per analitzar les dades dels sensors de la seva xarxa elèctrica, la qual cosa els permet optimitzar la producció d'electricitat. Principals empreses com Target, 3M i Medtronics utilitzen Hadoop per optimitzar la distribució de productes, les avaluacions de riscos comercials i la segmentació de clients.
Les universitats també s’inverteixen a Hadoop. Brad Rubin, professor associat dels Programes de Llicenciat en Programari de la Universitat de St. Thomas, va mencionar que la seva experiència Hadoop està ajudant a resoldre les abundants quantitats de dades recopilades per grups de recerca de la universitat.
Pots donar un exemple d’Hadoop al món real?
Un dels exemples més coneguts és el TimesMachine. El New York Times té una col·lecció d’imatges TIFF de diari de pàgines completes, metadades associades i text d’articles de 1851 a 1922 que representen terabytes de dades. Derek Gottfrid de NYT, mitjançant un sistema EC2 / S3 / Hadoop i codi especialitzat, :-
"S'han ingerit 405.000 imatges TIFF molt grans, 3, 3 milions d'articles en fitxers SGML i 405.000 fitxers xml que mapen articles a regions rectangulars dels TIFF. Aquestes dades es van convertir en 810.000 imatges PNG més amigables al web (miniatures i imatges completes) i 405.000 fitxers JavaScript. "
Utilitzant servidors al núvol d'Amazon Web Services, Gottfrid va dir que eren capaços de processar totes les dades necessàries per a TimesMachine en menys de 36 hores.
Hadoop ja està obsoleta o simplement es morria?
Hadoop ja fa més d'una dècada que hi ha al voltant. Això fa dir molts que és obsolet. Un expert, el doctor David Rico, ha dit que "els productes informàtics tenen una vida curta. En els anys dels gossos, els productes de Google són uns 70, mentre que Hadoop en té 56".
Potser hi ha veritat del que diu Rico. Sembla que Hadoop està passant per una important revisió. Per obtenir més informació sobre això, Rubin em va convidar a una reunió del grup d’usuaris de Twin Cities Hadoop i el tema del debat va ser Introducció a YARN:
-
"Apache Hadoop 2 inclou un nou motor MapReduce, que presenta diversos avantatges respecte a la implementació anterior, incloent una millor escalabilitat i utilització de recursos. La nova implementació es basa en un sistema general de gestió de recursos per executar aplicacions distribuïdes anomenat YARN."