Taula de continguts:
- Dades de diferents fonts difícils de connectar i de mapa
- Experts Hadoop Intenten unir les dades junts
Hadoop és un lloc ideal per descarregar dades per al processament d’analítiques o per modelar volums més grans d’una sola font de dades que no són possibles amb sistemes existents. Tanmateix, a mesura que les empreses porten dades de moltes fonts a Hadoop, hi ha una demanda creixent d’anàlisi de dades a diferents fonts, cosa que pot ser extremadament difícil d’aconseguir. Aquesta publicació és la primera d'una sèrie de tres parts que explica els problemes que tenen les organitzacions, ja que intenten analitzar diferents fonts i tipus de dades dins d'Hadoop i com resoldre aquests reptes. La publicació d’avui se centra en els problemes que es produeixen quan es combinen diverses fonts internes. Les dues publicacions següents expliquen per què aquests problemes augmenten en la complexitat, a mesura que s’afegeixen fonts de dades externes i com els nous enfocaments ajuden a resoldre’ls.
Dades de diferents fonts difícils de connectar i de mapa
Les dades de fonts diverses tenen diferents estructures que dificulten la connexió i el mapeig dels tipus de dades, fins i tot les dades de fonts internes. Combinar dades pot ser especialment difícil si els clients tenen diversos números de compte o si una organització ha adquirit o fusionat amb altres empreses. Durant els darrers anys, algunes organitzacions han intentat utilitzar aplicacions de descobriment de dades o de ciències de dades per analitzar dades de diverses fonts emmagatzemades a Hadoop. Aquest enfocament és problemàtic perquè implica moltes idees: els usuaris han de decidir quines claus estrangeres han de fer per connectar diverses fonts de dades i fer supòsits quan es creen superposicions de models de dades. Aquestes suposicions són difícils de provar i sovint incorrectes quan s'apliquen a escala, cosa que comporta una anàlisi de dades defectuosa i desconfiança de les fonts.
Experts Hadoop Intenten unir les dades junts
Per tant, les organitzacions que volen analitzar dades a través de fonts de dades han recorregut a contractar experts Hadoop per crear scripts personalitzats i específics de la font per combinar conjunts de dades. Aquests experts Hadoop no solen ser experts en integració de dades ni en resolució d’entitats, però fan tot el possible per atendre les necessitats immediates de l’organització. Aquests experts solen utilitzar Pig o Java per escriure regles dures i ràpides que determinen com combinar dades estructurades de fonts específiques, per exemple, la concordança de registres basats en un número de compte. Una vegada que s'ha escrit un script per a dues fonts, si s'ha d'afegir una tercera font, s'ha de llençar el primer script i un nou script dissenyat per combinar tres fonts específiques. El mateix passa si s’afegeix una altra font, etc. Aquest enfocament no només és ineficient, sinó que també falla quan s'aplica a escala, maneja malament els casos de vora, pot donar lloc a un gran nombre de registres duplicats i sovint fusiona molts registres que no s'han de combinar.