Taula de continguts:
- Com s'utilitzen dades grans
- On és el valor real?
- De vegades, les petites dades tenen un impacte més gran (i menys costós)
Big data és una paraula manta usada per referir-se al maneig de grans volums de dades. Tots entenem que com més gran és el volum de dades, més complexa serà. Les solucions tradicionals de bases de dades sovint no aconsegueixen gestionar adequadament grans volums de dades degut a la seva complexitat i mida. Per tant, gestionar grans volums de dades i extreure informació real és una tasca difícil. El mateix concepte de "valor" també s'aplica a les dades petites.
Com s'utilitzen dades grans
Les solucions de bases de dades convencionals basades en el concepte RDBMS poden gestionar molt bé les dades transaccionals i s’utilitzen àmpliament en diferents aplicacions. Però a l’hora de manejar un conjunt gran de dades (dades que s’arxiven i es troben en terabytes o petabytes), aquestes solucions de bases de dades solen fallar. Aquests conjunts de dades són massa grans i la majoria de vegades no s’ajusten a l’arquitectura de bases de dades tradicionals. Aquests dies, les grans dades s’han convertit en un enfocament rendible per gestionar conjunts més grans de dades. Des del punt de vista organitzatiu, l’ús de big data es pot dividir en les categories següents, en què resideix el valor real de big data:- Ús analític
Els analistes de dades grans han revelat molts aspectes ocults importants de les dades massa costoses de processar. Per exemple, si hem de comprovar l’interès de tendència dels estudiants sobre un tema nou, podem fer-ho analitzant els registres d’assistència diària i altres fets socials i geogràfics. Aquests fets es troben recollits a la base de dades. Si no podem accedir a aquestes dades de manera eficient, no podrem veure els resultats.
- Activa nous productes
En el passat recent, moltes empreses web noves, com Facebook, han començat a utilitzar big data com a solució per llançar nous productes. Tots sabem la popularitat de Facebook: ha preparat amb èxit una experiència d’usuari d’alt rendiment mitjançant dades grans.
On és el valor real?
Diferents solucions de dades grans difereixen en l'enfocament en què emmagatzemen dades, però, al final, emmagatzemen totes les dades en una estructura de fitxers plana. En general, Hadoop consisteix en el sistema de fitxers i algunes abstraccions de dades a nivell de sistema operatiu. Inclou un motor MapReduce i el sistema de fitxers distribuïts Hadoop (HDFS). Un clúster Hadoop simple inclou un node mestre i diversos nodes treballadors. El node mestre consta dels següents:- Rastreig de tasques
- Rastrejador de feines
- Node de nom
- Node de dades
- Rastreig de tasques
- Node de dades
Algunes implementacions només tenen el node de dades. El node de dades és l'àrea real on es troben. HDFS emmagatzema fitxers grans (en el rang de terabytes a petabytes) distribuïts en diverses màquines. La fiabilitat de les dades de cada node s'aconsegueix reproduint les dades a tots els amfitrions. Així, les dades estan disponibles fins i tot quan un dels nodes està baixat. Això ajuda a obtenir una resposta més ràpida contra les consultes. Aquest concepte és molt útil en el cas d'aplicacions enormes com Facebook. Com a usuari, rebem una resposta a la nostra sol·licitud de xat, per exemple, gairebé immediatament. Penseu en un escenari en què un usuari ha d’esperar una bona estona durant la conversa. Si el missatge i la resposta posterior no es lliuren immediatament, llavors quantes persones utilitzaran aquestes eines de xat?
Tornant a la implementació de Facebook, si les dades no es repliquen als clústers, no serà possible tenir una implementació atractiva. Hadoop distribueix les dades entre màquines en un clúster més gran i emmagatzema fitxers com una seqüència de blocs. Aquests blocs són de mida idèntica, excepte l’últim bloc. La mida del bloc i el factor de replicació es poden personalitzar segons les necessitats. Els fitxers en HDFS segueixen estrictament l'enfocament d'escriptura una vegada i, per tant, només poden ser escrits o editats per un usuari alhora. El node del nom de les decisions sobre la replicació de blocs es prenen. El node de nom rep informes i respostes de pols de cadascun dels nodes de dades. Les respostes de pols asseguren la disponibilitat del node de dades corresponent. L’informe conté els detalls dels blocs del node de dades.
Una altra implementació de grans dades, Cassandra, també utilitza un concepte de distribució similar. Cassandra distribueix dades en funció de la ubicació geogràfica. Per tant, a Cassandra, les dades es segreguen en funció de la ubicació geogràfica de l’ús de les dades.
De vegades, les petites dades tenen un impacte més gran (i menys costós)
Segons Rufus Pollock, de l'Open Knowledge Foundation, no té cap sentit crear un bombo al voltant de les dades grans mentre que les dades petites siguin el lloc on es troba el valor real.
Com el seu nom indica, les dades petites són un conjunt de dades orientades a un conjunt més gran de dades. Les dades petites volen canviar el focus de l’ús de les dades i també pretén contrarestar la tendència d’avançar cap a les dades grans. L’enfocament de dades petites ajuda a recopilar dades basades en requisits específics amb menys esforç. Com a resultat, és la pràctica comercial més eficient alhora que s’implementa informació intel·ligent.
En el seu nucli bàsic, el concepte de dades petites gira entorn de les empreses que requereixen resultats que necessiten més accions. Aquests resultats s’han d’obtenir ràpidament i també s’ha d’executar l’acció posterior. Així, podem eliminar els tipus de sistemes que s'utilitzen habitualment en les analítiques de dades.
En general, si tenim en compte alguns dels sistemes específics que es requereixen per a l'adquisició de dades grans, una empresa pot invertir a configurar un gran emmagatzematge de servidors, utilitzar servidors sofisticats de gamma alta i les últimes aplicacions de mineria de dades per gestionar diferents bits de dades., incloses les dates i hores d’accions dels usuaris, informació demogràfica i altra informació. Tot aquest conjunt de dades es trasllada a un magatzem de dades central, on s’utilitzen algoritmes complexos per ordenar i processar les dades que es mostren en forma d’informes detallats.
Tots sabem que aquestes solucions han beneficiat moltes empreses en termes d’escalabilitat i disponibilitat; Hi ha organitzacions que troben que l’adopció d’aquests enfocaments requereix d’un esforç substancial. També és cert que en alguns casos s’obtenen resultats similars mitjançant una estratègia de mineria de dades menys robusta.
Les dades petites proporcionen una manera perquè les organitzacions es retrocedeixin de l'obsessió de les darreres i noves tecnologies que admetin processos empresarials més sofisticats. Les empreses que promouen petites dades sostenen que és important des del punt de vista empresarial utilitzar els seus recursos de manera eficient, de manera que es pot evitar fins a cert punt la despesa en tecnologia.
Hem discutit molt sobre les realitats de big data i petites dades, però hem d’entendre que seleccionar la plataforma correcta (big data o petites dades) per a l’ús correcte és la part més important de tot l’exercici. I la veritat és que, tot i que les dades grans poden proporcionar molts avantatges, no sempre és millor.