Taula de continguts:
Apache Hadoop ha estat la base per a les aplicacions de big data des de fa temps i es considera la plataforma de dades bàsica per a totes les ofertes relacionades amb dades grans. Tanmateix, la base de dades i la computació a la memòria estan guanyant popularitat a causa del rendiment i dels resultats ràpids. Apache Spark és un nou marc que utilitza capacitats a la memòria per oferir un processament ràpid (gairebé 100 vegades més ràpid que Hadoop). Així doncs, el producte Spark s’utilitza cada cop més en un món de big data, i principalment per a un processament més ràpid.
Webinar: El poder del suggeriment: com pot emprar els analistes un catàleg de dades Registra't aquí |
Què és Apache Spark?
Apache Spark és un marc de codi obert per processar grans volums de dades (big data) amb rapidesa i simplicitat. És adequat per a aplicacions d’analítica basades en dades grans. La guspira es pot utilitzar amb un entorn Hadoop, autònom o al núvol. Es va desenvolupar a la Universitat de Califòrnia i després es va oferir a l'Apache Software Foundation. Per tant, pertany a la comunitat de codi obert i pot ser molt rendible, cosa que permet que els desenvolupadors aficionats treballin amb facilitat. (Per obtenir més informació sobre el codi obert d'Hadoop, vegeu Quina és la influència de la font oberta en l'ecosistema Apache Hadoop?)
El propòsit principal de Spark és que ofereix als desenvolupadors un marc d'aplicacions que funciona al voltant d'una estructura de dades centrada. Spark també és extremadament potent i té la capacitat innata de processar ràpidament quantitats massives de dades en un curt període de temps, oferint així un rendiment molt bo. Això fa que sigui molt més ràpid que el que es diu que és el seu competidor més proper, Hadoop.