Taula de continguts:
SQL on Hadoop és un grup d’eines d’aplicació analítiques que combinen la consulta i el processament de dades a l’estil de SQL amb els elements del marc de dades Hadoop més recents. L’aparició d’SQL a Hadoop és un desenvolupament important per al processament de grans dades, ja que permet que grups més amplis treballin amb èxit amb el marc de processament de dades Hadoop mitjançant la realització de consultes SQL sobre els enormes volums de grans dades que processen Hadoop. Evidentment, el marc Hadoop no era abans tan accessible per a la gent, sobretot pel que fa a les seves capacitats de consulta. A partir del desenvolupament, s’han treballat diverses eines en els treballs que prometen millorar la productivitat de les empreses a l’hora de processar i analitzar grans dades amb qualitat i rapidesa. Tampoc és necessari invertir molt en l'aprenentatge de l'eina, com haurien de fer els coneixements tradicionals de SQL.
Definició de SQL a Hadoop
SQL on Hadoop és un grup d’aplicacions que permet executar consultes d’estil SQL en dades grans que allotgen el marc de processament de dades Hadoop. Evidentment, la consulta de dades, la recuperació i l’anàlisi s’han fet més fàcils amb l’addició d’SQL a Hadoop. Atès que SQL es va dissenyar originalment per a bases de dades relacionals, va haver de ser modificat segons el model Hadoop 1 que conté MapReduce i el Sistema de fitxers distribuït Hadoop (HDFS) i el model Hadoop 2 que no té MapReduce ni HDFS.
Un dels primers esforços per combinar SQL amb Hadoop va suposar la creació del magatzem de dades Hive amb el programari HiveQL, que podria traduir les consultes a l'estil SQL en treballs MapReduce. Després d’això, es van desenvolupar diverses aplicacions que podrien fer feines similars. Entre les eines posteriors, destaquen Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) i Tez (Hive on Tez).