Taula de continguts:
Definició: què significa Apache Pig?
Apache Pig és una plataforma que s’utilitza per analitzar grans conjunts de dades. Consisteix en un llenguatge d’alt nivell per expressar programes d’anàlisi de dades, juntament amb la infraestructura per avaluar aquests programes. Una de les característiques més significatives del porc és que la seva estructura respon a una paral·lelització significativa.
Pig opera a la plataforma Hadoop, escrivint dades i llegint dades del sistema d'arxius distribuïts Hadoop (HDFS) i realitza processament mitjançant un o més treballs MapReduce. Apache Pig està disponible com a codi obert.
El porc Apache també és conegut com a llenguatge de programació del porc o porc Hadoop.
Techopedia explica Apache Pig
El porc Apache té dues parts: llenguatge llatí porc i motor porc. El llenguatge porc llatí és un llenguatge de script que permet als usuaris il·lustrar la manera en què han de llegir i processar les dades que flueixen de les dades d'una o més entrades i la ubicació en la qual s'han d'emmagatzemar.
Algunes de les propietats clau del llatí porcí són les següents:
- Fàcil de programar: tasques complicades que consisteixen en diverses transformacions de dades interconnectades es codifiquen clarament com a seqüències de flux de dades. Això els fa senzills d’escriure, comprendre i mantenir.
- Possibilitats d’optimització: La forma en què es codifiquen les tasques permet al sistema optimitzar l’execució automàtica. Això permet a l'usuari parar atenció a la semàntica en lloc de l'eficiència.
- Extensibilitat: es permet als usuaris crear les seves pròpies funcions per dur a terme el processament de propòsits especials. El motor Pig és responsable de l’execució del flux de dades escrit en llatí porcí. Sembla un disseny estàndard del sistema de gestió de bases de dades relacional (RDBMS), Apache Pig consisteix en un analitzador, optimitzador i verificador de tipus, a més d’operadors que realitzen processament de dades. Pig no inclou transaccions, un catàleg de dades ni la capacitat de gestionar directament l’emmagatzematge de dades ni emprar el marc d’execució.