Hive este un sistem de depozit de date care este utilizat pentru a analiza datele structurate. Este construit pe vârful Hadoop. A fost dezvoltat de Facebook.
Hive oferă funcționalitatea de citire, scriere și gestionare a seturi de date mari care se află în stocarea distribuită. Rulează interogări similare cu SQL numite HQL (hive query language) care sunt convertite intern în joburi MapReduce.
Folosind Hive, putem sări peste cerința abordării tradiționale de a scrie programe MapReduce complexe. Hive acceptă limbajul de definire a datelor (DDL), limbajul de manipulare a datelor (DML) și funcțiile definite de utilizator (UDF).
Caracteristicile lui Hive
Acestea sunt următoarele caracteristici ale Hive:
- Hive este rapid și scalabil.
- Oferă interogări asemănătoare SQL (adică, HQL) care sunt transformate implicit în joburi MapReduce sau Spark.
- Este capabil să analizeze seturi mari de date stocate în HDFS.
- Permite diferite tipuri de stocare, cum ar fi text simplu, RCFile și HBase.
- Utilizează indexarea pentru a accelera interogările.
- Poate funcționa pe date comprimate stocate în ecosistemul Hadoop.
- Suportă funcții definite de utilizator (UDF) unde utilizatorul își poate oferi funcționalitatea.
Limitările Stupului
- Hive nu este capabil să gestioneze date în timp real.
- Nu este conceput pentru procesarea tranzacțiilor online.
- Interogările Hive conțin o latență ridicată.
Diferențele dintre Stup și Porc
Stup | Porc |
---|---|
Hive este folosit în mod obișnuit de către analiștii de date. | Porcul este folosit în mod obișnuit de programatori. |
Urmează interogări asemănătoare SQL. | Urmează limbajul fluxului de date. |
Poate gestiona date structurate. | Poate gestiona date semi-structurate. |
Funcționează pe partea de server a clusterului HDFS. | Funcționează pe partea client a clusterului HDFS. |
Stupul este mai lent decât Pig. | Porcul este comparativ mai rapid decât Hive. |