Βασικά εργαλεία Hadoop για τον περιορισμό μεγάλων δεδομένων



Το Hadoop είναι η λέξη buzz στον κόσμο της πληροφορικής σήμερα και αυτή η ανάρτηση περιγράφει τα απαραίτητα εργαλεία Hadoop που καταστρέφουν τα Big Data.

Σήμερα, ο πιο δημοφιλής όρος στον κόσμο της πληροφορικής είναι «Hadoop». Μέσα σε σύντομο χρονικό διάστημα, Χάδοπ έχει αναπτυχθεί μαζικά και έχει αποδειχθεί χρήσιμο για μια μεγάλη συλλογή διαφορετικών έργων. Η κοινότητα Hadoop εξελίσσεται γρήγορα και διαδραματίζει σημαντικό ρόλο στο οικοσύστημα της.





Ακολουθεί μια ματιά στα βασικά εργαλεία Hadoop που χρησιμοποιούνται για τον χειρισμό Big Data.

εάν δήλωση στο ερώτημα sql

ambari



Αμπάρι είναι ένα έργο Apache που υποστηρίζεται από την Hortonworks. Προσφέρει διαδικτυακό GUI (Γραφικό περιβάλλον εργασίας χρήστη) με σενάρια οδηγού για τη ρύθμιση συστάδων με τα περισσότερα από τα τυπικά στοιχεία. Το Ambari προβλέπει, διαχειρίζεται και παρακολουθεί όλες τις ομάδες θέσεων εργασίας Hadoop.

hdfs-logo

ο HDFS , διανέμεται με άδεια Apache προσφέρει ένα βασικό πλαίσιο για τη διάσπαση συλλογών δεδομένων μεταξύ πολλαπλών κόμβων. Στο HDFS, τα μεγάλα αρχεία χωρίζονται σε μπλοκ, όπου αρκετοί κόμβοι συγκρατούν όλα τα μπλοκ από ένα αρχείο. Το σύστημα αρχείων έχει σχεδιαστεί με τρόπο ώστε να αναμειγνύεται η ανοχή σφαλμάτων με υψηλή απόδοση. Τα μπλοκ του HDFS φορτώνονται για τη διατήρηση σταθερής ροής. Δεν αποθηκεύονται συνήθως στην κρυφή μνήμη για να ελαχιστοποιηθεί ο λανθάνων χρόνος.



hbaselogo

HBase είναι ένα σύστημα διαχείρισης βάσης δεδομένων προσανατολισμένο στη στήλη που τρέχει πάνω από HDFS. Οι εφαρμογές HBase είναι γραμμένες σε Java, όπως και η εφαρμογή MapReduce. Περιλαμβάνει ένα σύνολο πινάκων, όπου κάθε πίνακας περιέχει σειρές και στήλες όπως μια παραδοσιακή βάση δεδομένων. Όταν τα δεδομένα πέφτουν στον μεγάλο πίνακα, το HBase θα αποθηκεύσει τα δεδομένα, θα τα αναζητήσει και θα μοιραστεί αυτόματα τον πίνακα σε πολλούς κόμβους, ώστε οι εργασίες του MapReduce να μπορούν να τα εκτελέσουν τοπικά. Η HBase προσφέρει περιορισμένη εγγύηση για ορισμένες τοπικές αλλαγές. Οι αλλαγές που συμβαίνουν σε μία σειρά μπορούν να επιτύχουν ή να αποτύχουν ταυτόχρονα.

hive

Εάν είστε ήδη άπταιστοι με το SQL, τότε μπορείτε να αξιοποιήσετε το Hadoop χρησιμοποιώντας Κυψέλη . Hive αναπτύχθηκε από μερικούς ανθρώπους στο Facebook. Το Apache Hive ρυθμίζει τη διαδικασία εξαγωγής bit από όλα τα αρχεία στο HBase. Υποστηρίζει ανάλυση μεγάλων συνόλων δεδομένων που είναι αποθηκευμένα στο HDFS του Hadoop και συμβατά συστήματα αρχείων. Παρέχει επίσης μια γλώσσα τύπου SQL που ονομάζεται HSQL (HiveSQL) που μπαίνει στα αρχεία και εξάγει τα απαιτούμενα αποσπάσματα για τον κώδικα.

sqoop

Apache Sqoop έχει σχεδιαστεί ειδικά για τη μεταφορά μαζικών δεδομένων αποτελεσματικά από τις παραδοσιακές βάσεις δεδομένων σε Hive ή HBase. Μπορεί επίσης να χρησιμοποιηθεί για την εξαγωγή δεδομένων από το Hadoop και την εξαγωγή του σε εξωτερικά δομημένα καταστήματα δεδομένων όπως σχεσιακές βάσεις δεδομένων και αποθήκες δεδομένων επιχειρήσεων. Το Sqoop είναι ένα εργαλείο γραμμής εντολών, χαρτογράφηση μεταξύ των πινάκων και του επιπέδου αποθήκευσης δεδομένων, μετατρέποντας τους πίνακες σε έναν διαμορφώσιμο συνδυασμό HDFS, HBase ή Hive.

Pig1

Όταν τα αποθηκευμένα δεδομένα είναι ορατά στο Hadoop, Χοίρος Apache βουτά στα δεδομένα και τρέχει τον κώδικα που είναι γραμμένος στη δική του γλώσσα, που ονομάζεται Pig Latin. Το Pig Latin είναι γεμάτο με αφαιρέσεις για το χειρισμό των δεδομένων. Ο χοίρος συνοδεύεται από τυπικές λειτουργίες για κοινές εργασίες, όπως ο μέσος όρος δεδομένων, η εργασία με ημερομηνίες ή η εύρεση διαφορών μεταξύ συμβολοσειρών. Ο χοίρος επιτρέπει επίσης στο χρήστη να γράφει γλώσσες μόνος του, που ονομάζεται UDF (User Defined Function), όταν οι τυπικές λειτουργίες υπολείπονται.

zookeper

Zookeeper είναι μια κεντρική υπηρεσία που διατηρεί, διαμορφώνει πληροφορίες, δίνει ένα όνομα και παρέχει κατανεμημένο συγχρονισμό σε ένα σύμπλεγμα. Επιβάλλει μια ιεραρχία τύπου συστήματος αρχείων στο σύμπλεγμα και αποθηκεύει όλα τα μεταδεδομένα για τα μηχανήματα, ώστε να μπορούμε να συγχρονίσουμε το έργο των διαφόρων μηχανών.

NoSQL

Ορισμένες συστάδες Hadoop ενσωματώνονται με NoSQL αποθήκευση δεδομένων που συνοδεύουν τους δικούς τους μηχανισμούς αποθήκευσης δεδομένων σε ένα σύμπλεγμα κόμβων. Αυτό τους επιτρέπει να αποθηκεύουν και να ανακτούν δεδομένα με όλες τις δυνατότητες της βάσης δεδομένων NoSQL, μετά την οποία το Hadoop μπορεί να χρησιμοποιηθεί για τον προγραμματισμό εργασιών ανάλυσης δεδομένων στο ίδιο σύμπλεγμα.

mahoutlogo

Οδηγός ελέφαντος έχει σχεδιαστεί για να εφαρμόζει μεγάλο αριθμό αλγορίθμων, ταξινομήσεων και φιλτραρίσματος της ανάλυσης δεδομένων στο σύμπλεγμα Hadoop. Πολλοί από τους τυπικούς αλγόριθμους όπως K-mean, Dirichelet, παράλληλο μοτίβο και ταξινομήσεις Bayesian είναι έτοιμοι να εκτελεστούν στα δεδομένα με χάρτη Χάδοπ και να μειώσουν.

Λουκένια, γραμμένο στην Java και ενσωματωμένο εύκολα με το Hadoop, είναι ένας φυσικός σύντροφος του Hadoop. Είναι ένα εργαλείο που προορίζεται για την ευρετηρίαση μεγάλων τμημάτων μη δομημένου κειμένου. Ο Lucene χειρίζεται την ευρετηρίαση, ενώ ο Hadoop χειρίζεται τα κατανεμημένα ερωτήματα σε όλο το σύμπλεγμα. Τα χαρακτηριστικά Lucene-Hadoop εξελίσσονται ταχέως καθώς αναπτύσσονται νέα έργα.

Avro

Ευρώ είναι ένα σύστημα σειριοποίησης που συνδυάζει τα δεδομένα μαζί με ένα σχήμα για την κατανόησή τους. Κάθε πακέτο διαθέτει μια δομή δεδομένων JSON. Το JSON εξηγεί πώς μπορούν να αναλυθούν τα δεδομένα. Η κεφαλίδα του JSON καθορίζει τη δομή των δεδομένων, όπου μπορεί να αποφευχθεί η ανάγκη εγγραφής επιπλέον ετικετών στα δεδομένα για την επισήμανση των πεδίων. Η έξοδος είναι πολύ πιο συμπαγής από τις παραδοσιακές μορφές όπως το XML.

Μια εργασία μπορεί να απλοποιηθεί σπάζοντάς την σε βήματα. Με το σπάσιμο του έργου σε πολλές δουλειές Hadoop, Oozie αρχίζει να τα επεξεργάζεται με τη σωστή σειρά. Διαχειρίζεται τη ροή εργασίας όπως καθορίζεται από το DAG (Directed Acyclic Graph) και δεν υπάρχει ανάγκη για έγκαιρη παρακολούθηση.

Εργαλεία GIS

Η εργασία με γεωγραφικούς χάρτες είναι μεγάλη δουλειά για συστάδες που εκτελούν Hadoop. Το GIS ( Γεωγραφικό σύστημα πληροφοριών ) τα εργαλεία για έργα Hadoop έχουν προσαρμόσει τα καλύτερα εργαλεία που βασίζονται σε Java για την κατανόηση των γεωγραφικών πληροφοριών που θα τρέχουν με το Hadoop. Οι βάσεις δεδομένων μπορούν πλέον να χειρίζονται γεωγραφικά ερωτήματα χρησιμοποιώντας συντεταγμένες και οι κωδικοί μπορούν να αναπτύξουν τα εργαλεία GIS.

Η συλλογή όλων των δεδομένων ισοδυναμεί με την αποθήκευση και την ανάλυσή τους. Apache Flume αποστέλλει «ειδικούς πράκτορες» για τη συλλογή πληροφοριών που θα αποθηκευτούν σε HDFS. Οι πληροφορίες που συλλέγονται μπορούν να είναι αρχεία καταγραφής, API Twitter ή αποκόμματα ιστότοπων. Αυτά τα δεδομένα μπορούν να αλυσοδεθούν και να υποβληθούν σε αναλύσεις.

Spark

Σπίθα είναι η επόμενη γενιά που λειτουργεί σχεδόν σαν το Hadoop που επεξεργάζεται δεδομένα που έχουν αποθηκευτεί στη μνήμη. Στόχος του είναι να κάνει την ανάλυση δεδομένων γρήγορη εκτέλεση και εγγραφή με ένα γενικό μοντέλο εκτέλεσης. Αυτό μπορεί να βελτιστοποιήσει τα αυθαίρετα γραφήματα χειριστή και να υποστηρίξει τον υπολογισμό στη μνήμη, το οποίο του επιτρέπει να υποβάλλει ερωτήματα ταχύτερα σε σύγκριση με κινητήρες που βασίζονται σε δίσκους όπως το Hadoop.

SQL στο Hadoop

Όταν απαιτείται να εκτελείται ένα γρήγορο ad-hoc ερώτημα για όλα τα δεδομένα στο σύμπλεγμα, μπορεί να γραφτεί μια νέα εργασία Hadoop, αλλά αυτό απαιτεί λίγο χρόνο. Όταν οι προγραμματιστές άρχισαν να το κάνουν πιο συχνά, βρήκαν εργαλεία γραμμένα στην απλή γλώσσα του SQL. Αυτά τα εργαλεία προσφέρουν γρήγορη πρόσβαση στα αποτελέσματα.

Τρυπάνι Apache

Το Apache Drill παρέχει ad hoc ερωτήματα χαμηλού λανθάνοντος χρόνου σε πολλές και ποικίλες πηγές δεδομένων, συμπεριλαμβανομένων ένθετων δεδομένων. Το Drill, εμπνευσμένο από το Dremel της Google, έχει σχεδιαστεί για να κλιμακώσει σε 10.000 διακομιστές και να υποβάλει ερώτημα σε petabytes δεδομένων σε δευτερόλεπτα.

Αυτά είναι τα απαραίτητα εργαλεία Hadoop για τη μείωση των Big Data!

Έχετε μια ερώτηση για εμάς; Αναφέρετέ τα στην ενότητα σχολίων και θα επικοινωνήσουμε μαζί σας.

Σχετικές αναρτήσεις:

Πρακτικοί λόγοι για να μάθετε Hadoop 2.0