Επισκόπηση του Hadoop 2.0 Cluster Architecture Federation



Το Apache Hadoop 2.x αποτελείται από σημαντικές βελτιώσεις σε σχέση με το Hadoop 1.x. Αυτό το ιστολόγιο μιλά για το Hadoop 2.0 Cluster Architecture Federation και τα στοιχεία του.

Hadoop 2.0 Cluster Architecture Federation

Εισαγωγή:

Σε αυτό το blog, θα εμβαθύνω στην Hadoop 2.0 Cluster Architecture Federation. Το Apache Hadoop έχει εξελιχθεί πολύ από την κυκλοφορία του Apache Hadoop 1.x. Όπως γνωρίζετε από το προηγούμενο blog μου ότι το ακολουθεί την τοπολογία Master / Slave όπου το NameNode ενεργεί ως κύριος δαίμονας και είναι υπεύθυνος για τη διαχείριση άλλων υποτελών κόμβων που ονομάζονται DataNodes. Σε αυτό το οικοσύστημα, αυτό το μοναδικό Master Daemon ή NameNode γίνεται εμπόδιο και, αντίθετα, οι εταιρείες πρέπει να έχουν το NameNode που είναι πολύ διαθέσιμο. Αυτός ακριβώς ο λόγος έγινε το θεμέλιο της HDFS Federation Architecture και HA (Υψηλή Διαθεσιμότητα) Αρχιτεκτονική .

ρύθμιση διαδρομής κλάσης στην Java

Τα θέματα που έχω καλύψει σε αυτό το ιστολόγιο είναι τα εξής:





  • Η τρέχουσα αρχιτεκτονική HDFS
  • Περιορισμοί της τρέχουσας αρχιτεκτονικής HDFS
  • Αρχιτεκτονική Ομοσπονδίας HDFS

Επισκόπηση της τρέχουσας αρχιτεκτονικής HDFS:

Single Namespace HDFS Architecture - Επισκόπηση της Hadoop 2.0 Cluster Architecture Federation - Edureka

Όπως μπορείτε να δείτε στο παραπάνω σχήμα, το τρέχον HDFS έχει δύο επίπεδα:



  • Χώρος ονομάτων HDFS (NS): Αυτό το επίπεδο είναι υπεύθυνο για τη διαχείριση των καταλόγων, των αρχείων και των μπλοκ. Παρέχει όλη τη λειτουργία του συστήματος αρχείων που σχετίζεται με το Namespace όπως τη δημιουργία, τη διαγραφή ή την τροποποίηση των αρχείων ή των καταλόγων αρχείων.
  • Επίπεδο αποθήκευσης: Περιλαμβάνει δύο βασικά συστατικά.
    1. Διαχείριση μπλοκ : Εκτελεί τις ακόλουθες λειτουργίες:
      • Ελέγχει τους καρδιακούς παλμούς των DataNodes περιοδικά και διαχειρίζεται την ιδιότητα μέλους του DataNode στο σύμπλεγμα.
      • Διαχειρίζεται τις αναφορές αποκλεισμού και διατηρεί την τοποθεσία αποκλεισμού.
      • Υποστηρίζει λειτουργίες μπλοκ όπως δημιουργία, τροποποίηση, διαγραφή και εκχώρηση θέσης μπλοκ.
      • Διατηρεί τον παράγοντα αναπαραγωγής συνεπές σε όλο το σύμπλεγμα.

2. Φυσική αποθήκευση : Διαχειρίζεται από DataNodes τα οποία είναι υπεύθυνα για την αποθήκευση δεδομένων και έτσι παρέχει πρόσβαση ανάγνωσης / εγγραφής στα δεδομένα που είναι αποθηκευμένα σε HDFS.

Έτσι, η τρέχουσα αρχιτεκτονική HDFS σάς επιτρέπει να έχετε έναν ενιαίο χώρο ονομάτων για ένα σύμπλεγμα. Σε αυτήν την αρχιτεκτονική, ένα μόνο NameNode είναι υπεύθυνο για τη διαχείριση του χώρου ονομάτων. Αυτή η αρχιτεκτονική είναι πολύ βολική και εύκολη στην εφαρμογή. Επίσης, παρέχει επαρκή ικανότητα για την κάλυψη των αναγκών του μικρού συμπλέγματος παραγωγής.

Περιορισμοί του τρέχοντος HDFS:

Όπως συζητήθηκε προηγουμένως, το τρέχον HDFS επαρκούσε για τις ανάγκες και τις περιπτώσεις χρήσης ενός μικρού συμπλέγματος παραγωγής. Όμως, μεγάλοι οργανισμοί όπως το Yahoo, το Facebook βρήκαν ορισμένους περιορισμούς καθώς το σύμπλεγμα HDFS αυξήθηκε εκθετικά. Ας ρίξουμε μια γρήγορη ματιά σε μερικούς από τους περιορισμούς:



  1. Ο χώρος ονομάτων είναι όχι επεκτάσιμο όπως τα DataNodes. Ως εκ τούτου, μπορούμε να έχουμε μόνο αυτόν τον αριθμό DataNodes στο σύμπλεγμα που μπορεί να χειριστεί ένα μόνο NameNode.
  2. Τα δύο επίπεδα, δηλαδή το επίπεδο ονομάτων και το επίπεδο αποθήκευσης είναι σφιχτά συνδεδεμένο γεγονός που καθιστά την εναλλακτική εφαρμογή του NameNode πολύ δύσκολη.
  3. Η απόδοση ολόκληρου του συστήματος Hadoop εξαρτάται από το διακίνηση του NameNode. Επομένως, ολόκληρη η απόδοση όλων των λειτουργιών HDFS εξαρτάται από πόσες εργασίες μπορεί να χειριστεί το NameNode σε μια συγκεκριμένη στιγμή.
  4. Το NameNode αποθηκεύει ολόκληρο το χώρο ονομάτων στη μνήμη RAM για γρήγορη πρόσβαση. Αυτό οδηγεί σε περιορισμούς σε όρους μέγεθος μνήμης δηλαδή τον αριθμό των αντικειμένων χώρου ονομάτων (αρχεία και μπλοκ) με τα οποία μπορεί να αντιμετωπίσει ένας διακομιστής χώρου ονομάτων.
  5. Πολλοί από τους οργανισμούς (προμηθευτές) που διαθέτουν ανάπτυξη HDFS, επιτρέπουν σε πολλούς οργανισμούς (ενοικιαστές) να χρησιμοποιούν το χώρο ονομάτων συμπλέγματος. Έτσι, δεν υπάρχει διαχωρισμός του χώρου ονομάτων και επομένως, υπάρχει καμία απομόνωση μεταξύ οργανισμού ενοικιαστών που χρησιμοποιούν το σύμπλεγμα.

Αρχιτεκτονική Ομοσπονδίας HDFS:

  • Στην HDFS Federation Architecture, έχουμε οριζόντια επεκτασιμότητα της υπηρεσίας ονόματος. Επομένως, έχουμε πολλούς ονομαστικούς κωδικούς που είναι ομόσπονδοι, δηλαδή ανεξάρτητοι ο ένας από τον άλλο.
  • Οι DataNodes υπάρχουν στο κάτω μέρος, δηλαδή το υποκείμενο επίπεδο αποθήκευσης.
  • Κάθε DataNode καταχωρεί με όλα τα NameNodes στο σύμπλεγμα.
  • Οι DataNodes μεταδίδουν περιοδικούς καρδιακούς παλμούς, αποκλείουν αναφορές και χειρίζονται εντολές από το NameNodes.

Η εικονογραφική αναπαράσταση της Ομοσπονδίας Ομοσπονδίας HDFS δίνεται παρακάτω:

Πριν προχωρήσω, επιτρέψτε μου να μιλήσω εν συντομία για την παραπάνω αρχιτεκτονική εικόνα:

  • Υπάρχουν πολλοί χώροι ονομάτων (NS1, NS2,…, NSn) και ο καθένας τους διαχειρίζεται από τον αντίστοιχο Όνομα_Κωδικού.
  • Κάθε χώρος ονομάτων έχει τη δική του ομάδα μπλοκ (NS1 έχει Pool 1, NSk έχει Pool k και ούτω καθεξής).
  • Όπως φαίνεται στην εικόνα, τα μπλοκ από την ομάδα 1 (μπλε του ουρανού) αποθηκεύονται στα DataNode 1, DataNode 2 και ούτω καθεξής. Ομοίως, όλα τα μπλοκ από κάθε ομάδα μπλοκ θα βρίσκονται σε όλους τους DataNodes.

Τώρα, ας κατανοήσουμε λεπτομερώς τα στοιχεία της Ομοσπονδίας Ομοσπονδίας HDFS:

Block Pool:

Το μπλοκ μπλοκ δεν είναι τίποτα άλλο από ένα σύνολο μπλοκ που ανήκουν σε συγκεκριμένο χώρο ονομάτων. Έχουμε λοιπόν μια συλλογή μπλοκ μπλοκ όπου κάθε ομάδα μπλοκ διαχειρίζεται ανεξάρτητα από την άλλη. Αυτή η ανεξαρτησία, όπου κάθε ομάδα μπλοκ διαχειρίζεται ανεξάρτητα επιτρέπει στο χώρο ονομάτων να δημιουργεί ID μπλοκ για νέα μπλοκ χωρίς συντονισμό με άλλους χώρους ονομάτων. Τα μπλοκ δεδομένων που υπάρχουν σε ολόκληρη την ομάδα μπλοκ αποθηκεύονται σε όλους τους DataNodes. Βασικά, το μπλοκ μπλοκ παρέχει μια αφαίρεση έτσι ώστε τα μπλοκ δεδομένων που βρίσκονται στους Δεδομένους Δεδομένων (όπως στην Αρχιτεκτονική του Χώρου Ονομάτων) να ομαδοποιούνται που αντιστοιχούν σε ένα συγκεκριμένο χώρο ονομάτων.

Όγκος χώρου ονομάτων:

Ο τόμος ονομάτων δεν είναι τίποτα άλλο από το χώρο ονομάτων μαζί με το μπλοκ συγκέντρωσης Επομένως, στην Ομοσπονδία HDFS έχουμε πολλούς τόμους χώρου ονομάτων. Πρόκειται για μια αυτόνομη μονάδα διαχείρισης, δηλαδή κάθε τόμος χώρου ονομάτων μπορεί να λειτουργεί ανεξάρτητα. Εάν ένα NameNode ή namespace διαγραφεί, θα διαγραφεί επίσης το αντίστοιχο μπλοκ μπλοκ που βρίσκεται στο DataNodes.

Demo On Hadoop 2.0 Cluster Architecture Federation | Έντρεκα

Τώρα, υποθέτω ότι έχετε μια πολύ καλή ιδέα για το HDFS Federation Architecture. Είναι περισσότερο μια θεωρητική ιδέα και οι άνθρωποι δεν το χρησιμοποιούν σε ένα πρακτικό σύστημα παραγωγής γενικά. Υπάρχουν ορισμένα προβλήματα εφαρμογής με το HDFS Federation που καθιστούν δύσκολη την ανάπτυξη. Επομένως, ο HA (Υψηλή Διαθεσιμότητα) Αρχιτεκτονική προτιμάται η επίλυση του προβλήματος Single Point of Failure. Έχω καλύψει το Αρχιτεκτονική HDFS HA στο επόμενο blog μου.

Τώρα που έχετε κατανοήσει το Hadoop HDFS Federation Architecture, δείτε το από την Edureka, μια αξιόπιστη διαδικτυακή εταιρεία εκμάθησης με δίκτυο περισσότερων από 250.000 ικανοποιημένων μαθητών σε όλο τον κόσμο. Το πρόγραμμα εκπαίδευσης Edureka Big Data Hadoop Certification βοηθά τους μαθητές να γίνουν ειδικοί σε HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume και Sqoop χρησιμοποιώντας περιπτώσεις χρήσης σε πραγματικό χρόνο σε τομείς λιανικής, κοινωνικής δικτύωσης, αεροπορίας, τουρισμού, χρηματοοικονομικών

Έχετε μια ερώτηση για εμάς; Παρακαλώ αναφέρετέ το στην ενότητα σχολίων και θα επικοινωνήσουμε μαζί σας.