Tutoop YARN Tutorial - Μάθετε τις βασικές αρχές της YARN Architecture



Αυτό το ιστολόγιο επικεντρώνεται στο Apache Hadoop YARN, το οποίο παρουσιάστηκε στην έκδοση 2.0 Hadoop για διαχείριση πόρων και προγραμματισμό εργασιών. Εξηγεί την αρχιτεκτονική YARN με τα συστατικά της και τα καθήκοντα που εκτελούνται από καθένα από αυτά. Περιγράφει την υποβολή της αίτησης και τη ροή εργασίας στο Apache Hadoop YARN.

Το Hadoop YARN πλέκει τη μονάδα αποθήκευσης του Hadoop, δηλαδή HDFS (Hadoop Distributed File System) με τα διάφορα εργαλεία επεξεργασίας. Για όσους από εσάς είστε εντελώς νέοι σε αυτό το θέμα, το YARN σημαίνει « Υ και ΠΡΟΣ ΤΟ νωρίτερα Ρ πηγή Ν εγωιστής ». Θα πρότεινα επίσης να περάσετε από το δικό μας και προτού προχωρήσετε στην εκμάθηση του Apache Hadoop YARN. Θα εξηγήσω τα ακόλουθα θέματα εδώ για να βεβαιωθώ ότι στο τέλος αυτού του ιστολογίου η κατανόησή σας για το Hadoop YARN είναι σαφής.

Γιατί ΝΑ ΓΙΝΕΙ;

Στην έκδοση Hadoop 1.0 που αναφέρεται επίσης ως MRV1 (MapReduce Version 1), το MapReduce πραγματοποίησε λειτουργίες επεξεργασίας και διαχείρισης πόρων. Αποτελείται από ένα Job Tracker που ήταν ο μοναδικός κύριος. Το Job Tracker διέθεσε τους πόρους, πραγματοποίησε προγραμματισμό και παρακολούθησε τις εργασίες επεξεργασίας. Ανέθεσε χάρτη και μειώνει τις εργασίες σε μια σειρά από δευτερεύουσες διαδικασίες που ονομάζονται Task Trackers. Οι Task Trackers ανέφεραν περιοδικά την πρόοδό τους στο Job Tracker.





MapReduce Έκδοση 1.0 - Hadoop YARN - Edureka

Αυτός ο σχεδιασμός είχε ως αποτέλεσμα τη δυνατότητα κλιμάκωσης λόγω κλιμάκωσης λόγω ενός μόνο Job Tracker.Η IBM ανέφερε στο άρθρο της ότι σύμφωνα με το Yahoo !, τα πρακτικά όρια ενός τέτοιου σχεδιασμού επιτυγχάνονται με ένα σύμπλεγμα 5000 κόμβων και 40.000 εργασιών που εκτελούνται ταυτόχρονα.Εκτός από αυτόν τον περιορισμό, η χρήση υπολογιστικών πόρων είναι αναποτελεσματική στο MRV1. Επίσης, το πλαίσιο Hadoop περιορίστηκε μόνο στο πρότυπο επεξεργασίας MapReduce.



Για να ξεπεραστούν όλα αυτά τα ζητήματα, το YARN κυκλοφόρησε στην έκδοση 2.0 Hadoop το 2012 από το Yahoo και το Hortonworks. Η βασική ιδέα πίσω από το YARN είναι η ανακούφιση του MapReduce αναλαμβάνοντας την ευθύνη της διαχείρισης πόρων και του προγραμματισμού εργασίας. Το YARN άρχισε να δίνει στο Hadoop τη δυνατότητα να εκτελεί εργασίες χωρίς MapReduce στο πλαίσιο Hadoop.

Μπορείτε επίσης να παρακολουθήσετε το παρακάτω βίντεο όπου μας ο ειδικός συζητά τις έννοιες YARN και την αρχιτεκτονική του λεπτομερώς.

περιγραφή εργασίας διαχειριστή συστήματος linux

Εκπαιδευτικό νήμα Hadoop | Αρχιτεκτονική νημάτων Hadoop | Έντρεκα

Με την εισαγωγή του YARN, το επαναστατικοποιήθηκε πλήρως. Έγινε πολύ πιο ευέλικτο, αποτελεσματικό και επεκτάσιμο. Όταν το Yahoo κυκλοφόρησε ζωντανά με το YARN το πρώτο τρίμηνο του 2013, βοήθησε την εταιρεία να μειώσει το μέγεθος του συμπλέγματος Hadoop από 40.000 κόμβους σε 32.000 κόμβους. Αλλά ο αριθμός των θέσεων εργασίας διπλασιάστηκε στα 26 εκατομμύρια το μήνα.



Εισαγωγή στο Hadoop YARN

Τώρα που σας διαφωτίσαμε με την ανάγκη για YARN, επιτρέψτε μου να σας παρουσιάσω το βασικό στοιχείο του Hadoop v2.0, ΝΗΜΑ . Το YARN επιτρέπει διαφορετικές μεθόδους επεξεργασίας δεδομένων όπως επεξεργασία γραφημάτων, διαδραστική επεξεργασία, επεξεργασία ροής καθώς και επεξεργασία παρτίδας για την εκτέλεση και επεξεργασία δεδομένων που είναι αποθηκευμένα σε HDFS. Επομένως, το YARN ανοίγει το Hadoop σε άλλους τύπους κατανεμημένων εφαρμογών πέρα ​​από το MapReduce.

Το YARN επέτρεψε στους χρήστες να εκτελούν λειτουργίες σύμφωνα με τις απαιτήσεις, χρησιμοποιώντας μια ποικιλία εργαλείων όπως για επεξεργασία σε πραγματικό χρόνο, Κυψέλη για SQL, HBase για NoSQL και άλλα.

Εκτός από τη διαχείριση πόρων, το YARN εκτελεί επίσης προγραμματισμό εργασιών. Το YARN εκτελεί όλες τις δραστηριότητες επεξεργασίας σας εκχωρώντας πόρους και προγραμματίζοντας εργασίες. Το Apache Hadoop YARN Architecture αποτελείται από τα ακόλουθα κύρια στοιχεία:

  1. Διαχειριστής πόρων : Εκτελείται σε έναν κύριο δαίμονα και διαχειρίζεται την κατανομή πόρων στο σύμπλεγμα.
  2. Διαχειριστής κόμβων: Τρέχουν στους σκλάβους δαίμονες και είναι υπεύθυνοι για την εκτέλεση μιας εργασίας σε κάθε κόμβο δεδομένων.
  3. Master εφαρμογή: Διαχειρίζεται τον κύκλο ζωής εργασίας των χρηστών και τις ανάγκες πόρων μεμονωμένων εφαρμογών. Λειτουργεί μαζί με το Node Manager και παρακολουθεί την εκτέλεση εργασιών.
  4. Δοχείο: Πακέτο πόρων, συμπεριλαμβανομένων RAM, CPU, Network, HDD κλπ σε έναν μόνο κόμβο.

Συστατικά του YARN

Μπορείτε να θεωρήσετε το YARN ως τον εγκέφαλο του οικοσυστήματος Hadoop. Η παρακάτω εικόνα αντιπροσωπεύει την αρχιτεκτονική YARN.

ο πρώτο συστατικό της YARN Architecture είναι,

Διαχειριστής πόρων

  • Είναι η απόλυτη αρχή στην κατανομή πόρων .
  • Κατά τη λήψη των αιτήσεων επεξεργασίας, μεταβιβάζει τμήματα των αιτημάτων στους αντίστοιχους διαχειριστές κόμβων, όπου πραγματοποιείται η πραγματική επεξεργασία.
  • Είναι ο διαιτητής των πόρων συμπλέγματος και αποφασίζει την κατανομή των διαθέσιμων πόρων για ανταγωνιστικές εφαρμογές.
  • Βελτιστοποιεί τη χρήση του συμπλέγματος, όπως τη διατήρηση όλων των πόρων σε χρήση συνεχώς έναντι διαφόρων περιορισμών, όπως εγγυήσεις χωρητικότητας, δικαιοσύνη και SLA.
  • Έχει δύο βασικά συστατικά:α) Προγραμματιστήςσι)Διαχείριση εφαρμογών

α) Προγραμματιστής

  • Ο προγραμματιστής είναι υπεύθυνος για την κατανομή πόρων στις διάφορες εφαρμογές που εκτελούνται υπόκεινται σε περιορισμούς χωρητικότητας, ουρών κ.λπ.
  • Ονομάζεται καθαρός προγραμματιστής στο ResourceManager, που σημαίνει ότι δεν εκτελεί καμία παρακολούθηση ή παρακολούθηση της κατάστασης για τις εφαρμογές.
  • Εάν υπάρχει αποτυχία εφαρμογής ή σφάλμα υλικού, ο Χρονοδιάγραμμα δεν εγγυάται την επανεκκίνηση των αποτυχημένων εργασιών.
  • Εκτελεί προγραμματισμό βάσει των απαιτήσεων πόρων των εφαρμογών.
  • Έχει ένα plug-in πολιτική pluggable, το οποίο είναι υπεύθυνο για την κατανομή των πόρων συμπλέγματος μεταξύ των διαφόρων εφαρμογών. Υπάρχουν δύο τέτοιες προσθήκες: Προγραμματιστής χωρητικότητας και Δίκαιος προγραμματιστής , τα οποία χρησιμοποιούνται επί του παρόντος ως προγραμματιστές στο ResourceManager.

β) Διαχειριστής εφαρμογών

  • Είναι υπεύθυνη για την αποδοχή υποβολών θέσεων εργασίας.
  • Διαπραγματεύεται το πρώτο κοντέινερ από τον Διαχειριστή πόρων για την εκτέλεση του Master Application συγκεκριμένης εφαρμογής.
  • Διαχειρίζεται την εκτέλεση του Application Masters σε ένα σύμπλεγμα και παρέχει υπηρεσία για επανεκκίνηση του κοντέινερ Application Master σε περίπτωση αποτυχίας.

Ερχόμενοι στο δεύτερο συστατικό το οποίο είναι:

Διαχειριστής κόμβων

  • Φροντίζει μεμονωμένους κόμβους σε ένα σύμπλεγμα Hadoop καιδιαχειρίζεται τις εργασίες χρήστη και τη ροή εργασίας στον δεδομένο κόμβο.
  • Κάνει εγγραφή στο Resource Manager και στέλνει καρδιακούς παλμούς με την κατάσταση υγείας του κόμβου.
  • Ο πρωταρχικός του στόχος είναι η διαχείριση κοντέινερ εφαρμογών που του έχουν ανατεθεί από τον διαχειριστή πόρων.
  • Διατηρεί ενημερωμένο με τον Διαχειριστή πόρων.
  • Το Application Master ζητά το εκχωρημένο κοντέινερ από τον Διαχειριστή κόμβων στέλνοντάς του ένα Container Launch Context (CLC) που περιλαμβάνει όλα όσα χρειάζεται η εφαρμογή για να εκτελεστεί. Ο Διαχειριστής κόμβων δημιουργεί τη ζητούμενη διαδικασία κοντέινερ και την ξεκινά.
  • Παρακολουθεί τη χρήση πόρων (μνήμη, CPU) μεμονωμένων κοντέινερ.
  • Εκτελεί διαχείριση Log.
  • Σκοτώνει επίσης το κοντέινερ σύμφωνα με τις οδηγίες του Resource Manager.

ο τρίτο συστατικό του Apache Hadoop YARN είναι,

Master εφαρμογή
  • Η αίτηση είναι μια μεμονωμένη εργασία που υποβάλλεται στο πλαίσιο. Κάθε τέτοια εφαρμογή έχει ένα μοναδικό Master Application που σχετίζεται με αυτό, το οποίο είναι μια οντότητα συγκεκριμένη για το πλαίσιο.
  • Είναι η διαδικασία που συντονίζει την εκτέλεση μιας εφαρμογής στο σύμπλεγμα και διαχειρίζεται επίσης σφάλματα.
  • Η αποστολή του είναι να διαπραγματευτεί πόρους από τον Διαχειριστή πόρων και να συνεργαστεί με τον Διαχειριστή κόμβων για την εκτέλεση και την παρακολούθηση των εργασιών των στοιχείων.
  • Είναι υπεύθυνη για τη διαπραγμάτευση κατάλληλων κοντέινερ πόρων από το ResourceManager, την παρακολούθηση της κατάστασής τους και την παρακολούθηση της προόδου.
  • Μόλις ξεκινήσει, στέλνει περιοδικά καρδιακούς παλμούς στον Διαχειριστή Πόρων για να επιβεβαιώσει την υγεία του και να ενημερώσει το αρχείο των απαιτήσεων πόρων του.

ο τέταρτο συστατικό είναι:

Δοχείο
  • Πρόκειται για μια συλλογή φυσικών πόρων όπως RAM, πυρήνες CPU και δίσκους σε έναν μόνο κόμβο.
  • Τα κοντέινερ YARN διαχειρίζονται από ένα περιβάλλον εκκίνησης κοντέινερ που είναι κύκλος ζωής κοντέινερ (CLC). Αυτή η εγγραφή περιέχει έναν χάρτη μεταβλητών περιβάλλοντος, εξαρτήσεων που είναι αποθηκευμένες σε έναν απομακρυσμένο προσβάσιμο χώρο αποθήκευσης, διακριτικά ασφαλείας, ωφέλιμο φορτίο για υπηρεσίες Node Manager και την απαραίτητη εντολή για τη δημιουργία της διαδικασίας.
  • Εκχωρεί δικαιώματα σε μια εφαρμογή να χρησιμοποιεί ένα συγκεκριμένο ποσό πόρων (μνήμη, CPU κ.λπ.) σε έναν συγκεκριμένο κεντρικό υπολογιστή.

Υποβολή αίτησης σε YARN

Ανατρέξτε στην εικόνα και ρίξτε μια ματιά στα βήματα που περιλαμβάνονται στην υποβολή αίτησης του Hadoop YARN:

1) Υποβολή της εργασίας

2)Λήψη αναγνωριστικού αίτησης

3) Πλαίσιο υποβολής αίτησης

4 α) Έναρξη κοντέινερΕκτόξευση

β) Εκκίνηση εφαρμογής Master

5) Κατανομή πόρων

6 α) Δοχείο

β) Εκκίνηση

7) Εκτελέστε

Ροή εργασιών εφαρμογής στο Hadoop YARN

Ανατρέξτε στη δεδομένη εικόνα και δείτε τα ακόλουθα βήματα που εμπλέκονται στη ροή εργασιών εφαρμογής του Apache Hadoop YARN:

  1. Ο πελάτης υποβάλλει αίτηση
  2. Το Resource Manager εκχωρεί ένα κοντέινερ για να ξεκινήσει το Application Manager
  3. Το Application Manager εγγράφεται στο Resource Manager
  4. Το Application Manager ζητά κοντέινερ από το Resource Manager
  5. Το Application Manager ειδοποιεί το Node Manager για την εκκίνηση κοντέινερ
  6. Ο κωδικός εφαρμογής εκτελείται στο κοντέινερ
  7. Ο πελάτης επικοινωνεί με το Resource Manager / Application Manager για την παρακολούθηση της κατάστασης της εφαρμογής
  8. Καταργείται η εγγραφή του Application Manager με το Resource Manager

Τώρα που γνωρίζετε το Apache Hadoop YARN, δείτε το από την Edureka, μια αξιόπιστη διαδικτυακή εταιρεία εκμάθησης με δίκτυο περισσότερων από 250.000 ικανοποιημένων μαθητών σε όλο τον κόσμο. Το εκπαιδευτικό πρόγραμμα Edureka Big Data Hadoop Certification βοηθά τους μαθητές να γίνουν ειδικοί σε HDFS, Νήματα, MapReduce, Pig, Hive, HBase, Oozie, Flume και Sqoop χρησιμοποιώντας περιπτώσεις χρήσης σε πραγματικό χρόνο σε τομείς Retail, Social Media, Aviation, Tourism, Finance.

Έχετε μια ερώτηση για εμάς; Παρακαλώ αναφέρετέ το στην ενότητα σχολίων και θα επικοινωνήσουμε μαζί σας.