Tutorial Oozie: Μάθετε πώς να προγραμματίζετε τις δουλειές σας Hadoop



Apache Oozie Tutorial: Το Oozie είναι ένα σύστημα προγραμματισμού ροής εργασίας για τη διαχείριση εργασιών Hadoop. Είναι ένα επεκτάσιμο, αξιόπιστο και επεκτάσιμο σύστημα.

Πριν ξεκινήσετε αυτό το σεμινάριο Apache Oozie, ας καταλάβουμε πού χρησιμοποιείται το σύστημα προγραμματισμού. Σε σενάρια σε πραγματικό χρόνο, μια εργασία εξαρτάται από άλλες εργασίες, όπως η έξοδος μιας εργασίας MapReduce μπορεί να περάσει στην εργασία Hive για περαιτέρω επεξεργασία. Το επόμενο σενάριο μπορεί να είναι, ο προγραμματισμός ενός συνόλου εργασιών με βάση το χρόνο, όπως καθημερινή, εβδομαδιαία, μηνιαία ή βάσει διαθεσιμότητας δεδομένων. Το Apache Oozie σας παρέχει τη δύναμη να χειρίζεστε εύκολα τέτοια είδη σεναρίων. Γι 'αυτό το Apache Oozie είναι ένα σημαντικό μέρος του .

Σε αυτό το blog φροντιστηρίου Apache Oozie, θα καλύψουμε:





  • Εισαγωγή Apache Oozie
  • Ροή εργασίας Oozie
  • Συντονιστής Oozie
  • Oozie Bundle
  • Εργασία ροής εργασίας Word Count
  • Εργασία συντονιστή Word Count βάσει χρόνου

Θα ξεκινήσουμε αυτό το σεμινάριο Oozie εισάγοντας το Apache Oozie. Στη συνέχεια, θα κατανοήσουμε τους τύπους εργασιών που μπορούν να δημιουργηθούν και να εκτελεστούν χρησιμοποιώντας το Apache Oozie.

Apache Oozie Tutorial: Εισαγωγή στο Apache Oozie

Apache Oozie - Oozie Tutorial - EdurekaΤο Apache Oozie είναι ένα σύστημα προγραμματισμού για τη διαχείριση και εκτέλεση εργασιών Hadoop σε κατανεμημένο περιβάλλον. Μπορούμε να δημιουργήσουμε έναν επιθυμητό αγωγό με συνδυασμό διαφορετικού είδους εργασιών. Μπορεί να είναι η εργασία σας Hive, Pig, Sqoop ή MapReduce. Χρησιμοποιώντας το Apache Oozie μπορείτε επίσης να προγραμματίσετε τις εργασίες σας. Μέσα σε μια ακολουθία της εργασίας, δύο ή περισσότερες εργασίες μπορούν επίσης να προγραμματιστούν να εκτελούνται παράλληλα μεταξύ τους. Είναι ένα επεκτάσιμο, αξιόπιστο και επεκτάσιμο σύστημα.



Το Oozie είναι μια ανοιχτή εφαρμογή Ιστού Java, η οποία είναι υπεύθυνη για την ενεργοποίηση των ενεργειών ροής εργασίας. Με τη σειρά του, χρησιμοποιεί τη μηχανή εκτέλεσης Hadoop για την εκτέλεση των εργασιών.

Το Apache Oozie ανιχνεύει την ολοκλήρωση των εργασιών μέσω επιστροφής κλήσης και ψηφοφορίας. Όταν η Oozie ξεκινά μια εργασία, παρέχει μια μοναδική διεύθυνση URL HTTP επιστροφής στην εργασία και ειδοποιεί τη διεύθυνση URL όταν ολοκληρωθεί η εργασία. Εάν η εργασία αποτύχει να επικαλεστεί τη διεύθυνση URL επιστροφής κλήσης, το Oozie μπορεί να πραγματοποιήσει δημοσκόπηση της εργασίας για ολοκλήρωση.

Υπάρχουν τρεις τύποι θέσεων εργασίας στο Apache Oozie:



java δηλώνει σειρά αντικειμένων
  • Εργασίες ροής εργασίας Oozie & μείον Αυτά είναι κατευθυνόμενα ακυκλικά γραφήματα (DAG) που καθορίζουν μια ακολουθία ενεργειών που θα εκτελεστούν.
  • Εργασίες συντονιστών Oozie & μείον Αυτά αποτελούνται από εργασίες ροής εργασίας που ενεργοποιούνται από το χρόνο και τη διαθεσιμότητα δεδομένων.
  • Πακέτα Oozie & μείον Αυτά μπορούν να αναφέρονται ως ένα πακέτο πολλαπλών συντονιστών και εργασιών ροής εργασίας.

Τώρα, ας καταλάβουμε όλες αυτές τις εργασίες μία προς μία.

Εκμάθηση Apache Oozie: Ροή εργασίας Oozie

Η ροή εργασιών είναι μια ακολουθία ενεργειών που διοργανώνονται σε ένα άμεσο ακυκλικό γράφημα (DAG). Οι ενέργειες εξαρτώνται η μία από την άλλη, καθώς η επόμενη ενέργεια μπορεί να εκτελεστεί μόνο μετά την έξοδο της τρέχουσας ενέργειας. Μια ενέργεια ροής εργασίας μπορεί να είναι μια δράση χοίρου, δράση κυψέλης, δράση MapReduce, δράση Shell, δράση Java κ.λπ. Μπορεί να υπάρχουν δέντρα αποφάσεων για να αποφασίσουν πώς και υπό ποια κατάσταση πρέπει να εκτελεστεί μια εργασία.

Μπορούμε να δημιουργήσουμε διαφορετικούς τύπους ενεργειών με βάση την εργασία και κάθε τύπος ενέργειας μπορεί να έχει τον δικό του τύπο ετικετών.Η ροή εργασίας και τα σενάρια ή τα βάζα πρέπει να τοποθετηθούν στη διαδρομή HDFS πριν από την εκτέλεση της ροής εργασίας.

Εντολή: εργασία oozie –oozie http: // localhost: 11000 / oozie -config job.properties -run

Για να ελέγξετε την κατάσταση της εργασίας, μπορείτε να μεταβείτε στην κονσόλα ιστού Oozie, δηλαδή http: // host_name: 11000 . Κάνοντας κλικ στην εργασία θα δείτε την κατάσταση της εργασίας.

Σε σενάρια, όπου θέλουμε να εκτελέσουμε πολλές εργασίες παράλληλα, μπορούμε να χρησιμοποιήσουμε Πιρούνι . Κάθε φορά που χρησιμοποιούμε πιρούνι, πρέπει να χρησιμοποιούμε το Join ως τελικό κόμβο για το πιρούνι. Για κάθε πιρούνι πρέπει να υπάρχει ένωση. Το Join υποθέτει ότι όλοι οι κόμβοι που εκτελούν παράλληλα, είναι παιδί ενός μεμονωμένου πιρουνιού. Για παράδειγμα, μπορούμε να δημιουργήσουμε δύο πίνακες ταυτόχρονα.

Εάν θέλουμε να εκτελέσουμε μια ενέργεια με βάση το αποτέλεσμα της απόφασης, μπορούμε να προσθέσουμε ετικέτες αποφάσεων. Για παράδειγμα, εάν έχουμε ήδη τον πίνακα κυψελών, δεν θα χρειαστεί να το δημιουργήσουμε ξανά. Σε αυτήν την περίπτωση, μπορούμε να προσθέσουμε μια ετικέτα απόφασης για να μην εκτελέσουμε τα βήματα δημιουργίας πίνακα εάν υπάρχει ήδη ο πίνακας. Οι κόμβοι απόφασης έχουν ετικέτα διακόπτη παρόμοιο με το περίβλημα.

Η τιμή του job-tracker, του ονόματος-κόμβου, του σεναρίου και της παραμέτρου μπορεί να μεταφερθεί απευθείας. Όμως, αυτό γίνεται δύσκολο να διαχειριστεί. Αυτό είναι όπου ένα αρχείο config (δηλ. Αρχείο ιδιοκτησίας) είναι χρήσιμο.

Apache Oozie Tutorial: Συντονιστής Oozie

Μπορείτε να προγραμματίσετε σύνθετες ροές εργασίας καθώς και ροές εργασίας που προγραμματίζονται τακτικά χρησιμοποιώντας το Συντονιστή. Οι συντονιστές του Oozie ενεργοποιούν τις εργασίες ροών εργασίας με βάση το χρόνο, τα δεδομένα ή τις προβλέψεις συμβάντων. Οι ροές εργασίας εντός του συντονιστή εργασίας ξεκινούν όταν ικανοποιείται η δεδομένη συνθήκη.

Οι ορισμοί που απαιτούνται για τις εργασίες συντονιστή είναι:

  • αρχή & μείον Έναρξη ώρας ημερομηνίας για την εργασία.
  • τέλος & μείον Ώρα λήξης για την εργασία.
  • ζώνη ώρας & μείον Timezone της εφαρμογής συντονιστή.
  • συχνότητα & μείον Η συχνότητα, σε λεπτά, για την εκτέλεση των εργασιών.

Μερικές περισσότερες ιδιότητες είναι διαθέσιμες για πληροφορίες ελέγχου:

  • τέλος χρόνου & μείον Ο μέγιστος χρόνος, σε λεπτά, για τον οποίο μια ενέργεια θα περιμένει να ικανοποιήσει τις πρόσθετες προϋποθέσεις, προτού απορριφθεί. Το 0 υποδεικνύει ότι εάν όλα τα συμβάντα εισαγωγής δεν ικανοποιηθούν κατά τον χρόνο υλοποίησης της ενέργειας, η ενέργεια θα πρέπει να λήξει αμέσως. -1 δείχνει ότι δεν υπάρχει χρονικό όριο, η δράση θα περιμένει για πάντα. Η προεπιλεγμένη τιμή είναι -1.
  • συγχρονισμός & μείον Ο μέγιστος αριθμός ενεργειών για μια εργασία που μπορεί να εκτελεστεί παράλληλα. Η προεπιλεγμένη τιμή είναι 1.
  • εκτέλεση - Καθορίζει την εντολή εκτέλεσης εάν πολλές παρουσίες της εργασίας συντονιστή έχουν ικανοποιήσει τα κριτήρια εκτέλεσης. Μπορεί να είναι:
    • FIFO (προεπιλογή)
    • LIFO
    • ΤΕΛΕΥΤΑΙΑ ΜΟΝΟ

Εντολή: oozie job –oozie http: // localhost: 11000 / oozie -config -run

Εάν μια ιδιότητα διαμόρφωσης που χρησιμοποιείται στον ορισμό δεν παρέχεται με τη διαμόρφωση εργασίας κατά την υποβολή της εργασίας συντονιστή, η υποβολή της εργασίας θα αποτύχει.

Εκμάθηση Apache Oozie: Oozie Bundle

Σύστημα Oozie Bundleσας επιτρέπει να ορίσετε και να εκτελέσετε ένα σύνολο εφαρμογών συντονιστή, που συχνά ονομάζεται αγωγός δεδομένων. Σε ένα πακέτο Oozie, δεν υπάρχει ρητή εξάρτηση μεταξύ των εφαρμογών συντονιστή. Ωστόσο, θα μπορούσατε να χρησιμοποιήσετε την εξάρτηση δεδομένων των εφαρμογών συντονιστή για να δημιουργήσετε μια σιωπηρή εφαρμογή εφαρμογών δεδομένων.Μπορείτε να ξεκινήσετε / σταματήσετε / αναστείλετε / συνεχίσετε / εκτελέστε ξανά το πακέτο. Δίνει καλύτερο και εύκολο λειτουργικό έλεγχο.

Έναρξη χρόνου & μείον Ο χρόνος κατά τον οποίο ένα πακέτο πρέπει να ξεκινήσει και να υποβάλει αιτήσεις συντονιστή.

Προχωρώντας σε αυτό το σεμινάριο Apache Oozie, θα καταλάβουμε πώς να δημιουργήσουμε Workflow Job.

Apache Oozie Tutorial: Εργασία ροής εργασίας Word Count

Σε αυτό το παράδειγμα, θα εκτελέσουμε μια εργασία Word Count χρησιμοποιώντας το Apache Oozie. Εδώ δεν θα συζητήσουμε για το πώς να γράψετε ένα πρόγραμμα καταμέτρησης λέξεων MapReduce. Επομένως, προτού ακολουθήσετε αυτό το σεμινάριο Apache Oozie, πρέπει να το κατεβάσετε βάζο μέτρησης λέξεων αρχείο. Τώρα, δημιουργήστε έναν κατάλογο WordCountTest όπου θα τοποθετήσουμε όλα τα αρχεία. Δημιουργήστε έναν κατάλογο lib όπου θα τοποθετήσουμε το βάζο καταμέτρησης λέξεων όπως φαίνεται στις παρακάτω εικόνες.

Τώρα, ας προχωρήσουμε και δημιουργήστε job.properties & workflow.xml αρχεία, όπου θα καθορίσουμε την εργασία και τις παραμέτρους που σχετίζονται με αυτήν.

job.properties

Πρώτον, δημιουργούμε ένα job.properties αρχείο, όπου ορίζουμε τη διαδρομή του NameNode & ResourceManager. Απαιτείται διαδρομή NameNode για την επίλυση της διαδρομής καταλόγου ροής εργασίας & η διαδρομή jobTracker θα βοηθήσει στην υποβολή της εργασίας στο YARN. Πρέπει να παρέχουμε τη διαδρομή του workflow.xml αρχείο, το οποίο θα πρέπει να αποθηκευτεί σε HDFS.

workflow.xml

Στη συνέχεια, πρέπει να δημιουργήσουμε το workflow.xml αρχείο, όπου θα καθορίσουμε όλες τις ενέργειές μας και θα τις εκτελέσουμε. Αρχικά, πρέπει να καθορίσουμε το όνομα της εφαρμογής ροής εργασίας, δηλαδή WorkflowRunnerTest . Στη συνέχεια, καθορίζουμε το αρχικός κόμβος . Ο κόμβος έναρξης ( σε ο αρχίζω να ετικέτα ) είναι το σημείο εισόδου για μια εργασία ροής εργασίας. Δείχνει τον πρώτο κόμβο ροής εργασίας από όπου πρέπει να ξεκινήσει η εργασία. Όπως μπορείτε να δείτε στην παρακάτω εικόνα, ο επόμενος κόμβος είναι διασταύρωση0 από όπου θα ξεκινήσει η δουλειά.

Στη συνέχεια, καθορίζουμε την εργασία που θα εκτελεστεί, στον κόμβο δράσης. Εκτελούμε μια εργασία MapReduce WordCount εδώ. Πρέπει να καθορίσουμε τις διαμορφώσεις που απαιτούνται για την εκτέλεση αυτής της εργασίας MapReduce. Καθορίζουμε τη διεύθυνση εντοπισμού εργασίας & NameNode.

Στη συνέχεια είναι το προετοιμασμένο στοιχείο, το οποίο χρησιμοποιείται αποκλειστικά για τον καθαρισμό καταλόγου, πριν από την εκτέλεση της ενέργειας. Εδώ εκτελούμε λειτουργία διαγραφής σε HDFS για τη διαγραφή του έξω1 εάν έχει ήδη δημιουργηθεί. Η ετικέτα προετοιμασίας χρησιμοποιείται για τη δημιουργία ή τη διαγραφή ενός φακέλου πριν από την εκτέλεση της εργασίας. Στη συνέχεια, καθορίζουμε τις ιδιότητες MapReduce όπως το όνομα ουράς εργασίας, την τάξη χαρτογράφησης, την κατηγορία μειωτή, την κλάση κλειδιού εξόδου και την κλάση τιμών εξόδου.

Η τελευταία διαμόρφωση εργασιών MapReduce είναι ο κατάλογος εισαγωγής και εξόδου σε HDFS. Ο κατάλογος εισαγωγής είναι δεδομένα κατάλογος, ο οποίος είναι αποθηκευμένος στη ριζική διαδρομή του NameNode . Επιτέλους, θα καθορίσουμε το στοιχείο kill εάν η εργασία αποτύχει.

Τώρα πρέπει να μετακινήσουμε το WordCountTest φάκελο σε HDFS, όπως έχουμε καθορίσει στο oozie.wf.application.path ακίνητο σε job.properties αρχείο. Έτσι, αντιγράφουμε το WordCountTest φάκελο στον ριζικό κατάλογο Hadoop.

Εντολή: hadoop fs -put WordCountTest /

Για επαλήθευση, μπορείτε να μεταβείτε στο NameNode Web UI και να ελέγξετε αν ο φάκελος έχει μεταφορτωθεί στον ριζικό κατάλογο HDFS ή όχι.

Τώρα, είμαστε όλοι έτοιμοι να προχωρήσουμε και να εκτελέσουμε τη δουλειά της ροής εργασίας.

Εντολή: εργασία oozie –oozie http: // localhost: 11000 / oozie -config job.properties -run

Μόλις εκτελέσουμε τη δουλειά μας, θα λάβουμε το αναγνωριστικό εργασίας (δηλ. 0000009-171219160449620-oozie-edur-W ) όπως φαίνεται στην παραπάνω εικόνα. Μπορείτε να πάτε και να ελέγξετε την εργασία που έχετε υποβάλει στο περιβάλλον εργασίας χρήστη του Oozie Web δηλ. localhost: 11000 . Μπορείτε να δείτε στην παρακάτω εικόνα, η εργασία που έχουμε υποβάλει παρατίθεται κάτω.

Εάν παρατηρήσετε στην παραπάνω εικόνα, θα δείτε το Αναγνωριστικό εργασίας, το όνομα της εργασίας, την κατάσταση της εργασίας, τον χρήστη που υπέβαλε την εργασία, την ώρα δημιουργίας, την έναρξη και την τελευταία τροποποίηση. Μπορείτε να κάνετε κλικ στην εργασία για να λάβετε περισσότερες λεπτομέρειες όπως:

  • Πληροφορίες εργασίας

  • Ορισμός εργασίας

  • Διαμόρφωση εργασίας

Καθώς η κατάσταση της εργασίας είναι επιτυχής, οπότε πρέπει να μεταβούμε στον ριζικό κατάλογο HDFS και να ελέγξουμε εάν ο κατάλογος εξόδου έχει δημιουργηθεί ή όχι.

Όπως μπορείτε να δείτε ότι το βγαίνει ο κατάλογος έχει δημιουργηθεί στο HDFS, οπότε τώρα ας δούμε το αρχείο εξόδου που έχει δημιουργηθεί.

Όπως έχουμε δει πώς να δημιουργήσουμε μια εργασία ροής εργασίας Oozie, τώρα θα προχωρήσουμε σε αυτό το ιστολόγιο Apache Oozie Tutorial και θα καταλάβουμε πώς να δημιουργήσουμε μια εργασία συντονιστή.

Apache Oozie Tutorial: Εργασία συντονιστή Word Count βάσει χρόνου

Σε αυτό το παράδειγμα, θα δημιουργήσουμε μια εργασία συντονιστή μέτρησης λέξεων βάσει χρόνου που θα εκτελεστεί μετά από ένα συγκεκριμένο χρονικό διάστημα. Μπορείτε να δημιουργήσετε και να προγραμματίσετε μια εργασία χρησιμοποιώντας το Apache Oozie που πρέπει να εκτελείται καθημερινά ή περιοδικά.

Ας προχωρήσουμε γρήγορα σε αυτό το σεμινάριο Apache Oozie και δημιουργήστε μια εργασία συντονιστή. Εδώ θα δημιουργήσουμε τρία αρχεία, δηλαδή συντονιστής. ιδιότητες , συντονιστής.xml & workflow.xml αρχείο. Και πάλι, εδώ θα τοποθετήσουμε το w αριθμός βάζο μέσα στο lib κατάλογο όπως φαίνεται στην παρακάτω εικόνα.

Τώρα ας δούμε αυτά τα αρχεία ξεχωριστά. Αρχικά, θα ξεκινήσουμε με το αρχείο coordinator.properties.

Εδώ, καθορίζουμε τη συχνότητα με την οποία θα εκτελεστεί η ροή εργασίας. Η συχνότητα εκφράζεται πάντα σε λεπτά. Στην περίπτωσή μας, αυτή η εργασία συντονιστή θα εκτελείται μία φορά κάθε ώρα μεταξύ της καθορισμένης ώρας. Η συχνότητα χρησιμοποιείται για την καταγραφή των περιοδικών διαστημάτων στα οποία παράγονται τα σύνολα δεδομένων και προγραμματίζονται να εκτελούνται εφαρμογές συντονιστή.

Για τον καθορισμό της συχνότητας σε λεπτά, ώρες, ημέρες και μήνες χρησιμοποιήστε την ακόλουθη μορφή:

τι είναι σειριοποιημένο στην Ιάβα
$ {coord: λεπτά (int n)} ν $ {coord: λεπτά (45)} -> 45
$ {coord: ώρες (int n)} n * 60 $ {coord: ώρες (3)} -> 180
$ {coord: days (int n)} μεταβλητός $ {coord: days (2)} -> λεπτά σε 2 πλήρεις ημέρες από την τρέχουσα ημερομηνία
$ {συντονισμός: μήνες (int n)} μεταβλητός $ {coord: months (1)} -> λεπτά σε 1 ολόκληρο μήνα από την τρέχουσα ημερομηνία

Στη συνέχεια, ορίζουμε την ώρα έναρξης και λήξης της εργασίας, όπως φαίνεται στην παραπάνω εικόνα. ώρα έναρξης είναι η ώρα έναρξης για την εργασία & τέλος χρόνου είναι η ώρα λήξης της εργασίας.

Στη συνέχεια, καθορίζουμε τη διεύθυνση URL NameNode & ResourceManager, η οποία θα χρησιμοποιηθεί για αναφορά του αρχείου workflow.xml σε HDFS και για υποβολή εργασιών στο YARN αντίστοιχα. Επιτέλους, καθορίζουμε τη διαδρομή workflow.xml, την οποία θα αποθηκεύσουμε σε HDFS. Θα καθορίσουμε επίσης τη διαδρομή εφαρμογής όπου θα αποθηκευτούν όλα τα αρχεία και ο κατάλογος lib.

Το δεύτερο αρχείο είναι συντονιστής.xml όπου θα χρησιμοποιήσουμε όλες τις ιδιότητες που έχουμε καθορίσει στο συντονιστής. ιδιότητες αρχείο. Τώρα, πρώτα, θα καθορίσουμε τις ιδιότητες της εφαρμογής συντονιστή, δηλαδή όνομα, συχνότητα και ζώνη ώρας. Στη συνέχεια, θα καθορίσουμε τις ροές εργασίας μία προς μία. Εδώ, έχουμε μόνο μία ροή εργασίας. Έτσι, στο εσωτερικό στοιχείο δράσης θα δημιουργήσουμε ένα στοιχείο ροής εργασίας, όπου θα καθορίσουμε τη διαδρομή εφαρμογής.

Στη συνέχεια, προχωρώντας μπροστά πρέπει να δημιουργήσουμε workflow.xml αρχείο όπου θα καθορίσουμε την εργασία. Είναι παρόμοιο με το workflow.xml αρχείο, το οποίο έχουμε δημιουργήσει στην εργασία ροής εργασίας.

Και πάλι, θα το προχωρήσουμε WordCountTest_Timed Βάσει κατάλογος σε HDFS.

Εντολή : hadoop fs -put WordCountTest_TimeBased /

Τώρα, είμαστε όλοι έτοιμοι να προχωρήσουμε και να εκτελέσουμε αυτήν την εργασία συντονιστή σε αυτό το Oozie Tutorial. Ας προχωρήσουμε και να το εκτελέσουμε.

Εντολή : εργασία oozie –oozie http: // localhost: 11000 / oozie -config coordinator.properties -run

Σημειώστε αυτό το αναγνωριστικό εργασίας συντονιστή (π.χ. 0000010-171219160449620-oozie-edur-C). Θα σας βοηθήσει να εντοπίσετε τη δουλειά σας στο Oozie Web UI.

Μπορείτε να δείτε την εργασία που αναφέρεται στην καρτέλα Συντονιστής εργασιών στο περιβάλλον εργασίας χρήστη του Oozie Web. Παρόμοια με την εργασία ροής εργασίας έχουμε όνομα, κατάσταση, χρήστη, συχνότητα, ώρα έναρξης και λήξης της εργασίας. Όταν κάνετε κλικ σε μια συγκεκριμένη εργασία, θα δείτε τις λεπτομέρειες της εργασίας, όπως φαίνεται στις παρακάτω εικόνες.

  • Πληροφορίες εργασίας συντονιστή

  • Ορισμός εργασίας συντονιστή

  • Διαμόρφωση εργασίας συντονιστή

Τώρα, καθώς εξετάσαμε τις διαφορετικές καρτέλες. Θα επιστρέψουμε στον ριζικό κατάλογο HDFS όπου θα δημιουργηθεί ο φάκελος εξόδου. Όπως μπορείτε να δείτε στην παρακάτω εικόνα, oozieTimeBasedout ο κατάλογος έχει δημιουργηθεί, όπως καθορίσαμε στο workflow.xml αρχείο.

Τώρα, ας ρίξουμε μια ματιά στο αρχείο εξόδου που έχει δημιουργηθεί.

Ελπίζω ότι βρήκατε αυτό το ιστολόγιο Apache Oozie Tutorial ενημερωτικό. Εάν σας ενδιαφέρει να μάθετε περισσότερα, μπορείτε να το διαβάσετε το οποίο σας λέει για τα Big Data και πώς η Hadoop επιλύει προκλήσεις που σχετίζονται με τα Big Data.

Τώρα που έχετε καταλάβει την Apache Oozie, δείτε το από την Edureka, μια αξιόπιστη διαδικτυακή εταιρεία εκμάθησης με δίκτυο περισσότερων από 250.000 ικανοποιημένων μαθητών σε όλο τον κόσμο. Το εκπαιδευτικό πρόγραμμα Edureka Big Data Hadoop Certification βοηθά τους μαθητές να γίνουν ειδικοί σε HDFS, Νήματα, MapReduce, Pig, Hive, HBase, Oozie, Flume και Sqoop χρησιμοποιώντας περιπτώσεις χρήσης σε πραγματικό χρόνο σε τομείς Retail, Social Media, Aviation, Tourism, Finance.

Έχετε μια ερώτηση για εμάς; Παρακαλώ αναφέρετέ το στην ενότητα σχολίων και θα επικοινωνήσουμε μαζί σας.