Μεγάλα δεδομένα σε AWS - Έξυπνη λύση για μεγάλα δεδομένα



Αυτό το άρθρο σάς βοηθά να καταλάβετε πώς το AWS αντιμετωπίζει έξυπνα τα Big Data. Δείχνει επίσης πώς το AWS μπορεί να λύσει τις προκλήσεις Big Data με ευκολία.

Η ιδέα του Big Data δεν είναι απλά νέα, είναι παντού. Το αποτέλεσμα των Big Data είναι παντού, από τις επιχειρήσεις έως την επιστήμη, από την κυβέρνηση μέχρι τις τέχνες και ούτω καθεξής. Δεν υπάρχει καλύτερος σύντροφος από για επεξεργασία και ανάλυση Big Data. Σε αυτό το άρθρο, θα δείξω πώς η AWS αντιμετωπίζει τις προκλήσεις του Big Data και οι δείκτες που θα καλύψω είναι οι εξής:

Τι είναι τα Big Data;

μεγάλα χαρακτηριστικά δεδομένων





Μπορείτε να θεωρήσετε τα μεγάλα δεδομένα ως στοιχεία πληροφοριών μεγάλου όγκου, υψηλής ταχύτητας ή / και υψηλής ποικιλίας που απαιτούν οικονομικά αποδοτικές, καινοτόμες μορφές επεξεργασίας πληροφοριών που επιτρέπουν βελτιωμένη διορατικότητα, λήψη αποφάσεων και αυτοματοποίηση διεργασιών.

Τα Big Data αποτελούνται από 5 σημαντικά V που ορίζουν τα χαρακτηριστικά των Big Data. Ας συζητήσουμε αυτά πριν προχωρήσουμε στο AWS.



Τι είναι το AWS;

περιλαμβάνει πολλά διαφορετικά προϊόντα και υπηρεσίες cloud computing. Το εξαιρετικά κερδοφόρο τμήμα Amazon παρέχει διακομιστές, αποθήκευση, δικτύωση, απομακρυσμένους υπολογιστές, email, ανάπτυξη κινητής τηλεφωνίας μαζί με ασφάλεια. Επί πλέον. Το AWS αποτελείται από δύο κύρια προϊόντα: το EC2, την υπηρεσία εικονικής μηχανής της Amazon και το S3, ένα σύστημα αποθήκευσης από την Amazon. Είναι τόσο μεγάλο και παρόν στον κόσμο των υπολογιστών που έχει πλέον τουλάχιστον 10 φορές το μέγεθος του πλησιέστερου ανταγωνιστή του και φιλοξενεί δημοφιλείς ιστότοπους όπως το Netflix και το Instagram.

.

Το AWS χωρίζεται σε 12 παγκόσμιες περιοχές παγκοσμίως, καθεμία από τις οποίες έχει πολλές ζώνες διαθεσιμότητας στις οποίες βρίσκονται οι διακομιστές του.Αυτές οι περιοχές που εξυπηρετούνται χωρίζονται για να επιτρέπουν στους χρήστες να θέτουν γεωγραφικά όρια στις υπηρεσίες τους, αλλά και να παρέχουν ασφάλεια διαφοροποιώντας τις φυσικές τοποθεσίες στις οποίες διατηρούνται τα δεδομένα.



Γιατί τα μεγάλα δεδομένα στο AWS;

Επιστήμονες, προγραμματιστές και άλλοι λάτρεις της τεχνολογίας από πολλούς διαφορετικούς τομείς εκμεταλλεύονται το AWS για την εκτέλεση μεγάλων αναλυτικών δεδομένων και την αντιμετώπιση των κρίσιμων προκλήσεων των αυξανόμενων ψηφιακών πληροφοριών. Η AWS σας προσφέρει ένα χαρτοφυλάκιο υπηρεσιών cloud computing για τη διαχείριση μεγάλων δεδομένων μειώνοντας σημαντικά το κόστος, κλιμακώνοντας για να καλύψετε τη ζήτηση και αυξάνοντας την ταχύτητα της καινοτομίας.

Το Amazon Web Services παρέχει ένα πλήρως ενσωματωμένο χαρτοφυλάκιο υπηρεσιών cloud computing. Επιπλέον, σας βοηθά να δημιουργήσετε, να ασφαλίσετε και να αναπτύξετε τις μεγάλες εφαρμογές δεδομένων σας. Επίσης, με το AWS, δεν χρειάζεστε υλικό για προμήθεια και υποδομή για συντήρηση και κλίμακα. Λόγω αυτού, μπορείτε να εστιάσετε τους πόρους σας στην αποκάλυψη νέων πληροφοριών.Δεδομένου ότι οι νέες δυνατότητες προστίθενται συνεχώς, θα μπορείτε πάντα να αξιοποιείτε τις τελευταίες τεχνολογίες χωρίς να απαιτείται να κάνετε μακροπρόθεσμες δεσμεύσεις για επενδύσεις.

Πώς μπορεί το AWS να λύσει τις μεγάλες προκλήσεις δεδομένων;

Λύσεις AWS για Big Data

Το AWS έχει πολλές λύσεις για όλους τους σκοπούς ανάπτυξης και ανάπτυξης. Επίσης, στον τομέα της Επιστήμης Δεδομένων και των Big Data, η AWS έχει παρουσιάσει πρόσφατες εξελίξεις σε διάφορες πτυχές του χειρισμού Big Data. Πριν μεταβείτε σε εργαλεία, ας κατανοήσουμε διαφορετικές πτυχές των Big Data για τις οποίες το AWS μπορεί να παρέχει λύσεις.

  1. Κατάποση δεδομένων
    Η συλλογή πρωτογενών δεδομένων - συναλλαγές, αρχεία καταγραφής, κινητές συσκευές και άλλα - είναι η πρώτη πρόκληση που αντιμετωπίζουν πολλοί οργανισμοί όταν ασχολούνται με μεγάλα δεδομένα. Μια καλή πλατφόρμα μεγάλων δεδομένων κάνει αυτό το βήμα πιο εύκολο, επιτρέποντας στους προγραμματιστές να απορροφήσουν μια μεγάλη ποικιλία δεδομένων - από δομημένα έως μη δομημένα - με οποιαδήποτε ταχύτητα - από πραγματικό χρόνο έως παρτίδα.

  2. Αποθήκευση δεδομένων
    Οποιαδήποτε μεγάλη πλατφόρμα δεδομένων χρειάζεται ένα ασφαλές, επεκτάσιμο και ανθεκτικό αποθετήριο για την αποθήκευση δεδομένων πριν ή ακόμα και μετά την επεξεργασία εργασιών. Ανάλογα με τις συγκεκριμένες απαιτήσεις σας, μπορεί επίσης να χρειαστείτε προσωρινά καταστήματα για μεταφορά δεδομένων.

  3. Επεξεργασία δεδομένων
    Αυτό είναι το βήμα όπου ο μετασχηματισμός δεδομένων γίνεται από την αρχική του κατάσταση σε αναλώσιμη μορφή - συνήθως μέσω ταξινόμησης, συγκέντρωσης, σύνδεσης και ακόμη και εκτέλεσης πιο προηγμένων λειτουργιών και αλγορίθμων. Τα προκύπτοντα σύνολα δεδομένων υποβάλλονται σε αποθήκευση για περαιτέρω επεξεργασία ή διατίθενται για κατανάλωση μέσω εργαλείων επιχειρηματικής ευφυΐας και οπτικοποίησης δεδομένων.

  4. Οραματισμός

    Τα μεγάλα δεδομένα έχουν να κάνουν με τη λήψη υψηλής αξίας, ενεργών πληροφοριών από τα στοιχεία δεδομένων σας. Στην ιδανική περίπτωση, τα δεδομένα είναι διαθέσιμα στους ενδιαφερόμενους μέσω αυτοεξυπηρετούμενης επιχειρηματικής ευφυΐας και ευέλικτων εργαλείων οπτικοποίησης δεδομένων που επιτρέπουν γρήγορη και εύκολη εξερεύνηση συνόλων δεδομένων.

Εργαλεία AWS για μεγάλα δεδομένα

Στις προηγούμενες ενότητες, εξετάσαμε τα πεδία στο Big Data όπου το AWS μπορεί να παρέχει λύσεις. Επιπλέον, το AWS διαθέτει πολλά εργαλεία και υπηρεσίες στο οπλοστάσιό του για να επιτρέπει στους πελάτες με τις δυνατότητες του Big Data.

Ας δούμε τις διάφορες λύσεις που παρέχει η AWS για τον χειρισμό διαφορετικών σταδίων που εμπλέκονται στο χειρισμό Big Data

Εγχυση εις τον στόμαχο

  1. Κινησί

    Το Amazon Kinesis Firehose είναι μια πλήρως διαχειριζόμενη υπηρεσία για την παράδοση δεδομένων ροής σε πραγματικό χρόνο απευθείας στο Amazon S3. Το Kinesis Firehose κλιμακώνεται αυτόματα ώστε να ταιριάζει με τον όγκο και τη ροή δεδομένων ροής και δεν απαιτεί συνεχή διαχείριση. Μπορείτε να διαμορφώσετε το Kinesis Firehose για να μετατρέψετε δεδομένα ροής πριν τα αποθηκεύσετε στο Amazon S3.

  2. Χιονόμπαλα
    Μπορείς να χρησιμοποιήσεις Χιονοστιβάδα AWS για να μετεγκαταστήσετε με ασφάλεια και αποτελεσματικά μαζικά δεδομένα από πλατφόρμες αποθήκευσης εσωτερικής εγκατάστασης και συστάδες Hadoop σε κάδους S3. Αφού δημιουργήσετε μια εργασία στο AWS Management Console, λαμβάνετε αυτόματα μια συσκευή Snowball. Αφού φτάσει ένα Snowball, συνδέστε το στο τοπικό σας δίκτυο, εγκαταστήστε το πρόγραμμα-πελάτη Snowball στην πηγή δεδομένων εσωτερικής εγκατάστασης και, στη συνέχεια, χρησιμοποιήστε το πρόγραμμα-πελάτη Snowball για να επιλέξετε και να μεταφέρετε τους καταλόγους αρχείων στη συσκευή Snowball.

Αποθήκευση

  1. Amazon S3

Amazon S3 είναι μια ασφαλής, εξαιρετικά επεκτάσιμη, ανθεκτική αποθήκευση αντικειμένων με καθυστέρηση χιλιοστών του δευτερολέπτου για πρόσβαση στα δεδομένα. Το S3 μπορεί να αποθηκεύσει οποιονδήποτε τύπο δεδομένων από οπουδήποτε - ιστότοπους και εφαρμογές για κινητά, εταιρικές εφαρμογές και δεδομένα από αισθητήρες ή συσκευές IoT. Μπορεί επίσης να αποθηκεύσει και να ανακτήσει οποιοδήποτε ποσό δεδομένων, με απαράμιλλη διαθεσιμότητα, και κατασκευασμένο από το μηδέν μέχρι να προσφέρει 99,999999999% (11 εννέα) ανθεκτικότητας.

2. Κόλλα AWS

Η κόλλα είναι μια πλήρως διαχειριζόμενη υπηρεσία που παρέχει έναν κατάλογο δεδομένων για να κάνει τα δεδομένα στη λίμνη δεδομένων να εντοπιστούν. Επιπλέον, έχει τη δυνατότητα να κάνει εξαγωγή, μετασχηματισμό και φόρτωση (ETL) για την προετοιμασία δεδομένων για ανάλυση. Επίσης, ο ενσωματωμένος κατάλογος δεδομένων μοιάζει με ένα μόνιμο κατάστημα μεταδεδομένων για όλα τα στοιχεία δεδομένων, καθιστώντας όλα τα δεδομένα με δυνατότητα αναζήτησης και δυνατότητα υποβολής ερωτημάτων σε μία προβολή.

πώς να εφαρμόσετε το hashmap στην Java

Επεξεργασία

  1. EMR
    Για μεγάλη επεξεργασία δεδομένων χρησιμοποιώντας το Spark και το Hadoop, Amazon EMR παρέχει μια διαχειριζόμενη υπηρεσία που καθιστά εύκολη, γρήγορη και οικονομικά αποδοτική την επεξεργασία τεράστιων ποσοτήτων δεδομένων. Επιπλέον, το EMR υποστηρίζει 19 διαφορετικά έργα ανοιχτού κώδικα, συμπεριλαμβανομένων Χάδοπ , Σπίθα , και Επίσης έρχεται με διαχειριζόμενα EMR Notebooks για τη μηχανική δεδομένων, την ανάπτυξη της επιστήμης δεδομένων και τη συνεργασία.

  2. Redshift
    Για αποθήκευση δεδομένων, Αμαζόνα Το Redshift παρέχει τη δυνατότητα εκτέλεσης σύνθετων, αναλυτικών ερωτημάτων έναντι petabytes δομημένων δεδομένων. Επίσης, περιλαμβάνει Φάσμα Redshift που εκτελεί ερωτήματα SQL απευθείας εναντίον Exabytes δομημένων ή μη δομημένων δεδομένων στο S3 χωρίς την ανάγκη άσκοπης μεταφοράς δεδομένων.

Οπτικοποιήσεις

  1. Amazon QuickSight

    Για πίνακες εργαλείων και οπτικοποιήσεις, το Amazon Quicksight σάς παρέχει γρήγορη, υπηρεσία cloud analytics. Διευκολύνει τη δημιουργία εκπληκτικών απεικονίσεων και πλούσιων ταμπλό. Επιπλέον, μπορείτε να έχετε πρόσβαση σε αυτά από οποιοδήποτε πρόγραμμα περιήγησης ή κινητή συσκευή.

Επίδειξη - Ανάλυση δεδομένων απειλούμενων με εξαφάνιση ειδών φυτών και ζώων στην Αυστραλία.

Σε αυτήν την επίδειξη, θα χρησιμοποιήσουμε δείγματα δεδομένων για απειλούμενα είδη φυτών και ζώων από τις πολιτείες και τις επικράτειες της Αυστραλίας. Εδώ θα δημιουργήσουμε ένα σύμπλεγμα EMR και θα το ρυθμίσουμε ώστε να εκτελεί εργασίες πολλαπλών βημάτων Apache Hive. Το σύμπλεγμα EMR θα έχει εγκατεστημένο το Apache Hive. Αυτό το σύμπλεγμα θα χρησιμοποιεί το EMRFS ως σύστημα αρχείων, έτσι ώστε οι τοποθεσίες εισόδου και εξόδου δεδομένων να αντιστοιχίζονται σε έναν κάδο S3. Το σύμπλεγμα θα χρησιμοποιήσει επίσης τον ίδιο κάδο S3 για την αποθήκευση αρχείων καταγραφής.

Τώρα θα δημιουργήσουμε μια σειρά από βήματα EMR στο σύμπλεγμα για την επεξεργασία ενός δείγματος συνόλου δεδομένων. Εδώ κάθε ένα από αυτά τα βήματα θα εκτελέσει ένα σενάριο Hive και η τελική έξοδος θα αποθηκευτεί στον κάδο S3. Αυτά τα βήματα θα δημιουργήσουν αρχεία καταγραφής MapReduce και αυτό συμβαίνει επειδή οι εντολές Hive μεταφράζονται σε εργασίες MapReduce κατά το χρόνο εκτέλεσης. Τα αρχεία καταγραφής για κάθε βήμα συγκεντρώνονται από τα κοντέινερ που δημιουργεί.

Δειγμα δεδομένων

Το δείγμα συνόλου δεδομένων για αυτήν την περίπτωση χρήσης είναι διαθέσιμο στο κοινό από το Ανοιχτός ιστότοπος δεδομένων της κυβέρνησης της Αυστραλίας . Αυτό το σύνολο δεδομένων αφορά απειλούμενα είδη ζώων και φυτών από διαφορετικές πολιτείες και περιοχές στην Αυστραλία. Μπορείτε να δείτε και να κατεβάσετε μια περιγραφή των πεδίων αυτού του συνόλου δεδομένων και του αρχείου CSV εδώ .

Βήματα επεξεργασίας

Το πρώτο βήμα εργασίας EMR εδώ περιλαμβάνει τη δημιουργία πίνακα Hive ως σχήμα για το υποκείμενο αρχείο προέλευσης στο S3. Στο δεύτερο βήμα εργασίας, θα εκτελέσουμε τώρα ένα επιτυχημένο ερώτημα έναντι των δεδομένων. Ομοίως, θα εκτελέσουμε ένα τρίτο και τέταρτο ερώτημα.

Θα επαναλάβουμε αυτά τα τέσσερα βήματα μερικές φορές σε μια ώρα, προσομοιώνοντας διαδοχικές εργασίες μιας παρτίδας πολλαπλών βημάτων. Ωστόσο, σε ένα σενάριο πραγματικής ζωής, η διαφορά χρόνου μεταξύ κάθε παρτίδας κανονικά θα μπορούσε να είναι πολύ μεγαλύτερη. Το μικρό χρονικό διάστημα μεταξύ διαδοχικών διαδρομών προορίζεται να επιταχύνει τις δοκιμές μας.

S3 Κάδος και φάκελοι

Πριν από τη δημιουργία του συμπλέγματος EMR, εδώ έπρεπε να δημιουργήσουμε έναν κάδο S3 για να φιλοξενήσουμε τα αρχεία του. Στο παράδειγμά μας, ονομάζουμε αυτόν τον κάδο «arvind1-bucket». Οι φάκελοι κάτω από αυτόν τον κάδο εμφανίζονται παρακάτω στην AWS Console για S3:

  • Ο φάκελος εισαγωγής διατηρεί τα δείγματα δεδομένων

  • Ο φάκελος scripts περιέχει τα αρχεία script Hive για βήματα εργασίας EMR

  • Ο φάκελος εξόδου θα έχει προφανώς την έξοδο του προγράμματος Hive

  • Το σύμπλεγμα EMR χρησιμοποιεί το φάκελο καταγραφής για να αποθηκεύσει τα αρχεία καταγραφής του.

Hive Scripts για EMR Job Steps

1. Αυτό το βήμα εργασίας εκτελεί ένα σενάριο Hiveγια να δημιουργήσετε έναν εξωτερικό πίνακα Hive. Αυτός ο πίνακας περιγράφει το σχήμα πίνακα του υποκείμενου αρχείου δεδομένων CSV. Το σενάριο για αυτό έχει ως εξής:

ΔΗΜΙΟΥΡΓΙΑ ΕΞΩΤΕΡΙΚΟΥ ΠΙΝΑΚΑ `anced_species` (συμβολοσειρά« επιστημονικού ονόματος », συμβολοσειρά« κοινού ονόματος », συμβολοσειρά« τρέχοντος επιστημονικού ονόματος », συμβολοσειρά« απειλούμενη κατάσταση », συμβολοσειρά« πράξης », συμβολοσειρά« nsw », συμβολοσειρά« nt`, «qld» συμβολοσειρά, συμβολοσειρά «sa`, συμβολοσειρά tas`, συμβολοσειρά« vic », συμβολοσειρά wa», συμβολοσειρά «aci», συμβολοσειρά «cki», συμβολοσειρά «ci», συμβολοσειρά «csi», συμβολοσειρά jbt, «nfi» συμβολοσειρά, συμβολοσειρά 'hmi', συμβολοσειρά aat ', συμβολοσειρά cma', 'spint taxonid` bigint,' τρέχουσα sprat taxonid 'bigint,' βασίλειο 'συμβολοσειρά, συμβολοσειρά κλάσης, συμβολοσειρά προφίλ', ημερομηνία εξαγωγής ' συμβολοσειρά, συμβολοσειρά «nsl name», συμβολοσειρά «οικογένειας», συμβολοσειρά «γένος», συμβολοσειρά «ειδών», συμβολοσειρά «infraspecific rank», συμβολοσειρά «infraspecies», συμβολοσειρά «συγγραφέας ειδών», συμβολοσειρά «συγγραφέας infraspecies». ΠΕΡΙΟΡΙΣΜΕΝΟ ΑΠΟ ',' STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3: // arvind1-bucket / script

2. Αυτό το βήμα εργασίας εκτελεί ένα ερώτημα για τον υπολογισμό των πέντε κορυφαίων απειλούμενων ειδών στην πολιτεία της Νέας Νότιας Ουαλίας (NSW). Το όνομα αρχείου ερωτήματος Hive είναι endangeredSpeciesNSW.q και φαίνεται παρακάτω:

ΕΠΙΛΕΞΤΕ είδη, COUNT (nsw) AS number_of_endangered_species FROM anc__species WHERE (nsw = 'Yes' OR nsw = 'Endangered') AND 'κινδύνου status' = 'Endangered' GROUP BY είδη HAVING COUNT (nsw)> 1 ORDER BY number_of_endangered_species DESC LIMIT 5

3.Αυτό το βήμα εργασίας εκτελεί ένα ερώτημα για τον υπολογισμό του συνολικού αριθμού των φυτών που απειλούνται με εξαφάνιση για κάθε οικογένεια φυτών στην Αυστραλία. Το όνομα αρχείου ερωτήματος Hive είναιendangeredPlantSpecies.qκαι φαίνεται παρακάτω

ΕΠΙΛΕΞΤΕ οικογένεια, COUNT (είδη) ΩΣ αριθμός_of_endangered_species ΑΠΟ απειλή_species2 ΠΟΥ βασίλειο = «Plantae» ΚΑΙ «απειλούμενη κατάσταση» = «Απειλούμενη» ΟΜΑΔΑ ΑΠΟ οικογένεια

4. Αυτό το βήμα παραθέτει τα επιστημονικά ονόματα των εξαφανισμένων ειδών ζώων στην πολιτεία Queensland της Αυστραλίας. Το αρχείο σεναρίου ονομάζεται extinctAnimalsQLD.q και φαίνεται παρακάτω:

ΕΠΙΛΟΓΗ «κοινό όνομα», «επιστημονικό όνομα» ΑΠΟ anced_species ΠΟΥ βασίλειο = «Animalia» ΚΑΙ (qld = «Ναι» Ή qld = «Εξαφανισμένο») ΚΑΙ «κατάσταση απειλής» = «Εξαφανισμένο»

Συγκέντρωση καταγραφής

Εδώ έχουμε ανεβάσει επίσης ένα αρχείο JSON που ονομάζεται logAggregation.json στο φάκελο scripts του κάδου S3. Χρησιμοποιούμε αυτό το αρχείο για τη συγκέντρωση των αρχείων καταγραφής YARN. Η συνάθροιση καταγραφής ρυθμίζεται στο αρχείο διαμόρφωσης yarn-site.xml κατά την εκκίνηση του συμπλέγματος. Τα περιεχόμενα του αρχείου logAggregation.json έχουν ως εξής:

πώς να δημιουργήσετε ένα jframe

[{'Ταξινόμηση': 'νήματα-ιστότοπος', 'Ιδιότητες': {'yarn.log-aggregation-enabled': 'true', 'yarn.log-aggregation.retain-seconds': '-1', 'yarn .nodemanager.remote-app-log-dir ':' s3: // arvind1-bucket / logs '}}]

Αφού δημιουργήσετε τον κάδο S3 και αντιγράψετε τα αρχεία δεδομένων και σεναρίων στους αντίστοιχους φακέλους τους, είναι πλέον καιρός να δημιουργήσετε ένα σύμπλεγμα EMR. Τα ακόλουθα στιγμιότυπα περιγράφουν τη διαδικασία καθώς δημιουργούμε το σύμπλεγμα με τις περισσότερες προεπιλεγμένες ρυθμίσεις.

Ρύθμιση συμπλέγματος EMR

Στην πρώτη εικόνα, για τη διαμόρφωση του συμπλέγματος στην κονσόλα AWS, διατηρήσαμε όλες τις εφαρμογές που προτείνει το EMR, συμπεριλαμβανομένης της Hive. Δεν χρειάζεται να χρησιμοποιήσουμε κόλλα AWS για την αποθήκευση μεταδεδομένων Hive, ούτε προσθέτουμε κανένα βήμα εργασίας αυτήν τη στιγμή. Ωστόσο, πρέπει να προσθέσουμε μια ρύθμιση λογισμικού για το Hive. Εδώ πρέπει να παρατηρήσετε προσεκτικά πώς καθορίζουμε τη διαδρομή προς το αρχείο συσσωμάτωσης αρχείων καταγραφής JSON σε αυτό το πεδίο.

Στο επόμενο βήμα, διατηρήσαμε όλες τις προεπιλεγμένες ρυθμίσεις. Για χάρη της δοκιμής μας, το σύμπλεγμα θα έχει έναν κύριο κόμβο και δύο πυρήνες. Κάθε κόμβος εδώ είναι μια παρουσία m3.xlarge και έχει τόμο ρίζας 10 GB. Στο επόμενο βήμα ονομάζουμε το σύμπλεγμα arvind1-cluster και καθορίζουμε την προσαρμοσμένη θέση s3 για τα αρχεία καταγραφής του.

Τέλος, καθορίσαμε ένα ζεύγος κλειδιών EC2 με σκοπό την πρόσβαση στον κύριο κόμβο του συμπλέγματος. Δεν υπάρχει καμία αλλαγή στους προεπιλεγμένους ρόλους IAM για EMR, προφίλ παρουσίας EC2 και επιλογές αυτόματης κλίμακας. Επίσης, οι κύριοι και πυρήνες κόμβοι χρησιμοποιούν από προεπιλογή διαθέσιμες ομάδες ασφαλείας. Κανονικά, αυτή είναι μια προεπιλεγμένη ρύθμιση για ένα σύμπλεγμα EMR. Όταν όλα είναι έτοιμα, το σύμπλεγμα βρίσκεται σε κατάσταση «αναμονής» όπως φαίνεται παρακάτω:

Υποβολή βημάτων εργασίας κυψέλης

Μετά από αυτό, πρέπει να επιτρέψουμε την πρόσβαση SSH.

  1. Ανοίξτε την κονσόλα EMR Amazon στο https://console.aws.amazon.com/elasticmapreduce/ .
  2. Επιλέγω Συστάδες .
  3. Επιλέξτε το Ονομα του συμπλέγματος.
  4. Υπό Ασφάλεια και πρόσβαση επιλέξτε το Ομάδες ασφαλείας για Master Σύνδεσμος.
  5. Επιλέγω ElasticMapReduce-master από τη λίστα.
  6. Επιλέγω Εισερχόμενος , Επεξεργασία .
  7. Βρείτε τον κανόνα με τις ακόλουθες ρυθμίσεις και επιλέξτε το Χ εικονίδιο για να το διαγράψετε:
    • Τύπος SSH
    • Λιμάνι 22
    • Πηγή Προσαρμοσμένο 0.0.0.0/0
  8. Μεταβείτε στο κάτω μέρος της λίστας κανόνων και επιλέξτε Προσθήκη κανόνα .
  9. Για Τύπος , επιλέξτε SSH . Αυτό μπαίνει αυτόματα TCP Για Πρωτόκολλο και 22 Για Εύρος λιμένων .
  10. Για πηγή, επιλέξτε Η IP μου . Αυτό προσθέτει αυτόματα τη διεύθυνση IP του υπολογιστή-πελάτη σας ως διεύθυνση προέλευσης. Εναλλακτικά, μπορείτε να προσθέσετε μια σειρά από Εθιμο αξιόπιστες διευθύνσεις IP πελάτη και επιλέξτε να προσθέστε τον κανόνα για τη δημιουργία πρόσθετων κανόνων για άλλους πελάτες. Σε πολλά περιβάλλοντα δικτύου, εκχωρείτε δυναμικές διευθύνσεις IP, επομένως ίσως χρειαστεί να επεξεργάζεστε περιοδικά κανόνες ομάδας ασφαλείας για να ενημερώνετε τη διεύθυνση IP αξιόπιστων πελατών.
  11. Επιλέγω Αποθηκεύσετε .
  12. Προαιρετικά, επιλέξτε ElasticMapReduce-slave από τη λίστα και επαναλάβετε τα παραπάνω βήματα για να επιτρέψετε στον πελάτη SSH πρόσβαση σε πυρήνες και κόμβους εργασιών από αξιόπιστους πελάτες.

Δεδομένου ότι το σύμπλεγμα EMR είναι σε λειτουργία, έχουμε προσθέσει τέσσερα βήματα εργασίας. Αυτά είναι τα βήματα που θα εκτελούσε το EMR το ένα μετά το άλλο. Η παρακάτω εικόνα δείχνει τα βήματα από την κονσόλα AWS EMR:

Μόλις προσθέσουμε τα τέσσερα βήματα, μπορούμε να ελέγξουμε την κατάσταση αυτών των βημάτων ως ολοκληρωμένα. Ακόμα και αν υπάρχει κάποιο πρόβλημα με την εκτέλεση αυτών των βημάτων, τότε σε τέτοιες περιπτώσεις μπορεί να επιλυθεί χρησιμοποιώντας τα αρχεία καταγραφής αυτών των βημάτων.

Αυτό είναι από την πλευρά μου σε αυτό το άρθρο σχετικά με τα Big Data στο AWS. Ελπίζω να έχετε καταλάβει όλα όσα εξήγησα εδώ.

Εάν βρήκατε αυτά τα μεγάλα δεδομένα σχετικά με το AWS, μπορείτε να δείτε τη ζωντανή σειρά μαθημάτων του Edureka και του εκπαιδευτή , συν-δημιουργήθηκε από επαγγελματίες του κλάδου.

Έχετε μια ερώτηση για εμάς; Παρακαλώ αναφέρετέ το στην ενότητα σχολίων αυτού του τρόπου ανάπτυξης της εφαρμογής Web Java στο AWS και θα επικοινωνήσουμε μαζί σας.