ΚΑΤΑΚΤΉΣΑΤΕ ΤΟ HADOOP; ΏΡΑ ΝΑ ΞΕΚΙΝΉΣΕΤΕ ΜΕ ΤΟ APACHE SPARK

Το Hadoop, όπως όλοι γνωρίζουμε, είναι το αγόρι των μεγάλων δεδομένων. Ως πλαίσιο λογισμικού ικανό να επεξεργάζεται αναλογίες δεδομένων ελεφάντων, ο Hadoop έχει φτάσει στην κορυφή της λίστας λέξεων-κλειδιών CIO.

Ωστόσο, η άνευ προηγουμένου άνοδος της στοίβας στη μνήμη εισήγαγε το μεγάλο οικοσύστημα δεδομένων σε μια νέα εναλλακτική λύση για τα αναλυτικά στοιχεία. Ο τρόπος ανάλυσης του MapReduce αντικαθίσταται από μια νέα προσέγγιση που επιτρέπει την ανάλυση τόσο εντός του πλαισίου Hadoop όσο και εκτός αυτού. Το Apache Spark είναι το νέο νέο πρόσωπο των μεγάλων δεδομένων ανάλυσης.

Οι λάτρεις των μεγάλων δεδομένων έχουν πιστοποιήσει το Apache Spark ως την πιο καυτή μηχανή υπολογισμού δεδομένων για μεγάλα δεδομένα στον κόσμο. Αφαιρεί γρήγορα το MapReduce και την Java από τις θέσεις τους και οι τάσεις εργασίας αντικατοπτρίζουν αυτήν την αλλαγή. Σύμφωνα με μια έρευνα της TypeSafe, το 71% των παγκόσμιων προγραμματιστών Java αξιολογούν ή ερευνούν γύρω από το Spark και το 35% από αυτούς έχουν ήδη αρχίσει να το χρησιμοποιούν. Οι εμπειρογνώμονες του Spark είναι επί του παρόντος σε ζήτηση, και τις επόμενες εβδομάδες, ο αριθμός των ευκαιριών εργασίας που σχετίζονται με το Spark αναμένεται να περάσει μόνο από το ανώτατο όριο.

Λοιπόν, τι συμβαίνει με το Apache Spark που το κάνει να εμφανίζεται στην κορυφή κάθε λίστας υποχρεώσεων CIO;

ορίστε java classpath windows 7

Εδώ είναι μερικά από τα ενδιαφέροντα χαρακτηριστικά του Apache Spark:

Ενσωμάτωση Hadoop - Το Spark μπορεί να λειτουργήσει με αρχεία που είναι αποθηκευμένα σε HDFS.
Διαδραστικό κέλυφος του Spark - Το Spark είναι γραμμένο στη Scala και έχει τη δική του έκδοση του διερμηνέα Scala.
Αναλυτική σουίτα του Spark - Το Spark διαθέτει εργαλεία για διαδραστική ανάλυση ερωτημάτων, επεξεργασία και ανάλυση γραφημάτων μεγάλης κλίμακας και ανάλυση σε πραγματικό χρόνο.
Ανθεκτικά κατανεμημένα σύνολα δεδομένων (RDD) - Τα RDD είναι κατανεμημένα αντικείμενα που μπορούν να αποθηκευτούν στην μνήμη στην κρυφή μνήμη, μέσω ενός συμπλέγματος κόμβων υπολογισμού. Είναι τα κύρια αντικείμενα δεδομένων που χρησιμοποιούνται στο Spark.
Κατανεμημένοι χειριστές - Εκτός από το MapReduce, υπάρχουν πολλοί άλλοι χειριστές που μπορεί κανείς να χρησιμοποιήσει σε RDD.

Οργανισμοί όπως η NASA, το Yahoo και η Adobe έχουν δεσμευτεί για το Spark. Αυτό λέει ο John Tripier, οι συμμαχίες και ο επικεφαλής του οικοσυστήματος στη Databricks, «Η υιοθέτηση του Apache Spark από μεγάλες και μικρές επιχειρήσεις αυξάνεται με απίστευτο ρυθμό σε ένα ευρύ φάσμα βιομηχανιών και η ζήτηση για προγραμματιστές με πιστοποιημένη τεχνογνωσία είναι γρήγορα ακόλουθο κοστούμι ». Δεν υπήρξε ποτέ καλύτερη στιγμή για να μάθετε Spark αν έχετε φόντο στο Hadoop.

Η Edureka έχει επιμεληθεί ειδικά ένα μάθημα για το Apache Spark & Scala, που δημιουργήθηκε από κοινού από επαγγελματίες του κλάδου της πραγματικής ζωής. Για μια διαφοροποιημένη εμπειρία ζωντανής ηλεκτρονικής μάθησης μαζί με έργα που σχετίζονται με τη βιομηχανία, ρίξτε μια ματιά στο μάθημά μας. Νέες παρτίδες ξεκινούν σύντομα, οπότε δείτε το μάθημα εδώ: .

Έχετε μια ερώτηση για εμάς; Παρακαλώ αναφέρετέ το στην ενότητα σχολίων και θα επικοινωνήσουμε μαζί σας.

Σχετικές αναρτήσεις:

πώς να χρησιμοποιήσετε την αναμονή και την ειδοποίηση στην Java

Apache Spark εναντίον Hadoop MapReduce

Κατακτήσατε το Hadoop; Ώρα να ξεκινήσετε με το Apache Spark

Κατηγορίες

Popular Articles

Selenium WebDriver: TestNG για διαχείριση δοκιμαστικών περιπτώσεων και δημιουργία αναφορών

Πώς να δημιουργήσετε ένα αναπτυσσόμενο πλαίσιο χρησιμοποιώντας το Angular;

Tutorial HBase: Εισαγωγή HBase και Μελέτη περίπτωσης Facebook

Ένας μονόπλευρος οδηγός για μάθηση από το σπίτι

Tutorial Ethereum - Μια πιο βαθιά ματιά στο Ethereum!

Python Career Opportunities: Ο οδηγός καριέρας σας στον προγραμματισμό Python

Σημαντικές λειτουργίες JavaScript που πρέπει να γνωρίζετε

Γιατί η εκπαίδευση Python είναι απαραίτητη για εργασίες Big Data;

Τι είναι το Business Analytics; Όλα όσα πρέπει να ξέρετε

Πώς να εκτελέσετε υλικοτεχνική παλινδρόμηση στο Python;

Σημασία της Επιστήμης Δεδομένων με την Κασσάνδρα

Πώς να δημιουργήσετε το Hadoop Cluster με το Amazon EMR;