Κατακτήσατε το Hadoop; Ώρα να ξεκινήσετε με το Apache Spark



Αυτή η ανάρτηση ιστολογίου εξηγεί γιατί πρέπει να ξεκινήσετε με το Apache Spark μετά το Hadoop και γιατί η εκμάθηση του Spark μετά την απόκτηση του hadoop μπορεί να κάνει θαύματα για την καριέρα σας!

Το Hadoop, όπως όλοι γνωρίζουμε, είναι το αγόρι των μεγάλων δεδομένων. Ως πλαίσιο λογισμικού ικανό να επεξεργάζεται αναλογίες δεδομένων ελεφάντων, ο Hadoop έχει φτάσει στην κορυφή της λίστας λέξεων-κλειδιών CIO.





Ωστόσο, η άνευ προηγουμένου άνοδος της στοίβας στη μνήμη εισήγαγε το μεγάλο οικοσύστημα δεδομένων σε μια νέα εναλλακτική λύση για τα αναλυτικά στοιχεία. Ο τρόπος ανάλυσης του MapReduce αντικαθίσταται από μια νέα προσέγγιση που επιτρέπει την ανάλυση τόσο εντός του πλαισίου Hadoop όσο και εκτός αυτού. Το Apache Spark είναι το νέο νέο πρόσωπο των μεγάλων δεδομένων ανάλυσης.

Οι λάτρεις των μεγάλων δεδομένων έχουν πιστοποιήσει το Apache Spark ως την πιο καυτή μηχανή υπολογισμού δεδομένων για μεγάλα δεδομένα στον κόσμο. Αφαιρεί γρήγορα το MapReduce και την Java από τις θέσεις τους και οι τάσεις εργασίας αντικατοπτρίζουν αυτήν την αλλαγή. Σύμφωνα με μια έρευνα της TypeSafe, το 71% των παγκόσμιων προγραμματιστών Java αξιολογούν ή ερευνούν γύρω από το Spark και το 35% από αυτούς έχουν ήδη αρχίσει να το χρησιμοποιούν. Οι εμπειρογνώμονες του Spark είναι επί του παρόντος σε ζήτηση, και τις επόμενες εβδομάδες, ο αριθμός των ευκαιριών εργασίας που σχετίζονται με το Spark αναμένεται να περάσει μόνο από το ανώτατο όριο.



Λοιπόν, τι συμβαίνει με το Apache Spark που το κάνει να εμφανίζεται στην κορυφή κάθε λίστας υποχρεώσεων CIO;

ορίστε java classpath windows 7

Εδώ είναι μερικά από τα ενδιαφέροντα χαρακτηριστικά του Apache Spark:

  • Ενσωμάτωση Hadoop - Το Spark μπορεί να λειτουργήσει με αρχεία που είναι αποθηκευμένα σε HDFS.
  • Διαδραστικό κέλυφος του Spark - Το Spark είναι γραμμένο στη Scala και έχει τη δική του έκδοση του διερμηνέα Scala.
  • Αναλυτική σουίτα του Spark - Το Spark διαθέτει εργαλεία για διαδραστική ανάλυση ερωτημάτων, επεξεργασία και ανάλυση γραφημάτων μεγάλης κλίμακας και ανάλυση σε πραγματικό χρόνο.
  • Ανθεκτικά κατανεμημένα σύνολα δεδομένων (RDD) - Τα RDD είναι κατανεμημένα αντικείμενα που μπορούν να αποθηκευτούν στην μνήμη στην κρυφή μνήμη, μέσω ενός συμπλέγματος κόμβων υπολογισμού. Είναι τα κύρια αντικείμενα δεδομένων που χρησιμοποιούνται στο Spark.
  • Κατανεμημένοι χειριστές - Εκτός από το MapReduce, υπάρχουν πολλοί άλλοι χειριστές που μπορεί κανείς να χρησιμοποιήσει σε RDD.

Οργανισμοί όπως η NASA, το Yahoo και η Adobe έχουν δεσμευτεί για το Spark. Αυτό λέει ο John Tripier, οι συμμαχίες και ο επικεφαλής του οικοσυστήματος στη Databricks, «Η υιοθέτηση του Apache Spark από μεγάλες και μικρές επιχειρήσεις αυξάνεται με απίστευτο ρυθμό σε ένα ευρύ φάσμα βιομηχανιών και η ζήτηση για προγραμματιστές με πιστοποιημένη τεχνογνωσία είναι γρήγορα ακόλουθο κοστούμι ». Δεν υπήρξε ποτέ καλύτερη στιγμή για να μάθετε Spark αν έχετε φόντο στο Hadoop.



Η Edureka έχει επιμεληθεί ειδικά ένα μάθημα για το Apache Spark & ​​Scala, που δημιουργήθηκε από κοινού από επαγγελματίες του κλάδου της πραγματικής ζωής. Για μια διαφοροποιημένη εμπειρία ζωντανής ηλεκτρονικής μάθησης μαζί με έργα που σχετίζονται με τη βιομηχανία, ρίξτε μια ματιά στο μάθημά μας. Νέες παρτίδες ξεκινούν σύντομα, οπότε δείτε το μάθημα εδώ: .

Έχετε μια ερώτηση για εμάς; Παρακαλώ αναφέρετέ το στην ενότητα σχολίων και θα επικοινωνήσουμε μαζί σας.

Σχετικές αναρτήσεις:

πώς να χρησιμοποιήσετε την αναμονή και την ειδοποίηση στην Java

Apache Spark εναντίον Hadoop MapReduce