SPARK MLLIB | ΜΗΧΑΝΙΚΉ ΕΚΜΆΘΗΣΗ ΣΤΟ APACHE SPARK | TUTORIAL SPARK

Spark MLlib είναι το στοιχείο της μηχανικής εκμάθησης του Apache Spark.Ένα από τα σημαντικότερα αξιοθέατα του Spark είναι η δυνατότητα μαζικής κλιμάκωσης του υπολογισμού και αυτό ακριβώς χρειάζεστε για αλγόριθμους μηχανικής μάθησης. Αλλά ο περιορισμός είναι ότι όλοι οι αλγόριθμοι μηχανικής μάθησης δεν μπορούν να παραλληλιστούν αποτελεσματικά. Κάθε αλγόριθμος έχει τις δικές του προκλήσεις για παραλληλισμό, είτε πρόκειται για παραλληλισμό εργασιών είτε για παραλληλισμό δεδομένων.

Τούτου λεχθέντος, το Spark γίνεται η de-facto πλατφόρμα για την κατασκευή αλγορίθμων και εφαρμογών μηχανικής μάθησης.Λοιπόν, μπορείτε να δείτε το επιμελήθηκε από ειδικούς του κλάδου πριν προχωρήσει στο blog.Οι προγραμματιστές που εργάζονται στο Spark MLlib εφαρμόζουν όλο και περισσότερους αλγόριθμους μηχανών με κλιμάκωση και συνοπτικό τρόπο στο πλαίσιο Spark. Μέσω αυτού του ιστολογίου, θα μάθουμε τις έννοιες της Machine Learning, του Spark MLlib, των βοηθητικών προγραμμάτων της, των αλγορίθμων και μιας πλήρους περίπτωσης χρήσης του Συστήματος Σύστασης ταινιών.

Τα ακόλουθα θέματα θα καλυφθούν σε αυτό το ιστολόγιο:

Τι είναι η μηχανική εκμάθηση;
Επισκόπηση Spark MLlib
Εργαλεία Spark MLlib
Αλγόριθμοι MLlib
Χρήση θήκης - Σύστημα σύστασης ταινιών

Τι είναι η μηχανική εκμάθηση;

Εξελιγμένη από τη μελέτη της αναγνώρισης προτύπων και της υπολογιστικής θεωρίας μάθησης στην τεχνητή νοημοσύνη, η μηχανική μάθηση διερευνά τη μελέτη και την κατασκευή αλγορίθμων που μπορούν να μάθουν και να κάνουν προβλέψεις σε δεδομένα - αυτοί οι αλγόριθμοι ξεπερνούν ακολουθώντας αυστηρά στατικές οδηγίες προγράμματος κάνοντας προβλέψεις ή αποφάσεις βάσει δεδομένων , μέσω της δημιουργίας ενός μοντέλου από δείγματα εισόδων.

Μηχανική εκμάθηση - Spark MLlib - Edureka Φιγούρα: Εργαλεία μηχανικής εκμάθησης

Η μηχανική μάθηση σχετίζεται στενά με τα υπολογιστικά στατιστικά στοιχεία, τα οποία εστιάζουν επίσης στη δημιουργία προβλέψεων μέσω της χρήσης υπολογιστών. Έχει ισχυρούς δεσμούς με τη μαθηματική βελτιστοποίηση, η οποία παρέχει μεθόδους, θεωρία και τομείς εφαρμογής στο πεδίο. Μέσα στο πεδίο της ανάλυσης δεδομένων, η μηχανική μάθηση είναι μια μέθοδος που χρησιμοποιείται για την επινόηση σύνθετων μοντέλων και αλγορίθμων που προσφέρονται για μια πρόβλεψη που σε εμπορική χρήση είναι γνωστή ως προγνωστική ανάλυση.

Υπάρχουν τρεις κατηγορίες εργασιών μηχανικής εκμάθησης:

java δημιουργήστε μια σειρά αντικειμένων

Εποπτευόμενη μάθηση : Η εποπτευόμενη εκμάθηση είναι όπου έχετε μεταβλητές εισόδου (x) και μεταβλητή εξόδου (Y) και χρησιμοποιείτε έναν αλγόριθμο για να μάθετε τη λειτουργία χαρτογράφησης από την είσοδο στην έξοδο.
Μη εποπτευόμενη μάθηση : Η μη επιτηρούμενη μάθηση είναι ένας τύπος αλγορίθμου μηχανικής μάθησης που χρησιμοποιείται για την εξαγωγή συμπερασμάτων από σύνολα δεδομένων που αποτελούνται από δεδομένα εισόδου χωρίς ετικέτες.
Μάθηση Ενίσχυσης : Ένα πρόγραμμα υπολογιστή αλληλεπιδρά με ένα δυναμικό περιβάλλον στο οποίο πρέπει να εκτελεί έναν συγκεκριμένο στόχο (όπως οδήγηση οχήματος ή παιχνίδι εναντίον αντιπάλου). Το πρόγραμμα παρέχει ανατροφοδότηση όσον αφορά τις ανταμοιβές και τις τιμωρίες καθώς πλοηγεί στον προβληματικό του χώρο.Αυτή η έννοια ονομάζεται ενίσχυση μάθησης.

Επισκόπηση Spark MLlib

Το Spark MLlib χρησιμοποιείται για την εκτέλεση μηχανικής μάθησης στο Apache Spark. Το MLlib αποτελείται από δημοφιλείς αλγόριθμους και βοηθητικά προγράμματα.

Επισκόπηση MLlib:

σπινθήρα περιέχει το αρχικό API που είναι κατασκευασμένο πάνω από RDD. Αυτή τη στιγμή βρίσκεται σε λειτουργία συντήρησης.
σπινθήρα. ml παρέχει υψηλότερου επιπέδου API ενσωματωμένο πάνω από το DataFrames γιακατασκευή αγωγών ML. σπινθήρα. ml είναι το κύριο API μηχανικής εκμάθησης για το Spark αυτή τη στιγμή.

Εργαλεία Spark MLlib

Το Spark MLlib παρέχει τα ακόλουθα εργαλεία:

Αλγόριθμοι ML: Οι αλγόριθμοι ML αποτελούν τον πυρήνα του MLlib. Αυτά περιλαμβάνουν κοινούς μαθησιακούς αλγόριθμους όπως ταξινόμηση, παλινδρόμηση, ομαδοποίηση και συλλογικό φιλτράρισμα.
Αποχρωματισμός: Ο χαρακτηρισμός περιλαμβάνει εξαγωγή χαρακτηριστικών, μετατροπή, μείωση διαστάσεων και επιλογή.
Αγωγοί: Οι σωληνώσεις παρέχουν εργαλεία για την κατασκευή, αξιολόγηση και συντονισμό των σωληνώσεων ML.
Επιμονή: Η επιμονή βοηθά στην αποθήκευση και φόρτωση αλγορίθμων, μοντέλων και αγωγών.
Βοηθητικά προγράμματα: Βοηθητικά προγράμματαγια γραμμική άλγεβρα, στατιστικά στοιχεία και διαχείριση δεδομένων.

Αλγόριθμοι MLlib

Οι δημοφιλείς αλγόριθμοι και βοηθητικά προγράμματα στο Spark MLlib είναι:

Βασικές στατιστικές
Οπισθοδρόμηση
Ταξινόμηση
Σύστημα προτάσεων
Ομαδοποίηση
Μείωση διαστάσεων
Εξαγωγή χαρακτηριστικών
Βελτιστοποίηση

Ας δούμε μερικά από αυτά λεπτομερώς.

Βασικές στατιστικές

Βασικές στατιστικές περιλαμβάνει τις πιο βασικές τεχνικές μηχανικής μάθησης. Αυτά περιλαμβάνουν:

Περίληψη Στατιστικών : Παραδείγματα περιλαμβάνουν μέση, διακύμανση, μέτρηση, μέγιστο, ελάχιστο και numNonZeros.
Συσχέτιση : Ο Spearman και ο Pearson είναι μερικοί τρόποι για να βρείτε συσχέτιση.
Στρωματοποιημένη δειγματοληψία : Αυτά περιλαμβάνουν το sampleBykey και το sampleByKeyExact.
Δοκιμή υπόθεσης : Το τεστ τετραγώνου του Pearson είναι ένα παράδειγμα δοκιμής υπόθεσης.
Δημιουργία τυχαίων δεδομένων : RandomRDDs, Normal και Poisson χρησιμοποιούνται για τη δημιουργία τυχαίων δεδομένων.

Οπισθοδρόμηση

Οπισθοδρόμηση Η ανάλυση είναι μια στατιστική διαδικασία για τον υπολογισμό των σχέσεων μεταξύ των μεταβλητών. Περιλαμβάνει πολλές τεχνικές μοντελοποίησης και ανάλυσης αρκετών μεταβλητών όταν η εστίαση είναι στη σχέση μεταξύ μιας εξαρτημένης μεταβλητής και μιας ή περισσότερων ανεξάρτητων μεταβλητών. Πιο συγκεκριμένα, η ανάλυση παλινδρόμησης βοηθάει να καταλάβουμε πώς αλλάζει η τυπική τιμή της εξαρτημένης μεταβλητής όταν μεταβάλλεται οποιαδήποτε από τις ανεξάρτητες μεταβλητές, ενώ οι άλλες ανεξάρτητες μεταβλητές διατηρούνται σταθερές.

Η ανάλυση παλινδρόμησης χρησιμοποιείται ευρέως για πρόβλεψη και πρόβλεψη, όπου η χρήση της έχει σημαντική επικάλυψη με το πεδίο της μηχανικής μάθησης. Η ανάλυση παλινδρόμησης χρησιμοποιείται επίσης για να κατανοήσει ποιες από τις ανεξάρτητες μεταβλητές σχετίζονται με την εξαρτημένη μεταβλητή και για να διερευνήσουν τις μορφές αυτών των σχέσεων. Σε περιορισμένες περιπτώσεις, η ανάλυση παλινδρόμησης μπορεί να χρησιμοποιηθεί για να συναχθούν αιτιώδεις σχέσεις μεταξύ των ανεξάρτητων και εξαρτημένων μεταβλητών.

Ταξινόμηση

Ταξινόμηση είναι το πρόβλημα της αναγνώρισης σε ποια ομάδα κατηγοριών (υποπληθυσμοί) ανήκει μια νέα παρατήρηση, βάσει ενός εκπαιδευτικού συνόλου δεδομένων που περιέχει παρατηρήσεις (ή περιπτώσεις) των οποίων η ιδιότητα μέλους είναι γνωστή. Είναι ένα παράδειγμα αναγνώρισης προτύπων.

Εδώ, ένα παράδειγμα θα ήταν η εκχώρηση ενός δεδομένου email σε τάξεις 'spam' ή 'non-spam' ή ανάθεση διάγνωσης σε έναν συγκεκριμένο ασθενή όπως περιγράφεται από τα παρατηρούμενα χαρακτηριστικά του ασθενούς (φύλο, αρτηριακή πίεση, παρουσία ή απουσία ορισμένων συμπτωμάτων, και τα λοιπά.).

Σύστημα προτάσεων

ΠΡΟΣ ΤΟ σύστημα συστάσεων είναι μια υποκατηγορία του συστήματος φιλτραρίσματος πληροφοριών που επιδιώκει να προβλέψει την «βαθμολογία» ή «προτίμηση» που θα έδινε ένας χρήστης σε ένα στοιχείο. Τα συστήματα προτεινόμενων έχουν γίνει όλο και πιο δημοφιλή τα τελευταία χρόνια και χρησιμοποιούνται σε διάφορους τομείς, συμπεριλαμβανομένων ταινιών, μουσικής, ειδήσεων, βιβλίων, ερευνητικών άρθρων, ερωτημάτων αναζήτησης, κοινωνικών ετικετών και προϊόντων γενικά.

Τα συστήματα προτεινόμενων συνήθως παράγουν μια λίστα προτάσεων με έναν από τους δύο τρόπους - μέσω του συλλογικού φιλτραρίσματος και του περιεχομένου ή της προσέγγισης βάσει της προσωπικότητας.

Συνεργατικό φιλτράρισμα προσεγγίζει τη δημιουργία ενός μοντέλου από την προηγούμενη συμπεριφορά ενός χρήστη (στοιχεία που αγοράστηκαν ή επιλέχθηκαν προηγουμένως και / ή αριθμητικές αξιολογήσεις που δόθηκαν σε αυτά τα στοιχεία), καθώς και παρόμοιες αποφάσεις που λαμβάνονται από άλλους χρήστες. Αυτό το μοντέλο χρησιμοποιείται στη συνέχεια για την πρόβλεψη στοιχείων (ή αξιολογήσεων για στοιχεία) για τα οποία μπορεί να ενδιαφέρει ο χρήστης.
Φιλτράρισμα βάσει περιεχομένου Οι προσεγγίσεις χρησιμοποιούν μια σειρά διακριτών χαρακτηριστικών ενός αντικειμένου για να προτείνουν επιπλέον στοιχεία με παρόμοιες ιδιότητες.

Περαιτέρω, αυτές οι προσεγγίσεις συχνά συνδυάζονται ως Υβριδικά Συστήματα Συστάσεων.

Ομαδοποίηση

Ομαδοποίηση είναι το καθήκον της ομαδοποίησης ενός συνόλου αντικειμένων με τέτοιο τρόπο ώστε τα αντικείμενα στην ίδια ομάδα (που ονομάζεται σύμπλεγμα) να είναι πιο παρόμοια (με κάποια έννοια ή άλλη) μεταξύ τους από αυτά σε άλλες ομάδες (ομάδες). Έτσι, είναι το κύριο καθήκον της διερευνητικής εξόρυξης δεδομένων και μια κοινή τεχνική για ανάλυση στατιστικών δεδομένων, που χρησιμοποιείται σε πολλούς τομείς, όπως μηχανική μάθηση, αναγνώριση προτύπων, ανάλυση εικόνας, ανάκτηση πληροφοριών, βιοπληροφορική, συμπίεση δεδομένων και γραφικά υπολογιστών.

Μείωση διαστάσεων

Μείωση διαστάσεων είναι η διαδικασία μείωσης του αριθμού των τυχαίων μεταβλητών υπό εξέταση, μέσω της απόκτησης ενός συνόλου βασικών μεταβλητών. Μπορεί να χωριστεί σε επιλογή χαρακτηριστικών και εξαγωγή χαρακτηριστικών.

Επιλογή χαρακτηριστικών: Η επιλογή χαρακτηριστικών βρίσκει ένα υποσύνολο των αρχικών μεταβλητών (ονομάζονται επίσης χαρακτηριστικά ή χαρακτηριστικά).
Εξαγωγή χαρακτηριστικών: Αυτό μετατρέπει τα δεδομένα στον χώρο υψηλής διαστάσεων σε χώρο με λιγότερες διαστάσεις. Ο μετασχηματισμός δεδομένων μπορεί να είναι γραμμικός, όπως στην Ανάλυση Κύριων Συστατικών (PCA), αλλά υπάρχουν και πολλές μη γραμμικές τεχνικές μείωσης διαστάσεων.

Εξαγωγή χαρακτηριστικών

Εξαγωγή χαρακτηριστικών ξεκινά από ένα αρχικό σύνολο μετρημένων δεδομένων και δημιουργεί παράγωγες τιμές (δυνατότητες) που προορίζονται να είναι κατατοπιστικές και μη περιττές, διευκολύνοντας τα επόμενα βήματα μάθησης και γενίκευσης, και σε ορισμένες περιπτώσεις οδηγούν σε καλύτερες ανθρώπινες ερμηνείες. Αυτό σχετίζεται με τη μείωση των διαστάσεων.

Βελτιστοποίηση

Βελτιστοποίηση είναι η επιλογή των καλύτερωνστοιχείο (σε σχέση με κάποιο κριτήριο) από ένα σύνολο διαθέσιμων εναλλακτικών λύσεων.

Στην απλούστερη περίπτωση, ένα πρόβλημα βελτιστοποίησης συνίσταται στη μεγιστοποίηση ή ελαχιστοποίηση μιας πραγματικής λειτουργίας επιλέγοντας συστηματικά τιμές εισόδου από ένα επιτρεπόμενο σύνολο και υπολογίζοντας την τιμή της συνάρτησης. Η γενίκευση της θεωρίας βελτιστοποίησης και των τεχνικών σε άλλες διατυπώσεις περιλαμβάνει μια μεγάλη περιοχή εφαρμοσμένων μαθηματικών. Γενικότερα, η βελτιστοποίηση περιλαμβάνει την εύρεση «βέλτιστων διαθέσιμων» τιμών κάποιας αντικειμενικής συνάρτησης δεδομένου ενός καθορισμένου τομέα (ή εισαγωγής),συμπεριλαμβανομένης μιας ποικιλίας διαφορετικών τύπων αντικειμενικών συναρτήσεων και διαφορετικών τύπων τομέων.

Χρήση θήκης - Σύστημα σύστασης ταινιών

Δήλωση προβλήματος: Για να δημιουργήσετε ένα Σύστημα Σύστασης Ταινιών που προτείνει ταινίες με βάση τις προτιμήσεις ενός χρήστη χρησιμοποιώντας το Apache Spark.

Οι απαιτήσεις μας:

Ας αξιολογήσουμε λοιπόν τις απαιτήσεις για τη δημιουργία του συστήματος προτάσεων ταινιών:

Επεξεργασία τεράστιου όγκου δεδομένων
Εισαγωγή από πολλές πηγές
Εύχρηστος
Γρήγορη επεξεργασία

Όπως μπορούμε να αξιολογήσουμετις απαιτήσεις μας, χρειαζόμαστε το καλύτερο εργαλείο Big Data για την επεξεργασία μεγάλων δεδομένων σε σύντομο χρονικό διάστημα. Επομένως, Apache Spark είναι το τέλειο εργαλείο για την εφαρμογή του Συστήματος Σύστασης Ταινιών.

Ας δούμε τώρα το διάγραμμα ροής για το σύστημά μας.

Όπως μπορούμε να δούμε, τα ακόλουθα χρησιμοποιούν ροή από το Spark Streaming. Μπορούμε να κάνουμε ροή σε πραγματικό χρόνο ή να διαβάσουμε δεδομένα από το Hadoop HDFS.

Λήψη συνόλου δεδομένων:

Για το Σύστημα προτάσεων ταινιών, μπορούμε να λάβουμε αξιολογήσεις χρηστών από πολλούς δημοφιλείς ιστότοπους όπως IMDB, Rotten Tomatoes και Times Movie Ratings. Αυτό το σύνολο δεδομένων είναι διαθέσιμο σε πολλές μορφές, όπως αρχεία CSV, αρχεία κειμένου αnd βάσεις δεδομένων. Μπορούμε είτε να μεταδώσουμε τα δεδομένα ζωντανά από τους ιστότοπους είτε να τα κατεβάσουμε και να τα αποθηκεύσουμετο τοπικό μας σύστημα αρχείων ή HDFS.

Σύνολο δεδομένων:

Το παρακάτω σχήμα δείχνει πώς μπορούμε να συλλέξουμε σύνολο δεδομένων από δημοφιλείς ιστότοπους.

Μόλις μεταδώσουμε τα δεδομένα στο Spark, μοιάζει κάπως έτσι.

Μηχανική εκμάθηση:

Ολόκληρο το σύστημα προτάσεων βασίζεται στον αλγόριθμο Machine Learning Εναλλακτικά Λιγότερα Τετράγωνα . Εδώ, το ALS είναι ένας τύπος ανάλυσης παλινδρόμησης όπου η παλινδρόμηση χρησιμοποιείται για να σχεδιάσει μια γραμμή ανάμεσα στα σημεία δεδομένων με τέτοιο τρόπο ώστε το άθροισμα των τετραγώνων της απόστασης από κάθε σημείο δεδομένων να ελαχιστοποιηθεί. Έτσι, αυτή η γραμμή χρησιμοποιείται στη συνέχεια για να προβλέψει τις τιμές της συνάρτησης όπου ανταποκρίνεται στην τιμή της ανεξάρτητης μεταβλητής.

Η μπλε γραμμή στο διάγραμμα είναι η καλύτερη γραμμή παλινδρόμησης. Για αυτήν τη γραμμή, η τιμή της διάστασης D είναι η ελάχιστη. Όλες οι άλλες κόκκινες γραμμές θα είναι πάντα πιο μακριά από το σύνολο δεδομένων ως σύνολο.

Εφαρμογή Spark MLlib:

Θα χρησιμοποιήσουμε το Συνεργατικό φιλτράρισμα (CF) για να προβλέψουμε τις βαθμολογίες για τους χρήστες για συγκεκριμένες ταινίες με βάση τις αξιολογήσεις τους για άλλες ταινίες.
Στη συνέχεια, το συνεργαζόμαστε με την αξιολόγηση άλλων χρηστών για τη συγκεκριμένη ταινία.
Για να λάβουμε τα ακόλουθα αποτελέσματα από τη Μηχανική Εκμάθηση, πρέπει να χρησιμοποιήσουμε το DataFrame, το σύνολο δεδομένων και την υπηρεσία SQL του Spark SQL.

Εδώ είναι ο ψευδοκώδικας για το πρόγραμμά μας:

import org.apache.spark.mllib.recommendation.ALS import org.apache.spark.mllib.recommendation.Rating import org.apache.spark.SparkConf // Εισαγωγή άλλων απαραίτητων αντικειμένων πακέτων Ταινία {def main (args: Array [String] ) {val conf = νέο SparkConf (). setAppName ('Movie'). setMaster ('local [2]') val sc = new SparkContext (conf) val rawData = sc.textFile ('* Ανάγνωση δεδομένων από το αρχείο CSV ταινίας * ') //rawData.first () val rawRatings = rawData.map (* Split rawData on tab delimiter *) val rating = rawRatings.map {* Πίνακας περιπτώσεων χάρτη χρήστη, ταινίας και αξιολόγησης *} // Εκπαίδευση του μοντέλου δεδομένων val = ALS.train (βαθμολογίες, 50, 5, 0,01) model.userFeatures model.userFeatures.count model.productFeatures.count val predictedRating = * Πρόβλεψη για τον χρήστη 789 για ταινία 123 * val userId = * Χρήστης 789 * val K = 10 val topKRecs = model.recommendProducts (* Προτείνουμε για τον χρήστη για τη συγκεκριμένη τιμή του K *) println (topKRecs.mkString ('')) val movies = sc.textFile ('* Read Data List Data *') val title = movies.map (line => line.split ('|'). πάρτε ( Map (array => (array (0) .toInt, array (1))). CollectAsMap () val titleRDD = movies.map (line => line.split ('|'). Take (2) ) .map (array => (array (0) .toInt, array (1))). cache () title (123) val moviesForUser = rating. * Αναζήτηση χρήστη 789 * val sqlContext = * Δημιουργία περιβάλλοντος SQL * ταινίες val = sqlContext. * Δημιουργήστε ένα DataFrame προτεινόμενων ταινιών * moviesRecommended.registerTempTable ('moviesRecommendedTable') sqlContext.sql ('Select count (*) from moviesRecommendedTable'). foreach (println) ταινίες ForUser. * Ταξινόμηση των αξιολογήσεων για τον Χρήστη 789 *. Χάρτης (* Αντιστοίχιση της βαθμολογίας στον τίτλο της ταινίας *). * Εκτυπώστε την αξιολόγηση * val results = moviesForUser.sortBy (-_. Rating) .take (30) .map (rating => (title (rating.product), rating.rating))}}

Μόλις δημιουργήσουμε προβλέψεις, μπορούμε να χρησιμοποιήσουμε το Spark SQL για να αποθηκεύσουμε τα αποτελέσματα σε ένα σύστημα RDBMS. Επιπλέον, αυτό μπορεί να εμφανιστεί σε μια διαδικτυακή εφαρμογή.

Αποτελέσματα:

Φιγούρα: Προτείνονται ταινίες για τον χρήστη 77

Χέρεϊ! Έτσι δημιουργήσαμε με επιτυχία ένα Σύστημα Προτάσεων Ταινιών χρησιμοποιώντας το Apache Spark. Με αυτό, έχουμε καλύψει έναν από τους πολλούς δημοφιλείς αλγόριθμους που προσφέρει το Spark MLlib. Θα μάθουμε περισσότερα για τη Μηχανική Εκμάθηση στα επερχόμενα ιστολόγια σχετικά με τους Αλγόριθμους Επιστήμης Δεδομένων.

Προχωρώντας, μπορείτε να συνεχίσετε να μαθαίνετε το Apache Spark με το Spark Tutorial, το Spark Streaming Tutorialκαι ερωτήσεις συνέντευξης Spark.Η Edureka είναι αφοσιωμένη στην παροχή της καλύτερης δυνατής μαθησιακής εμπειρίας στο διαδίκτυο.

Ελέγξτε μας Εγώ Εάν θέλετε να μάθετε το Spark και να δημιουργήσετε μια καριέρα στον τομέα του Spark και να αποκτήσετε εξειδίκευση για να εκτελέσετε επεξεργασία δεδομένων μεγάλης κλίμακας χρησιμοποιώντας RDD, Spark Streaming, SparkSQL, MLlib, GraphX και Scala με πραγματικές περιπτώσεις χρήσης.

Spark MLlib - Βιβλιοθήκη μηχανικής μάθησης του Apache Spark

Αυτό το blog Spark MLlib θα σας παρουσιάσει στη βιβλιοθήκη μηχανικής εκμάθησης του Apache Spark. Περιλαμβάνει ένα έργο Σύστημα σύστασης ταινιών που χρησιμοποιεί το Spark MLlib.

Τι είναι η μηχανική εκμάθηση;

Επισκόπηση Spark MLlib

Εργαλεία Spark MLlib

Αλγόριθμοι MLlib

Βασικές στατιστικές

Οπισθοδρόμηση

Ταξινόμηση

Σύστημα προτάσεων

Ομαδοποίηση

Μείωση διαστάσεων

Εξαγωγή χαρακτηριστικών

Βελτιστοποίηση

Χρήση θήκης - Σύστημα σύστασης ταινιών

Οι απαιτήσεις μας:

Λήψη συνόλου δεδομένων:

Σύνολο δεδομένων:

Μηχανική εκμάθηση:

Εφαρμογή Spark MLlib:

Αποτελέσματα:

Κατηγορίες

Popular Articles

Πώς να μετατρέψετε μια συμβολοσειρά σε ακέραιο χρησιμοποιώντας Python

Εξερευνώντας τον πύργο Ansible με πρακτικό χέρι

Τι είναι το διάγραμμα ER και πώς να το εφαρμόσετε;

Informatica ETL: Ένας οδηγός για αρχάριους για την κατανόηση του ETL χρησιμοποιώντας το Informatica PowerCenter

Tutorial AWS EC2: Amazon Elastic Compute Cloud

Περάστε με τιμή και περάστε με αναφορά στην Ιάβα

Τι είναι μια μεταβλητή JavaScript και πώς να την δηλώσετε;

Πώς να εφαρμόσετε print_r στο PHP;

Βασικές αρχές SAFe: Τι είναι το SAFe;

Εκμάθηση Truffle Ethereum - Ανάπτυξη Ethereum DApps με Truffle

Όλα όσα πρέπει να γνωρίζετε για το ITIL V3 εναντίον ITIL V4

Πώς να εφαρμόσετε καλύτερα τον χάρτη ταυτόχρονης κατακερματισμού στην Java;