4 τρόποι για να χρησιμοποιήσετε το R και το Hadoop μαζί



Οι R και Hadoop αλληλοσυμπληρώνονται αρκετά καλά όσον αφορά την οπτικοποίηση και την ανάλυση μεγάλων δεδομένων. Αυτή η ανάρτηση ιστολογίου μιλά για 4 τρόπους για να τα χρησιμοποιήσετε μαζί.

Το Hadoop είναι ένα διαταραγμένο πλαίσιο προγραμματισμού που βασίζεται σε Java και υποστηρίζει την επεξεργασία μεγάλων συνόλων δεδομένων σε ένα κατανεμημένο περιβάλλον υπολογιστών, ενώ το R είναι μια γλώσσα προγραμματισμού και περιβάλλον λογισμικού για στατιστικούς υπολογισμούς και γραφικά. Η γλώσσα R χρησιμοποιείται ευρέως μεταξύ των στατιστικολόγων και των ανθρακωρύχων δεδομένων για την ανάπτυξη στατιστικού λογισμικού και την εκτέλεση ανάλυσης δεδομένων. Στους τομείς της διαδραστικής ανάλυσης δεδομένων, των στατιστικών γενικού σκοπού και της προγνωστικής μοντελοποίησης, το R έχει αποκτήσει τεράστια δημοτικότητα λόγω των δυνατοτήτων ταξινόμησης, ομαδοποίησης και κατάταξης.

KM





Οι Hadoop και R συμπληρώνουν ο ένας τον άλλον αρκετά καλά όσον αφορά την οπτικοποίηση και την ανάλυση των μεγάλων δεδομένων.

Χρησιμοποιώντας το R και το Hadoop

Υπάρχουν τέσσερις διαφορετικοί τρόποι χρήσης των Hadoop και R μαζί:



1. RHadoop

Το RHadoop είναι μια συλλογή από τρία πακέτα R: rmr, rhdfs και rhbase. Το πακέτο rmr παρέχει λειτουργικότητα Hadoop MapReduce σε R, το rhdfs παρέχει διαχείριση αρχείων HDFS σε R και το rhbase παρέχει διαχείριση βάσεων δεδομένων HBase από το R. Κάθε ένα από αυτά τα κύρια πακέτα μπορεί να χρησιμοποιηθεί για την καλύτερη ανάλυση και διαχείριση των δεδομένων πλαισίου Hadoop.

2. ΟΡΧΗ



Το ORCH σημαίνει Oracle R Connector για Hadoop. Πρόκειται για μια συλλογή πακέτων R που παρέχουν τις σχετικές διεπαφές για εργασία με πίνακες Hive, την υποδομή υπολογιστών Apache Hadoop, το τοπικό περιβάλλον R και πίνακες βάσης δεδομένων Oracle. Επιπλέον, το ORCH παρέχει επίσης προβλέψιμες αναλυτικές τεχνικές που μπορούν να εφαρμοστούν σε δεδομένα σε αρχεία HDFS.

3. RHIPE

Το RHIPE είναι ένα πακέτο R που παρέχει ένα API για τη χρήση του Hadoop. Το RHIPE σημαίνει R και Hadoop Integrated Programming Environment, και ουσιαστικά είναι RHadoop με διαφορετικό API.

Τέσσερις. Ροή Hadoop

Το Hadoop Streaming είναι ένα βοηθητικό πρόγραμμα που επιτρέπει στους χρήστες να δημιουργούν και να εκτελούν εργασίες με οποιαδήποτε εκτελέσιμα όπως ο χαρτογράφος ή / και ο μειωτής. Χρησιμοποιώντας το σύστημα ροής, μπορεί κανείς να αναπτύξει λειτουργικές εργασίες Hadoop με αρκετή γνώση της Java για να γράψει δύο κελύφη σενάρια που λειτουργούν παράλληλα.

Ο συνδυασμός R και Hadoop αναδύεται ως απαραίτητο εργαλείο για άτομα που εργάζονται με στατιστικά και μεγάλα σύνολα δεδομένων. Ωστόσο, ορισμένοι λάτρεις του Hadoop έχουν υψώσει μια κόκκινη σημαία ενώ ασχολούνται με εξαιρετικά μεγάλα τμήματα Big Data. Ισχυρίζονται ότι το πλεονέκτημα του R δεν είναι η σύνταξή του, αλλά η εξαντλητική βιβλιοθήκη πρωτόγονων για οπτικοποίηση και στατιστικές. Αυτές οι βιβλιοθήκες είναι ουσιαστικά μη διανεμημένες, καθιστώντας την ανάκτηση δεδομένων μια χρονοβόρα υπόθεση. Αυτό είναι ένα εγγενές ελάττωμα με το R, και αν επιλέξετε να το παραβλέψετε, τα R και Hadoop μπορούν παράλληλα να κάνουν θαύματα.

τύποι συνόλων σε java

Τώρα, ας δούμε μια επίδειξη:

Έχετε μια ερώτηση για εμάς; Αναφέρετέ τα στην ενότητα σχολίων και θα επικοινωνήσουμε μαζί σας.

Σχετικές αναρτήσεις: