Apache Flink: Το επόμενο γενικό πλαίσιο ανάλυσης δεδομένων μεγάλης γενιάς για επεξεργασία δεδομένων ροής και παρτίδας



Μάθετε τα πάντα για το Apache Flink και τη δημιουργία ενός συμπλέγματος Flink σε αυτό το ιστολόγιο. Το Flink υποστηρίζει επεξεργασία σε πραγματικό χρόνο και παρτίδα και είναι μια τεχνολογία Big Data που πρέπει να παρακολουθείται για το Big Data Analytics.

Το Apache Flink είναι μια πλατφόρμα ανοιχτού κώδικα για επεξεργασία δεδομένων ροής και παρτίδας. Μπορεί να εκτελεστεί σε Windows, Mac OS και Linux OS. Σε αυτήν την ανάρτηση ιστολογίου, ας συζητήσουμε πώς να ρυθμίσετε τοπικά το σύμπλεγμα Flink. Είναι παρόμοιο με το Spark με πολλούς τρόπους - διαθέτει API για επεξεργασία γραφημάτων και μηχανικής εκμάθησης όπως το Apache Spark - αλλά τα Apache Flink και Apache Spark δεν είναι ακριβώς τα ίδια.





Για να ρυθμίσετε το σύμπλεγμα Flink, πρέπει να έχετε εγκατεστημένο το σύστημά σας java 7.x ή νεότερο. Εφόσον έχω εγκαταστήσει το Hadoop-2.2.0 στο τέλος μου στο CentOS (Linux), έχω κατεβάσει το πακέτο Flink που είναι συμβατό με το Hadoop 2.x. Εκτελέστε την παρακάτω εντολή για να κατεβάσετε το πακέτο Flink.

Εντολή: κλαίω http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Αποσυνδέστε το αρχείο για να λάβετε τον κατάλογο flink.

Εντολή: tar -xvf Λήψεις / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Εντολή: είναι

Προσθέστε μεταβλητές περιβάλλοντος Flink στο αρχείο .bashrc.

Εντολή: sudo gedit .bashrc

Πρέπει να εκτελέσετε την παρακάτω εντολή ώστε να ενεργοποιηθούν οι αλλαγές στο αρχείο .bashrc

πώς να χρησιμοποιήσετε τη μέθοδο split στο java

Εντολή: πηγή .bashrc

Τώρα μεταβείτε στον κατάλογο flink και ξεκινήστε το σύμπλεγμα τοπικά.

Εντολή: cd hefty-1.0.0

Εντολή: bin / start-local.sh

Μόλις ξεκινήσετε το σύμπλεγμα, θα μπορείτε να δείτε έναν νέο δαίμονα JobManager να τρέχει.

Εντολή: jps

Ανοίξτε το πρόγραμμα περιήγησης και μεταβείτε στη διεύθυνση http: // localhost: 8081 για να δείτε το περιβάλλον εργασίας χρήστη Apache Flink.

Ας εκτελέσουμε ένα απλό παράδειγμα αριθμού λέξεων χρησιμοποιώντας το Apache Flink.

Πριν εκτελέσετε το παράδειγμα, εγκαταστήστε το netcat στο σύστημά σας (sudo yum install nc).

Τώρα σε ένα νέο τερματικό εκτελέστε την παρακάτω εντολή.

Εντολή: nc -lk 9000

Εκτελέστε την παρακάτω εντολή στο τερματικό flink. Αυτή η εντολή εκτελεί ένα πρόγραμμα που λαμβάνει τα δεδομένα ροής ως εισαγωγή και εκτελεί λειτουργία wordcount σε αυτά τα δεδομένα ροής.

Εντολή: bin / flink run παραδείγματα / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

Στο ui ui, θα μπορείτε να δείτε μια εργασία σε κατάσταση λειτουργίας.

Εκτελέστε την παρακάτω εντολή σε ένα νέο τερματικό, αυτό θα εκτυπώσει τα δεδομένα ροής και επεξεργασίας.

Εντολή: tail -f log / flink - * - jobmanager - *. έξω

οι μέθοδοι της κλάσης σαρωτή σάς επιτρέπουν

Τώρα μεταβείτε στο τερματικό όπου ξεκινήσατε το netcat και πληκτρολογήστε κάτι.

Τη στιγμή που πατάτε το κουμπί enter στη λέξη-κλειδί σας αφού πληκτρολογήσετε ορισμένα δεδομένα στο τερματικό netcat, η λειτουργία wordcount θα εφαρμοστεί σε αυτά τα δεδομένα και η έξοδος θα εκτυπωθεί εδώ (flink's jobmanager log) εντός χιλιοστών του δευτερολέπτου!

Μέσα σε πολύ μικρό χρονικό διάστημα, τα δεδομένα θα μεταδοθούν, θα υποβληθούν σε επεξεργασία και θα εκτυπωθούν.

Υπάρχουν πολλά περισσότερα για να μάθετε για το Apache Flink. Θα μιλήσουμε για άλλα θέματα Flink στο επερχόμενο ιστολόγιό μας.

Έχετε μια ερώτηση για εμάς; Αναφέρετέ τα στην ενότητα σχολίων και θα επικοινωνήσουμε μαζί σας.

Σχετικές αναρτήσεις:

Apache Falcon: Νέα πλατφόρμα διαχείρισης δεδομένων για το Hadoop Ecosystem