Αυτή είναι μια ανάρτηση παρακολούθησης με απάντηση σε συχνές ερωτήσεις κατά τη διάρκεια του δημόσιου διαδικτυακού σεμιναρίου από την edureka! επί .
Συχνές Ερωτήσεις σχετικά με το Hadoop
Ντέπιπ:
Τι είναι το Hadoop;
Το Apache Hadoop είναι ένα πλαίσιο λογισμικού ανοιχτού κώδικα για αποθήκευση και μεγάλης κλίμακας επεξεργασία συνόλων δεδομένων σε ομάδες υλικού υλικού. Είναι ένα πλαίσιο λογισμικού Διαχείρισης Δεδομένων Ανοιχτού Κώδικα με αποθηκευμένη κλίμακα και κατανεμημένη επεξεργασία. Δημιουργείται και χρησιμοποιείται από μια παγκόσμια κοινότητα συνεργατών και χρηστών.
τι σημαίνει append στην Java
Διαβάστε περισσότερα στην ανάρτηση ιστολογίου Hadoop και .
Αναζήτηση:
Ποιες είναι οι περιπτώσεις χρήσης μεγάλων δεδομένων στη βιομηχανία ταξιδιών, μεταφορών και αεροπορικών εταιρειών;
Ηλιόλουστος:
Μπορείτε να μας δείξετε κάποιο πραγματικό δείγμα της εφαρμογής Hadoop που μπορούμε να μελετήσουμε;
Είμαστε liviτουσε μια εποχή αυξανόμενης κυκλοφοριακής συμφόρησης. Οι μεταφορείς αναζητούν συνεχώς να βρουν οικονομικά αποδοτικούς τρόπους για την παροχή των υπηρεσιών τους, διατηρώντας παράλληλα τον στόλο μεταφοράς τους σε καλές συνθήκες. Η χρήση Big Data Analytics σε αυτόν τον τομέα μπορεί να βοηθήσει τον οργανισμό με:
- Βελτιστοποίηση διαδρομής
- Γεωχωρική ανάλυση
- Κυκλοφοριακά μοτίβα και συμφόρηση
- Συντήρηση περιουσιακών στοιχείων
- Διαχείριση εσόδων (δηλαδή αεροπορική εταιρεία)
- Διαχείριση αποθεμάτων
- Εξοικονόμηση καυσίμων
- Στοχευμένο μάρκετινγκ
- Πίστη πελατών
- Πρόβλεψη χωρητικότητας
- Απόδοση και βελτιστοποίηση δικτύου
Λίγες περιπτώσεις πραγματικής χρήσης είναι:
προς το) Προσδιορισμός του κόστους πτήσης
β) Μοντελοποίηση προβλέψεων για Logistics αποθέματος
ντο) Orbitz Worldwide - Σχέδια αγοράς πελατών
ρε) Έξι υπερκατασκευές Hadoop Deployments
είναι) Hadoop - Περισσότερα από προσθήκες
φά) Hadoop στην επιχείρηση
Μπορείτε να μάθετε περισσότερα για τις πραγματικές εφαρμογές Hadoop:
Χέρντις:
Το Hadoop έχει να κάνει με τον χειρισμό και την επεξεργασία δεδομένων; Πώς πηγαίνουμε για την Αναφορά και το Visual Analytics. Μπορεί το Qlikview, Tableau να χρησιμοποιηθεί πάνω από το Hadoop;
Τα βασικά συστατικά Hadoop HDFS και MapReduce έχουν να κάνουν με την αποθήκευση δεδομένων και την επεξεργασία. HDFS για αποθήκευση και MapReduce για επεξεργασία. Αλλά τα βασικά συστατικά του Hadoop όπως το Pig και το Hive χρησιμοποιούνται για αναλυτικά στοιχεία. Για το Visual Report Tableau, το QlikView μπορεί να συνδεθεί με το Hadoop για Visual Reporting.
Έιτς:
Hadoop εναντίον mongoDB
Το MongoDB χρησιμοποιείται ως 'λειτουργικό' κατάστημα δεδομένων σε πραγματικό χρόνο, ενώ το Hadoop χρησιμοποιείται για επεξεργασία και ανάλυση δεδομένων παρτίδας εκτός σύνδεσης.
Το mongoDB είναι ένα κατάστημα δεδομένων χωρίς προσανατολισμό, το οποίο μπορείτε να χρησιμοποιήσετε σε μια εφαρμογή ιστού ως backend αντί για RDBMS όπως το MySQL, ενώ το Hadoop χρησιμοποιείται κυρίως ως αποθηκευτικός χώρος και διανεμημένη επεξεργασία για μεγάλο αριθμό δεδομένων.
Διαβάστε περισσότερα στο μας mongoDB και Hadoop blog post .
Εδώ:
Είναι το Apache Spark μέρος του Hadoop ;
Το Apache Spark είναι ένας γρήγορος και γενικός κινητήρας για επεξεργασία δεδομένων μεγάλης κλίμακας. Το Spark είναι ταχύτερο και υποστηρίζει επεξεργασία In-Memory. Ο κινητήρας εκτέλεσης Spark διευρύνει τον τύπο υπολογιστικού φόρτου εργασίας που μπορεί να χειριστεί το Hadoop και μπορεί να λειτουργήσει στο σύμπλεγμα Hadoop 2.0 YARN. Πρόκειται για ένα σύστημα πλαισίου επεξεργασίας που επιτρέπει την αποθήκευση αντικειμένων In-Memory (RDD) μαζί με τη δυνατότητα επεξεργασίας αυτών των αντικειμένων χρησιμοποιώντας κλεισίματα Scala Υποστηρίζει Graph, Data Warehouse, Machine Learning και Stream processing.
Εάν έχετε σύμπλεγμα Hadoop 2, μπορείτε να εκτελέσετε το Spark χωρίς να απαιτείται εγκατάσταση. Διαφορετικά, το Spark είναι εύκολο να τρέξει αυτόνομο ή σε EC2 ή Mesos. Μπορεί να διαβάσει από HDFS, HBase, Cassandra και οποιαδήποτε πηγή δεδομένων Hadoop.
Διαβάστε περισσότερα για το Spark εδώ .
Πρασάντ:
Τι είναι το Apache Flume;
Το Apache Flume είναι ένα κατανεμημένο, αξιόπιστο και διαθέσιμο σύστημα για αποτελεσματική συλλογή, συγκέντρωση και μεταφορά μεγάλων ποσοτήτων δεδομένων καταγραφής από πολλές διαφορετικές πηγές σε μια κεντρική πηγή δεδομένων.
Amit:
Βάσεις δεδομένων SQL έναντι NO-SQL
Οι βάσεις δεδομένων NoSQL είναι βάσεις δεδομένων επόμενης γενιάς και αφορούν κυρίως ορισμένα από τα σημεία
- μη σχεσιακό
- διανέμονται
- ανοιχτή πηγή
- οριζόντια επεκτάσιμη
Συχνά ισχύουν περισσότερα χαρακτηριστικά όπως χωρίς σχήμα, εύκολη υποστήριξη αναπαραγωγής, απλό API, τελικά συνεπές / ΒΑΣΗ (όχι ACID), τεράστιος όγκος δεδομένων και πολλά άλλα. Για παράδειγμα, λίγοι από τους διαφοροποιητές είναι:
- Οι βάσεις δεδομένων NoSQL αυξάνονται οριζόντια, προσθέτοντας περισσότερους διακομιστές για την αντιμετώπιση μεγαλύτερων φορτίων. Οι βάσεις δεδομένων SQL, από την άλλη πλευρά, συνήθως αυξάνονται κάθετα, προσθέτοντας όλο και περισσότερους πόρους σε έναν μόνο διακομιστή καθώς αυξάνεται η κίνηση.
- Οι βάσεις δεδομένων SQL απαιτούσαν να ορίσετε τα σχήματά σας προτού προσθέσετε οποιεσδήποτε πληροφορίες και δεδομένα, αλλά οι βάσεις δεδομένων NoSQL είναι χωρίς σχήματα και δεν απαιτούν εκ των προτέρων ορισμό σχήματος.
- Οι βάσεις δεδομένων SQL βασίζονται σε πίνακες με σειρές και στήλες σύμφωνα με τις αρχές του RDBMS, ενώ οι βάσεις δεδομένων NoSQL είναι ζεύγη εγγράφων, κλειδιών-τιμών, γραφικών ή καταστημάτων ευρείας στήλης.
- Οι βάσεις δεδομένων SQL χρησιμοποιούν SQL (δομημένη γλώσσα ερωτήματος) για τον ορισμό και τον χειρισμό των δεδομένων. Στη βάση δεδομένων NoSQL, τα ερωτήματα διαφέρουν από τη μία βάση δεδομένων στην άλλη.
Δημοφιλείς βάσεις δεδομένων SQL: MySQL, Oracle, Postgres και MS-SQL
Δημοφιλής Βάσεις δεδομένων NoSQL: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j και CouchDB
Διαβάστε τα ιστολόγιά μας Hadoop και NoSQL βάσεις δεδομένων και πλεονεκτήματα μιας τέτοιας βάσης δεδομένων:
Κοτεσβαραράο:
Το Hadoop διαθέτει ενσωματωμένη τεχνολογία Cluster;
Το Hadoop Cluster χρησιμοποιεί αρχιτεκτονική Master-Slave. Αποτελείται από ένα Single Master (NameNode) και ένα Cluster of Slaves (DataNodes) για την αποθήκευση και την επεξεργασία δεδομένων. Το Hadoop έχει σχεδιαστεί για λειτουργία σε μεγάλο αριθμό μηχανημάτων που δεν μοιράζονται μνήμη ή δίσκους. Αυτοί οι DataNodes έχουν διαμορφωθεί ως Cluster χρησιμοποιώντας . Το Hadoop χρησιμοποιεί μια έννοια αντιγραφής για να διασφαλίσει ότι τουλάχιστον ένα αντίγραφο δεδομένων είναι διαθέσιμο στο σύμπλεγμα όλη την ώρα. Επειδή υπάρχουν πολλά αντίγραφα δεδομένων, τα δεδομένα που είναι αποθηκευμένα σε έναν διακομιστή που είναι εκτός σύνδεσης ή πεθαίνουν μπορούν να αναπαραχθούν αυτόματα από ένα γνωστό καλό αντίγραφο.
Dinesh:
Τι είναι η δουλειά στο Hadoop; Τι μπορούν να επιτευχθούν μέσω μιας εργασίας;
Στο Hadoop, το Job είναι ένα πρόγραμμα MapReduce για την επεξεργασία / ανάλυση των δεδομένων. Ο όρος MapReduce αναφέρεται στην πραγματικότητα σε δύο ξεχωριστές και ξεχωριστές εργασίες που εκτελούν τα προγράμματα Hadoop. Η πρώτη είναι η εργασία Χάρτης, η οποία παίρνει ένα σύνολο δεδομένων και το μετατρέπει σε ένα άλλο σύνολο ενδιάμεσων δεδομένων, όπου μεμονωμένα στοιχεία κατανέμονται σε ζεύγη τιμών-κλειδιών. Το δεύτερο μέρος μιας εργασίας MapReduce, η εργασία μείωσης, λαμβάνει την έξοδο από έναν χάρτη ως είσοδο και συνδυάζει τα ζεύγη κλειδιών-τιμών σε ένα μικρότερο σύνολο ζεύγους συγκεντρωτικών τιμών-κλειδιών. Όπως υποδηλώνει η ακολουθία του ονόματος MapReduce, η εργασία Reduce εκτελείται πάντα μετά την ολοκλήρωση των εργασιών του Map. Διαβάστε περισσότερα για το MapReduce Job .
Σουκρουθ:
Τι είναι ιδιαίτερο για το NameNode ;
Το NameNode είναι η καρδιά ενός συστήματος αρχείων HDFS. Διατηρεί τα μεταδεδομένα, όπως το δέντρο καταλόγου όλων των αρχείων στο σύστημα αρχείων και παρακολουθεί όπου διατηρούνται τα δεδομένα του αρχείου στο σύμπλεγμα. Τα πραγματικά δεδομένα αποθηκεύονται σε DataNodes ως μπλοκ HDFS.
Οι εφαρμογές πελατών μιλούν στο NameNode όποτε θέλουν να εντοπίσουν ένα αρχείο ή όποτε θέλουν να προσθέσουν / αντιγράψουν / μετακινήσουν / διαγράψουν ένα αρχείο. Το NameNode ανταποκρίνεται στα επιτυχημένα αιτήματα επιστρέφοντας μια λίστα σχετικών διακομιστών DataNodes όπου ζουν τα δεδομένα. Διαβάστε περισσότερα για την αρχιτεκτονική HDFS .
Dinesh:
Πότε κυκλοφόρησε το Hadoop 2.0 στην αγορά;
Το ίδρυμα Apache Software (ASF), η ομάδα ανοιχτού κώδικα που διαχειρίζεται την Hadoop Development ανακοίνωσε στο blog της στις 15 Οκτωβρίου 2013 ότι το Hadoop 2.0 είναι πλέον γενικά διαθέσιμο (GA). Αυτή η ανακοίνωση σημαίνει ότι μετά από μια μακρά αναμονή, τα Apache Hadoop 2.0 και YARN είναι τώρα έτοιμα για ανάπτυξη παραγωγής. Περισσότερα για Ιστολόγιο
πρόγραμμα προγραμματισμού round robin στο γ
Dinesh:
Ποια είναι τα λίγα παραδείγματα της εφαρμογής Big-MapReduce Big Data;
Το MapReduce είναι ιδανικό για πολλές εφαρμογές για την επίλυση προβλημάτων Big Data, αλλά όχι για όλα τα άλλα μοντέλα προγραμματισμού που εξυπηρετούν καλύτερα τις απαιτήσεις, όπως η επεξεργασία γραφημάτων (π.χ. Google Pregel / Apache Giraph) και επαναληπτική μοντελοποίηση με το Interface Passing Interface (MPI).
Παντρεύω:
τι είναι το αδιέξοδο στην Ιάβα
Πώς τακτοποιούνται και ευρετηριάζονται τα δεδομένα σε HDFS;
Τα δεδομένα χωρίζονται σε τμήματα των 64 MB (διαμορφώσιμα με μια παράμετρο) και αποθηκεύονται σε HDFS. Το NameNode αποθηκεύει πληροφορίες αποθήκευσης αυτών των μπλοκ ως Block ID's στη μνήμη RAM (NameNode Metadata). Οι εργασίες MapReduce έχουν πρόσβαση σε αυτά τα μπλοκ χρησιμοποιώντας τα μεταδεδομένα που είναι αποθηκευμένα στο NameNode RAM.
Shashwat:
Μπορούμε να χρησιμοποιήσουμε τόσο το MapReduce (MRv1) όσο και το MRv2 (με YARN) στο ίδιο σύμπλεγμα;
Το Hadoop 2.0 εισήγαγε ένα νέο πλαίσιο YARN για τη σύνταξη και εκτέλεση διαφορετικών εφαρμογών στο Hadoop. Έτσι, το YARN και το MapReduce είναι δύο διαφορετικές έννοιες στο Hadoop 2.0 και δεν πρέπει να συνδυάζονται και να χρησιμοποιούνται εναλλακτικά. Η σωστή ερώτηση είναι «Είναι δυνατή η εκτέλεση τόσο του MRv1 όσο και του MRv2 σε ένα σύμπλεγμα Hadoop 2.0 με δυνατότητα YARN;» Η απάντηση σε αυτήν την ερώτηση είναι α 'Οχι' λες και αν ένα σύμπλεγμα Hadoop μπορεί να ρυθμιστεί ώστε να τρέχει τόσο MRv1 όσο και MRv2, αλλά μπορεί να τρέξει μόνο ένα σύνολο δαιμόνων ανά πάσα στιγμή. Και τα δύο αυτά πλαίσια χρησιμοποιούν τελικά τα ίδια αρχεία διαμόρφωσης ( νήματα-site.xml και mapred-site.xml ) για να εκτελέσετε τους δαίμονες, ως εκ τούτου, μόνο μία από τις δύο ρυθμίσεις μπορεί να ενεργοποιηθεί σε ένα σύμπλεγμα Hadoop.
Κούκλα:
Ποια είναι η διαφορά μεταξύ της επόμενης γενιάς MapReduce (MRv2) και YARN;
Το YARN και η Next Generation MapReduce (MRv2) είναι δύο διαφορετικές έννοιες και τεχνολογίες στο Hadoop 2.0. Το YARN είναι ένα πλαίσιο λογισμικού που μπορεί να χρησιμοποιηθεί για την εκτέλεση όχι μόνο του MRv2 αλλά και άλλων εφαρμογών. Το MRv2 είναι ένα πλαίσιο εφαρμογής που γράφτηκε χρησιμοποιώντας το YARN API και εκτελείται εντός του YARN.
Μπάρατ:
Το Hadoop 2.0 παρέχει συμβατότητα προς τα πίσω για εφαρμογές Hadoop 1.x;
Νεά:
Η μετεγκατάσταση Hadoop 1.0 έως 2.0 απαιτεί βαρύ κωδικό εφαρμογής μετανάστευση?
Όχι, το μεγαλύτερο μέρος της εφαρμογής που αναπτύχθηκε χρησιμοποιώντας API 'org.apache.hadoop.mapred', μπορεί να εκτελεστεί στο YARN χωρίς καμία αναδιάταξη. Το YARN είναι δυαδικό συμβατό με τις εφαρμογές MRv1 και το 'bin / hadoop' μπορεί να χρησιμοποιηθεί για την υποβολή αυτών των αιτήσεων στο YARN. Διαβάστε περισσότερα για αυτό εδώ .
Σερίν:
Τι συμβαίνει εάν ο κόμβος Resource Manager αποτύχει στο Hadoop 2.0;
Ξεκινώντας από το Hadoop Release 2.4.0, διατίθεται υποστήριξη υψηλής διαθεσιμότητας για το Resource Manager. Το ResourceManager χρησιμοποιεί το Apache ZooKeeper για αποτυχία. Όταν ο κόμβος Resource Manager αποτύχει, ένας δευτερεύων κόμβος μπορεί να ανακτήσει γρήγορα μέσω της κατάστασης συμπλέγματος που έχει αποθηκευτεί στο ZooKeeper. Το ResourceManager, σε περίπτωση αποτυχίας, επανεκκινεί όλες τις εφαρμογές που βρίσκονται σε ουρά και εκτελούνται.
Sabbirali:
Λειτουργεί το πλαίσιο Hadoop του Apache στο Cloudera Hadoop;
Το Apache Hadoop κυκλοφόρησε το 2005 με τον πυρήνα της μηχανής επεξεργασίας MapReduce για την υποστήριξη της κατανεμημένης επεξεργασίας μεγάλου μεγέθους φόρτων εργασίας δεδομένων που είναι αποθηκευμένα σε HDFS. Είναι ένα έργο ανοιχτού κώδικα και έχει πολλαπλές διανομές (παρόμοια με το Linux). Το Cloudera Hadoop (CDH) είναι μια τέτοια διανομή από την Cloudera. Άλλες παρόμοιες διανομές είναι τα HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights κ.λπ.
Arulvadivel:
Κάποιος εύκολος τρόπος για να εγκαταστήσω το Hadoop στον φορητό μου υπολογιστή και να δοκιμάσω τη μετεγκατάσταση της βάσης δεδομένων Oracle στο Hadoop;
Μπορείς αρχή με ένα HortonWorks Sandbox ή Cloudera Quick VM στον φορητό υπολογιστή σας (με τουλάχιστον 4 GB RAM και επεξεργαστή i3 ή παραπάνω). Χρησιμοποιήστε το SQOOP για να μετακινήσετε δεδομένα από το Oracle στο Hadoop όπως εξηγείται εδώ .
Μπαμπάνι:
Ποια είναι τα καλύτερα διαθέσιμα βιβλία για να μάθετε Hadoop;
Αρχισε με Hadoop: Ο οριστικός οδηγός από τον Tom White και Λειτουργίες Hadoop από τον Eric Sammer.
Μαχέντα:
Υπάρχει διαθέσιμη ανάγνωση για το Hadoop 2.0 όπως το Hadoop ο οριστικός οδηγός;
Ελέγξτε το τελευταία άφιξη σε ράφια βιβλίων γραμμένα από λίγους από τους δημιουργούς του Hadoop 2.0.
Μείνετε συντονισμένοι για περισσότερες ερωτήσεις σε αυτήν τη σειρά.