Tutorial HDFS: Εισαγωγή στο HDFS και τα χαρακτηριστικά του



Αυτό το ιστολόγιο εκμάθησης HDFS θα σας βοηθήσει να κατανοήσετε το HDFS ή το Hadoop Distributed File System και τις δυνατότητές του. Θα εξερευνήσετε επίσης τα βασικά στοιχεία του εν συντομία.

Εκμάθηση HDFS

Πριν προχωρήσω σε αυτό το ιστολόγιο εκμάθησης HDFS, επιτρέψτε μου να σας παρουσιάσω μερικά από τα τρελά στατιστικά στοιχεία που σχετίζονται με το HDFS:

  • Το 2010, Facebook ισχυρίστηκε ότι έχει ένα από τα μεγαλύτερα αρχεία αποθήκευσης συμπλέγματος HDFS 21 Petabytes δεδομένων.
  • Το 2012, Facebook δήλωσε ότι έχουν το μεγαλύτερο ενιαίο σύμπλεγμα HDFS με περισσότερα από 100 PB δεδομένων .
  • Και Yahoo ! έχει περισσότερα από 100.000 CPU στο τέλος 40.000 διακομιστές τρέχει Hadoop, με το μεγαλύτερο σύμπλεγμα Hadoop 4.500 κόμβοι . Όλοι είπαν, Yahoo! προμήθεια 455 petabytes δεδομένων σε HDFS.
  • Στην πραγματικότητα, μέχρι το 2013, τα περισσότερα από τα μεγάλα ονόματα στο Fortune 50 άρχισαν να χρησιμοποιούν το Hadoop.

Πολύ δύσκολο να χωνέψεις; Σωστά. Όπως συζητήθηκε στο , Το Hadoop έχει δύο βασικές ενότητες - μικρό Torage και Επεξεργασία . Όταν λέω μέρος αποθήκευσης του Hadoop, αναφέρομαι HDFS που σημαίνει Κατανεμημένο σύστημα αρχείων Hadoop . Έτσι, σε αυτό το blog, θα σας συστήσω HDFS .





Εδώ, θα μιλήσω για:

  • Τι είναι το HDFS;
  • Πλεονεκτήματα του HDFS
  • Χαρακτηριστικά HDFS

Πριν μιλήσω για το HDFS, επιτρέψτε μου να σας πω, τι είναι ένα κατανεμημένο σύστημα αρχείων;



DFS ή κατανεμημένο σύστημα αρχείων:

Το σύστημα κατανεμημένου αρχείου μιλά για διαχείριση δεδομένα , δηλ. αρχεία ή φακέλους σε πολλούς υπολογιστές ή διακομιστές. Με άλλα λόγια, το DFS είναι ένα σύστημα αρχείων που μας επιτρέπει να αποθηκεύουμε δεδομένα σε πολλούς κόμβους ή μηχανήματα σε ένα σύμπλεγμα και επιτρέπει σε πολλούς χρήστες να έχουν πρόσβαση σε δεδομένα. Βασικά, εξυπηρετεί τον ίδιο σκοπό με το σύστημα αρχείων που είναι διαθέσιμο στο μηχάνημά σας, όπως για τα παράθυρα που έχετε NTFS (Σύστημα αρχείων νέας τεχνολογίας) ή για Mac έχετε HFS (Ιεραρχικό σύστημα αρχείων). Η μόνη διαφορά είναι ότι, στην περίπτωση του κατανεμημένου συστήματος αρχείων, αποθηκεύετε δεδομένα σε πολλούς υπολογιστές και όχι σε ένα μηχάνημα. Παρόλο που τα αρχεία είναι αποθηκευμένα σε όλο το δίκτυο, το DFS οργανώνει και εμφανίζει δεδομένα με τέτοιο τρόπο ώστε ένας χρήστης που κάθεται σε ένα μηχάνημα να αισθάνεται ότι όλα τα δεδομένα αποθηκεύονται σε αυτό το ίδιο το μηχάνημα.

Τι είναι το HDFS;

Το κατανεμημένο σύστημα αρχείων Hadoop ή το HDFS είναι ένα κατανεμημένο σύστημα αρχείων με βάση το Java που σας επιτρέπει να αποθηκεύετε μεγάλα δεδομένα σε πολλούς κόμβους σε ένα σύμπλεγμα Hadoop. Έτσι, εάν εγκαταστήσετε το Hadoop, λαμβάνετε το HDFS ως ένα υποκείμενο σύστημα αποθήκευσης για την αποθήκευση των δεδομένων στο κατανεμημένο περιβάλλον.

Ας πάρουμε ένα παράδειγμα για να το καταλάβουμε. Φανταστείτε ότι έχετε δέκα μηχανήματα ή δέκα υπολογιστές με σκληρό δίσκο 1 TB σε κάθε υπολογιστή. Τώρα, το HDFS λέει ότι εάν εγκαταστήσετε το Hadoop ως πλατφόρμα πάνω από αυτά τα δέκα μηχανήματα, θα λάβετε το HDFS ως υπηρεσία αποθήκευσης. Το σύστημα κατανεμημένων αρχείων Hadoop διανέμεται με τέτοιο τρόπο ώστε κάθε μηχάνημα να συνεισφέρει στην ατομική αποθήκευσή τους για την αποθήκευση οποιουδήποτε είδους δεδομένων.



Εκμάθηση HDFS: Πλεονεκτήματα του HDFS

1. Κατανεμημένη αποθήκευση:

Κατανεμημένη αποθήκευση - HDFS Tutorial - Edureka

κωδικός fibonacci c ++

Όταν αποκτάτε πρόσβαση στο σύστημα αρχείων Disto Hadoop από οποιονδήποτε από τους δέκα υπολογιστές του συμπλέγματος Hadoop, θα νιώσετε σαν να έχετε συνδεθεί σε ένα μόνο μεγάλο μηχάνημα που έχει χωρητικότητα αποθήκευσης 10 TB (συνολική αποθήκευση πάνω από δέκα μηχανήματα). Τι σημαίνει? Αυτό σημαίνει ότι μπορείτε να αποθηκεύσετε ένα μεγάλο αρχείο 10 TB που θα διανεμηθεί σε δέκα μηχανήματα (1 TB το καθένα).Ετσι είναι δεν περιορίζεται στα φυσικά όρια κάθε μεμονωμένης μηχανής.

2. Κατανεμημένος και παράλληλος υπολογισμός:

Επειδή τα δεδομένα κατανέμονται μεταξύ των μηχανών, μας επιτρέπει να επωφεληθούμε Κατανεμημένος και παράλληλος υπολογισμός . Ας κατανοήσουμε αυτήν την έννοια με το παραπάνω παράδειγμα. Ας υποθέσουμε ότι χρειάζονται 43 λεπτά για την επεξεργασία ενός αρχείου TB σε ένα μόνο μηχάνημα. Λοιπόν, πες μου τώρα, πόσος χρόνος θα χρειαστεί για την επεξεργασία του ίδιου αρχείου 1 TB όταν έχετε 10 μηχανήματα σε ένα σύμπλεγμα Hadoop με παρόμοια διαμόρφωση - 43 λεπτά ή 4,3 λεπτά; 4,3 λεπτά, σωστά! Τι συνέβη εδώ? Κάθε ένας από τους κόμβους λειτουργεί παράλληλα με ένα μέρος του αρχείου 1 TB. Επομένως, η εργασία που χρειάστηκε 43 λεπτά πριν, τελειώνει σε μόλις 4,3 λεπτά τώρα καθώς η εργασία χωρίστηκε σε δέκα μηχανήματα.

3. Οριζόντια επεκτασιμότητα:

Τέλος, ας μιλήσουμε για το οριζόντια κλιμάκωση ή κλιμάκωση στο Hadoop. Υπάρχουν δύο τύποι κλιμάκωσης: κατακόρυφος και οριζόντιος . Στην κατακόρυφη κλιμάκωση (κλιμάκωση), αυξάνετε την χωρητικότητα υλικού του συστήματός σας. Με άλλα λόγια, προμηθεύεστε περισσότερη μνήμη RAM ή CPU και το προσθέτετε στο υπάρχον σύστημά σας για να το κάνετε πιο ισχυρό και ισχυρό. Υπάρχουν όμως προκλήσεις που σχετίζονται με την κατακόρυφη κλιμάκωση ή την αύξηση:

  • Υπάρχει πάντα ένα όριο στο οποίο μπορείτε να αυξήσετε τη χωρητικότητα του υλικού σας. Έτσι, δεν μπορείτε να συνεχίσετε να αυξάνετε τη μνήμη RAM ή την CPU του μηχανήματος.
  • Σε κάθετη κλιμάκωση, σταματάτε πρώτα το μηχάνημά σας. Στη συνέχεια, αυξάνετε τη μνήμη RAM ή την CPU για να την κάνετε μια πιο ισχυρή στοίβα υλικού. Αφού αυξήσετε τη χωρητικότητα του υλικού σας, επανεκκινήστε το μηχάνημα. Αυτός ο χρόνος διακοπής όταν σταματάτε το σύστημά σας γίνεται πρόκληση.

Σε περίπτωση που οριζόντια κλιμάκωση (κλιμάκωση) , προσθέτετε περισσότερους κόμβους στο υπάρχον σύμπλεγμα αντί να αυξάνετε την χωρητικότητα υλικού μεμονωμένων μηχανημάτων. Και το πιο σημαντικό, μπορείτε προσθέστε περισσότερα μηχανήματα εν κινήσει χωρίς διακοπή του συστήματος . Επομένως, κατά τη διάρκεια της κλιμάκωσης δεν έχουμε καθόλου χρόνο διακοπής ή πράσινη ζώνη, τίποτα τέτοιο. Στο τέλος της ημέρας, θα έχετε περισσότερα μηχανήματα που λειτουργούν παράλληλα για να ικανοποιούν τις απαιτήσεις σας.

Εκπαιδευτικό βίντεο HDFS:

Μπορείτε να δείτε το βίντεο που δίνεται παρακάτω όπου συζητήθηκαν λεπτομερώς όλες οι έννοιες που σχετίζονται με το HDFS:

java system.exit (1)

Εκμάθηση HDFS: Χαρακτηριστικά HDFS

Θα κατανοήσουμε λεπτομερώς αυτές τις δυνατότητες όταν θα εξερευνήσουμε την αρχιτεκτονική HDFS στο επόμενο ιστολόγιο εκμάθησης HDFS. Αλλά, προς το παρόν, ας ρίξουμε μια επισκόπηση σχετικά με τις δυνατότητες του HDFS:

  • Κόστος: Το HDFS, γενικά, αναπτύσσεται σε ένα βασικό υλικό όπως ο επιτραπέζιος / φορητός υπολογιστής που χρησιμοποιείτε καθημερινά. Έτσι, είναι πολύ οικονομικό όσον αφορά το κόστος ιδιοκτησίας του έργου. Επειδή, χρησιμοποιούμε υλικό βασικών προϊόντων χαμηλού κόστους, δεν χρειάζεται να ξοδεύουμε τεράστιο χρηματικό ποσό για την εξάλειψη του συμπλέγματος Hadoop. Με άλλα λόγια, η προσθήκη περισσότερων κόμβων στο HDFS σας είναι οικονομικά αποδοτική.
  • Ποικιλία και όγκος δεδομένων: Όταν μιλάμε για HDFS τότε μιλάμε για αποθήκευση τεράστιων δεδομένων, δηλαδή Terabytes & petabytes δεδομένων και διαφορετικά είδη δεδομένων. Έτσι, μπορείτε να αποθηκεύσετε οποιοδήποτε τύπο δεδομένων σε HDFS, είτε είναι δομημένο, μη δομημένο είτε ημι δομημένο.
  • Αξιοπιστία και ανοχή σφαλμάτων: Όταν αποθηκεύετε δεδομένα σε HDFS, διαιρεί εσωτερικά τα δεδομένα σε μπλοκ δεδομένων και τα αποθηκεύει με κατανεμημένο τρόπο στο σύμπλεγμα Hadoop. Οι πληροφορίες σχετικά με το μπλοκ δεδομένων που βρίσκεται σε ποιον από τους κόμβους δεδομένων εγγράφεται στα μεταδεδομένα. ΌνομαΚωδικός διαχειρίζεται τα μετα-δεδομένα και το Κωδικοί δεδομένων είναι υπεύθυνοι για την αποθήκευση των δεδομένων.
    Ο κόμβος ονόματος επαναλαμβάνει επίσης τα δεδομένα, δηλαδή διατηρεί πολλά αντίγραφα των δεδομένων. Αυτή η αναπαραγωγή των δεδομένων καθιστά το HDFS πολύ αξιόπιστο και ανεκτικό σε σφάλματα. Έτσι, ακόμα και αν κάποιος από τους κόμβους αποτύχει, μπορούμε να ανακτήσουμε τα δεδομένα από τα αντίγραφα που βρίσκονται σε άλλους κόμβους δεδομένων. Από προεπιλογή, ο συντελεστής αναπαραγωγής είναι 3. Επομένως, εάν αποθηκεύσετε 1 GB αρχείου σε HDFS, θα καταλάβει τελικά 3 GB χώρου. Ο κόμβος ονόματος ενημερώνει περιοδικά τα μεταδεδομένα και διατηρεί τον παράγοντα αναπαραγωγής συνεπή.
  • Ακεραιότητα δεδομένων: Το Data Integrity μιλά για το αν τα δεδομένα που είναι αποθηκευμένα στο HDFS μου είναι σωστά ή όχι. Το HDFS ελέγχει συνεχώς την ακεραιότητα των δεδομένων που αποθηκεύονται έναντι του αθροίσματος ελέγχου. Εάν εντοπίσει κάποιο σφάλμα, αναφέρει στον κόμβο ονόματος σχετικά με αυτό. Στη συνέχεια, ο κόμβος ονόματος δημιουργεί πρόσθετα νέα αντίγραφα και επομένως διαγράφει τα κατεστραμμένα αντίγραφα.
  • Υψηλή απόδοση: Throughput είναι το ποσό της εργασίας που πραγματοποιείται σε μια μονάδα χρόνου. Μιλάει για το πόσο γρήγορα μπορείτε να έχετε πρόσβαση στα δεδομένα από το σύστημα αρχείων. Βασικά, σας δίνει μια εικόνα για την απόδοση του συστήματος. Όπως έχετε δει στο παραπάνω παράδειγμα όπου χρησιμοποιήσαμε συλλογικά δέκα μηχανήματα για να βελτιώσουμε τον υπολογισμό. Εκεί καταφέραμε να μειώσουμε το χρόνο επεξεργασίας από 43 λεπτά σε ένα απλό 4.3 λεπτά καθώς όλα τα μηχανήματα λειτουργούσαν παράλληλα. Επομένως, με την παράλληλη επεξεργασία δεδομένων, μειώσαμε σημαντικά τον χρόνο επεξεργασίας και έτσι, επιτύχαμε υψηλή απόδοση.
  • Τοποθεσία δεδομένων: Η τοποθεσία δεδομένων μιλάει για τη μετακίνηση μονάδας επεξεργασίας σε δεδομένα και όχι για τη μονάδα επεξεργασίας δεδομένων. Στο παραδοσιακό σύστημά μας, συνηθίζαμε να φέρουμε τα δεδομένα στο επίπεδο εφαρμογής και στη συνέχεια να τα επεξεργαστούμε. Αλλά τώρα, λόγω της αρχιτεκτονικής και του τεράστιου όγκου των δεδομένων, η μεταφορά των δεδομένων στο επίπεδο εφαρμογής θα γίνειμείωση της απόδοσης του δικτύου σε αξιοσημείωτο βαθμό.Έτσι, στο HDFS, φέρνουμε το τμήμα υπολογισμού στους κόμβους δεδομένων όπου βρίσκονται τα δεδομένα. Ως εκ τούτου, δεν μετακινείτε τα δεδομένα, μεταφέρετε το πρόγραμμα ή τη διαδικασίαμέρος των δεδομένων.

Τώρα, έχετε μια σύντομη ιδέα για το HDFS και τις δυνατότητές του. Αλλά πιστέψτε με παιδιά, αυτή είναι μόνο η κορυφή του παγόβουνου. Στο επόμενο μου , Θα βουτήξω βαθιά στο Αρχιτεκτονική HDFS και θα αποκαλύψω τα μυστικά πίσω από την επιτυχία του HDFS. Μαζί θα απαντήσουμε σε όλες αυτές τις ερωτήσεις που σκέφτονται στο μυαλό σας όπως:

  • Τι συμβαίνει πίσω από τα παρασκήνια όταν διαβάζετε ή γράφετε δεδομένα στο Hadoop Distributed File System;
  • Ποιοι είναι οι αλγόριθμοι όπως η επίγνωση ραφιών που κάνει το HDFS τόσο ανεκτικό σε σφάλματα;
  • Πώς διαχειρίζεται και δημιουργεί αντίγραφο το Hadoop Distributed File System;
  • Τι είναι οι λειτουργίες μπλοκ;

Τώρα που έχετε κατανοήσει το HDFS και τα χαρακτηριστικά του, ρίξτε μια ματιά στο από την Edureka, μια αξιόπιστη διαδικτυακή εταιρεία εκμάθησης με δίκτυο περισσότερων από 250.000 ικανοποιημένων μαθητών σε όλο τον κόσμο. Το εκπαιδευτικό πρόγραμμα Edureka Big Data Hadoop Certification βοηθά τους μαθητές να γίνουν ειδικοί σε HDFS, Νήματα, MapReduce, Pig, Hive, HBase, Oozie, Flume και Sqoop χρησιμοποιώντας περιπτώσεις χρήσης σε πραγματικό χρόνο σε τομείς Retail, Social Media, Aviation, Tourism, Finance.

Έχετε μια ερώτηση για εμάς; Παρακαλώ αναφέρετέ το στην ενότητα σχολίων και θα επικοινωνήσουμε μαζί σας.