Τι είναι η επιστήμη δεδομένων; Ένας οδηγός για αρχάριους στην επιστήμη δεδομένων



Η Επιστήμη των Δεδομένων είναι το μέλλον της Τεχνητής Νοημοσύνης. Μάθετε τι είναι η Επιστήμη δεδομένων, πώς μπορεί να προσθέσει αξία στην επιχείρησή σας και στις διάφορες φάσεις του κύκλου ζωής της.

Καθώς ο κόσμος μπήκε στην εποχή των μεγάλων δεδομένων, η ανάγκη για αποθήκευσή της αυξήθηκε επίσης. Ήταν η κύρια πρόκληση και ανησυχία για τις βιομηχανικές επιχειρήσεις έως το 2010. Η κύρια εστίαση ήταν στη δημιουργία ενός πλαισίου και λύσεων για την αποθήκευση δεδομένων. Τώρα, όταν το Hadoop και άλλα πλαίσια έχουν επιλύσει με επιτυχία το πρόβλημα της αποθήκευσης, η εστίαση έχει μετατοπιστεί στην επεξεργασία αυτών των δεδομένων. Η Data Science είναι η μυστική σάλτσα εδώ. Όλες οι ιδέες που βλέπετε στις ταινίες επιστημονικής φαντασίας του Χόλιγουντ μπορούν πραγματικά να γίνουν πραγματικότητα από την Data Science. Η Επιστήμη των Δεδομένων είναι το μέλλον της Τεχνητής Νοημοσύνης. Επομένως, είναι πολύ σημαντικό να κατανοήσετε τι είναι η Επιστήμη δεδομένων και πώς μπορεί να προσθέσει αξία στην επιχείρησή σας.

Ο οδηγός τεχνικής καριέρας Edureka 2019 είναι έξω! Οι πιο καυτοί ρόλοι εργασίας, οι ακριβείς διαδρομές μάθησης, οι προοπτικές της βιομηχανίας και πολλά άλλα στον οδηγό. Κατεβάστε τώρα.

Σε αυτό το blog, θα καλύψω τα ακόλουθα θέματα.





Μέχρι το τέλος αυτού του ιστολογίου, θα μπορείτε να καταλάβετε τι είναι η Επιστήμη δεδομένων και ο ρόλος της στην εξαγωγή σημαντικών πληροφοριών από τα πολύπλοκα και μεγάλα σύνολα δεδομένων γύρω μας.Για να αποκτήσετε σε βάθος γνώσεις σχετικά με την Επιστήμη δεδομένων, μπορείτε να εγγραφείτε ζωντανά από την Edureka με 24ωρη υποστήριξη και πρόσβαση σε όλη τη διάρκεια ζωής.

Τι είναι η Επιστήμη Δεδομένων;

Η Επιστήμη δεδομένων είναι ένα μείγμα διαφόρων εργαλείων, αλγορίθμων και αρχών μηχανικής μάθησης με στόχο την ανακάλυψη κρυφών μοτίβων από τα μη επεξεργασμένα δεδομένα. Αλλά πώς είναι αυτό διαφορετικό από αυτό που κάνουν οι στατιστικολόγοι εδώ και χρόνια;



Η απάντηση βρίσκεται στη διαφορά μεταξύ εξήγησης και πρόβλεψης.

Αναλυτής δεδομένων v / s Επιστήμη δεδομένων - Edureka

Όπως μπορείτε να δείτε από την παραπάνω εικόνα, ένας αναλυτής δεδομένωνσυνήθως εξηγεί τι συμβαίνει με την επεξεργασία του ιστορικού των δεδομένων. Από την άλλη πλευρά, ο Data Scientist όχι μόνο κάνει την διερευνητική ανάλυση για να ανακαλύψει πληροφορίες από αυτήν, αλλά επίσης χρησιμοποιεί διάφορους προηγμένους αλγόριθμους μηχανικής μάθησης για να εντοπίσει την εμφάνιση ενός συγκεκριμένου συμβάντος στο μέλλον. Ένας Επιστήμονας Δεδομένων θα εξετάσει τα δεδομένα από πολλές γωνίες, μερικές φορές γωνίες που δεν ήταν γνωστές νωρίτερα.



Έτσι, η Επιστήμη των Δεδομένων χρησιμοποιείται κυρίως για τη λήψη αποφάσεων και προβλέψεων που κάνουν χρήση της προγνωστικής αιτιώδους ανάλυσης, της προδιαγραφικής ανάλυσης (προγνωστική και της επιστήμης των αποφάσεων) και της μηχανικής μάθησης.

  • Προγνωστικά αιτιώδη ανάλυση - Εάν θέλετε ένα μοντέλο που να προβλέπει τις πιθανότητες ενός συγκεκριμένου συμβάντος στο μέλλον, πρέπει να εφαρμόσετε προγνωστικά αιτιώδη αναλυτικά στοιχεία. Ας πούμε, εάν παρέχετε χρήματα με πίστωση, τότε η πιθανότητα των πελατών να πραγματοποιούν έγκαιρες πληρωμές με πίστωση είναι ανησυχητικό για εσάς. Εδώ, μπορείτε να δημιουργήσετε ένα μοντέλο που μπορεί να εκτελέσει προγνωστικά αναλυτικά στοιχεία στο ιστορικό πληρωμών του πελάτη για να προβλέψει εάν οι μελλοντικές πληρωμές θα είναι εγκαίρως ή όχι.
  • Προκαταρκτική ανάλυση: Εάν θέλετε ένα μοντέλο που έχει τη νοημοσύνη να λαμβάνει τις δικές του αποφάσεις και τη δυνατότητα τροποποίησής του με δυναμικές παραμέτρους, σίγουρα χρειάζεστε αναλυτικά στοιχεία για αυτό. Αυτό το σχετικά νέο πεδίο αφορά την παροχή συμβουλών. Με άλλους όρους, όχι μόνο προβλέπει, αλλά προτείνει μια σειρά από καθορισμένες δράσεις και συναφή αποτελέσματα.
    Το καλύτερο παράδειγμα για αυτό είναι το αυτοκινούμενο αυτοκίνητο της Google, το οποίο είχα συζητήσει και νωρίτερα. Τα δεδομένα που συλλέγονται από οχήματα μπορούν να χρησιμοποιηθούν για την εκπαίδευση αυτοκινούμενων αυτοκινήτων. Μπορείτε να εκτελέσετε αλγόριθμους σε αυτά τα δεδομένα για να τους δώσετε πληροφορίες. Αυτό θα επιτρέψει στο αυτοκίνητό σας να λάβει αποφάσεις όπως πότε να στρίψετε, ποια διαδρομή θα ακολουθήσετε,πότε να επιβραδύνετε ή να επιταχύνετε.
  • Μηχανική εκμάθηση για την πραγματοποίηση προβλέψεων - Εάν έχετε δεδομένα συναλλαγών μιας χρηματοοικονομικής εταιρείας και θέλετε να δημιουργήσετε ένα μοντέλο για να προσδιορίσετε τη μελλοντική τάση, τότε οι αλγόριθμοι μηχανικής μάθησης είναι το καλύτερο στοίχημα. Αυτό εμπίπτει στο παράδειγμα της εποπτευόμενης μάθησης. Ονομάζεται εποπτευόμενος επειδή έχετε ήδη τα δεδομένα βάσει των οποίων μπορείτε να εκπαιδεύσετε τα μηχανήματά σας. Για παράδειγμα, ένα μοντέλο εντοπισμού απάτης μπορεί να εκπαιδευτεί χρησιμοποιώντας ένα ιστορικό αρχείο δόλιων αγορών.
  • Μηχανική εκμάθηση για την ανακάλυψη προτύπων - Εάν δεν έχετε τις παραμέτρους βάσει των οποίων μπορείτε να κάνετε προβλέψεις, τότε πρέπει να μάθετε τα κρυμμένα μοτίβα στο σύνολο δεδομένων για να μπορείτε να κάνετε σημαντικές προβλέψεις. Αυτό δεν είναι παρά το μη εποπτευόμενο μοντέλο, καθώς δεν έχετε προκαθορισμένες ετικέτες για ομαδοποίηση. Ο πιο κοινός αλγόριθμος που χρησιμοποιείται για την ανακάλυψη μοτίβων είναι ομαδοποίηση.
    Ας υποθέσουμε ότι εργάζεστε σε μια τηλεφωνική εταιρεία και πρέπει να δημιουργήσετε ένα δίκτυο τοποθετώντας πύργους σε μια περιοχή. Στη συνέχεια, μπορείτε να χρησιμοποιήσετε την τεχνική ομαδοποίησης για να βρείτε αυτές τις τοποθεσίες πύργων που θα διασφαλίσουν ότι όλοι οι χρήστες λαμβάνουν τη βέλτιστη ισχύ σήματος.

Ας δούμε πώς διαφέρει το ποσοστό των παραπάνω περιγραφέντων προσεγγίσεων τόσο για την Ανάλυση Δεδομένων όσο και για την Επιστήμη Δεδομένων. Όπως μπορείτε να δείτε στην παρακάτω εικόνα, Ανάλυση δεδομένωνπεριλαμβάνει περιγραφική ανάλυση και πρόβλεψη σε κάποιο βαθμό. Από την άλλη πλευρά, η Επιστήμη δεδομένων αφορά περισσότερο το Predictive Causal Analytics και το Machine Learning.

Ανάλυση δεδομένων επιστήμης - Edureka

Τώρα που ξέρετε τι είναι ακριβώς η Επιστήμη των Δεδομένων, ας μάθουμε τώρα τον λόγο για τον οποίο ήταν απαραίτητο.

Γιατί η Επιστήμη των Δεδομένων;

  • Παραδοσιακά, τα δεδομένα που είχαμε ήταν κυρίως δομημένα και μικρά σε μέγεθος, τα οποία θα μπορούσαν να αναλυθούν χρησιμοποιώντας απλά εργαλεία BI.Σε αντίθεση με τα δεδομένα στοπαραδοσιακά συστήματα που ήταν κυρίως δομημένα, σήμερα τα περισσότερα από τα δεδομένα δεν είναι δομημένα ή ημι-δομημένα. Ας ρίξουμε μια ματιά στις τάσεις των δεδομένων στην παρακάτω εικόνα που δείχνει ότι έως το 2020, περισσότερο από το 80% των δεδομένων θα είναι αδόμητα.
    Ροή μη δομημένων δεδομένων - Edureka
    Αυτά τα δεδομένα δημιουργούνται από διαφορετικές πηγές όπως οικονομικά αρχεία καταγραφής, αρχεία κειμένου, φόρμες πολυμέσων, αισθητήρες και όργανα. Τα απλά εργαλεία BI δεν μπορούν να επεξεργαστούν αυτόν τον τεράστιο όγκο και ποικιλία δεδομένων. Αυτός είναι ο λόγος για τον οποίο χρειαζόμαστε πιο σύνθετα και προηγμένα αναλυτικά εργαλεία και αλγόριθμους για την επεξεργασία, την ανάλυση και την εξαγωγή σημαντικών πληροφοριών από αυτό.

Αυτός δεν είναι ο μόνος λόγος για τον οποίο η Επιστήμη δεδομένων έγινε τόσο δημοφιλής. Ας σκάψουμε βαθύτερα και να δούμε πώς χρησιμοποιείται η Επιστήμη δεδομένων σε διάφορους τομείς.

διαφορά μεταξύ σεφ και μαριονέτα
  • Τι θα λέγατε αν μπορούσατε να κατανοήσετε τις ακριβείς απαιτήσεις των πελατών σας από τα υπάρχοντα δεδομένα, όπως το παρελθόν ιστορικό περιήγησης του πελάτη, το ιστορικό αγορών, την ηλικία και το εισόδημα. Αναμφίβολα είχατε όλα αυτά τα δεδομένα νωρίτερα, αλλά τώρα με την τεράστια ποσότητα και ποικιλία δεδομένων, μπορείτε να εκπαιδεύσετε μοντέλα πιο αποτελεσματικά και να προτείνετε το προϊόν στους πελάτες σας με μεγαλύτερη ακρίβεια. Δεν θα ήταν εκπληκτικό, καθώς θα φέρει περισσότερες επιχειρήσεις στον οργανισμό σας;
  • Ας πάρουμε ένα διαφορετικό σενάριο για να κατανοήσουμε τον ρόλο της Επιστήμης δεδομένων λήψη αποφάσης.Τι θα λέγατε αν το αυτοκίνητό σας είχε την ευφυΐα να σας οδηγήσει στο σπίτι; Τα αυτοκινούμενα αυτοκίνητα συλλέγουν ζωντανά δεδομένα από αισθητήρες, συμπεριλαμβανομένων ραντάρ, κάμερες και λέιζερ για να δημιουργήσουν έναν χάρτη του περιβάλλοντός του. Με βάση αυτά τα δεδομένα, παίρνει αποφάσεις όπως πότε πρέπει να επιταχυνθεί, πότε να επιταχυνθεί, πότε να προσπεράσει, πού να κάνει μια σειρά - χρησιμοποιώντας προηγμένους αλγόριθμους μηχανικής μάθησης.
  • Ας δούμε πώς μπορεί να χρησιμοποιηθεί η Επιστήμη δεδομένων σε προγνωστικά αναλυτικά στοιχεία. Ας πάρουμε για παράδειγμα την πρόγνωση καιρού. Τα δεδομένα από πλοία, αεροσκάφη, ραντάρ, δορυφόρους μπορούν να συλλεχθούν και να αναλυθούν για την κατασκευή μοντέλων. Αυτά τα μοντέλα όχι μόνο θα προβλέψουν τον καιρό, αλλά θα βοηθήσουν επίσης στην πρόβλεψη της εμφάνισης φυσικών καταστροφών. Θα σας βοηθήσει να λάβετε τα κατάλληλα μέτρα εκ των προτέρων και να σώσετε πολλές πολύτιμες ζωές.

Ας ρίξουμε μια ματιά στο παρακάτω infographic για να δούμε όλους τους τομείς όπου η Επιστήμη δεδομένων δημιουργεί την εντύπωση.

Θήκες χρήσης της επιστήμης δεδομένων - Edureka

Ποιος είναι επιστήμονας δεδομένων;

Υπάρχουν αρκετοί ορισμοί διαθέσιμοι στους Data Scientists. Με απλά λόγια, ένας Επιστήμονας Δεδομένων είναι αυτός που ασκεί την τέχνη της Επιστήμης Δεδομένων.Ο όρος «Data Scientist» ήτανεπινοήθηκε αφού εξέτασε το γεγονός ότι ένας Επιστήμονας Δεδομένων αντλεί πολλές πληροφορίες από τα επιστημονικά πεδία και τις εφαρμογές, είτε πρόκειται για στατιστικά είτε για μαθηματικά.

Τι κάνει ένας επιστήμονας δεδομένων;

Οι επιστήμονες δεδομένων είναι αυτοί που αντιμετωπίζουν σύνθετα προβλήματα δεδομένων με την ισχυρή τους εμπειρία σε συγκεκριμένους επιστημονικούς κλάδους. Συνεργάζονται με διάφορα στοιχεία που σχετίζονται με τα μαθηματικά, τις στατιστικές, την πληροφορική κ.λπ. (αν και μπορεί να μην είναι ειδικοί σε όλους αυτούς τους τομείς).Κάνουν πολλή χρήση των τελευταίων τεχνολογιών για την εξεύρεση λύσεων και την εξαγωγή συμπερασμάτων που είναι ζωτικής σημασίας για την ανάπτυξη και την ανάπτυξη ενός οργανισμού. Οι Επιστήμονες των δεδομένων παρουσιάζουν τα δεδομένα σε πολύ πιο χρήσιμη μορφή σε σύγκριση με τα μη επεξεργασμένα δεδομένα που έχουν στη διάθεσή τους από δομημένες και μη δομημένες μορφές.

Για να μάθετε περισσότερα σχετικά με έναν Επιστήμονα δεδομένων μπορείτε να ανατρέξετε σε αυτό το άρθρο

Προχωρώντας περαιτέρω, ας συζητήσουμε τώρα για το BI. Είμαι βέβαιος ότι ίσως έχετε ακούσει και για το Business Intelligence (BI). Συχνά η Επιστήμη των Δεδομένων συγχέεται με το BI. Θα αναφέρω ορισμένα συνοπτικά και σαφήαντιθέσεις μεταξύ των δύο που θα σας βοηθήσουν να κατανοήσετε καλύτερα. Ας ρίξουμε μια ματιά.

Επιχειρηματική ευφυΐα (BI) έναντι της επιστήμης δεδομένων

  • Η Επιχειρηματική Ευφυΐα (BI) αναλύει βασικά τα προηγούμενα δεδομένα για να βρει οπίσθια όραση και γνώση για να περιγράψει τις επιχειρηματικές τάσεις. Εδώ το BI σας επιτρέπει να λαμβάνετε δεδομένα από εξωτερικές και εσωτερικές πηγές, να τα προετοιμάζετε, να εκτελείτε ερωτήματα σε αυτό και να δημιουργείτε πίνακες ελέγχου για να απαντάτε σε ερωτήσεις όπωςτριμηνιαία ανάλυση εσόδωνή επιχειρηματικά προβλήματα. Το BI μπορεί να αξιολογήσει τον αντίκτυπο ορισμένων γεγονότων στο εγγύς μέλλον.
  • Η Επιστήμη των Δεδομένων είναι μια πιο προοπτική προσέγγιση, ένας διερευνητικός τρόπος με επίκεντρο την ανάλυση των προηγούμενων ή των τρεχόντων δεδομένων και την πρόβλεψη των μελλοντικών αποτελεσμάτων με σκοπό τη λήψη τεκμηριωμένων αποφάσεων. Απαντά στις ανοιχτές ερωτήσεις ως προς το «τι» και το «πώς» συμβαίνουν γεγονότα.

Ας ρίξουμε μια ματιά σε ορισμένες αντίθετες λειτουργίες.

Χαρακτηριστικά Επιχειρηματική ευφυΐα (BI) Επιστημονικά δεδομένα
Πηγές δεδομένωνΔομημένος
(Συνήθως SQL, συχνά Data Warehouse)
Τόσο δομημένο όσο και μη δομημένο

(αρχεία καταγραφής, δεδομένα cloud, SQL, NoSQL, κείμενο)

ΠλησιάζωΣτατιστικές και οπτικοποίησηΣτατιστική, Μηχανική Μάθηση, Ανάλυση Γραφήματος, Νευρογλωσσικός Προγραμματισμός (NLP)
ΣυγκεντρώνωΠαρελθόν και παρόνΠαρόν και Μέλλον
ΕργαλείαPentaho, Microsoft BI,QlikView, RRapidMiner, BigML, Weka, R

Όλα αυτά αφορούσαν το Science Science, τώρα ας καταλάβουμε τον κύκλο ζωής της Data Science.

Ένα συνηθισμένο λάθος που έγινε στα έργα της Επιστήμης Δεδομένων είναι να σπεύσει στη συλλογή και ανάλυση δεδομένων, χωρίς να κατανοήσει τις απαιτήσεις ή ακόμη και να διαμορφώσει σωστά το επιχειρηματικό πρόβλημα. Επομένως, είναι πολύ σημαντικό για εσάς να ακολουθήσετε όλες τις φάσεις καθ 'όλη τη διάρκεια του κύκλου ζωής της Επιστήμης Δεδομένων για να διασφαλίσετε την ομαλή λειτουργία του έργου.

Κύκλος ζωής της επιστήμης δεδομένων

Ακολουθεί μια σύντομη επισκόπηση των κύριων φάσεων του κύκλου ζωής της επιστήμης δεδομένων:

Κύκλος ζωής της επιστήμης δεδομένων - Edureka


Ανακάλυψη της Επιστήμης Δεδομένων - EdurekaΦάση 1 - Ανακάλυψη:
Πριν ξεκινήσετε το έργο, είναι σημαντικό να κατανοήσετε τις διάφορες προδιαγραφές, τις απαιτήσεις, τις προτεραιότητες και τον απαιτούμενο προϋπολογισμό. Πρέπει να έχετε τη δυνατότητα να κάνετε τις σωστές ερωτήσεις.Εδώ, αξιολογείτε εάν διαθέτετε τους απαιτούμενους πόρους σε όρους ανθρώπων, τεχνολογίας, χρόνου και δεδομένων για την υποστήριξη του έργου.Σε αυτήν τη φάση, πρέπει επίσης να πλαισιώσετε το επιχειρηματικό πρόβλημα και να διατυπώσετε αρχικές υποθέσεις (IH) για δοκιμή.

Προετοιμασία δεδομένων Επιστήμης δεδομένων - Edureka

Φάση 2 - Προετοιμασία δεδομένων: Σε αυτήν τη φάση, χρειάζεστε αναλυτικό περιβάλλον δοκιμών στο οποίο μπορείτε να εκτελέσετε αναλυτικά στοιχεία για όλη τη διάρκεια του έργου. Πρέπει να εξερευνήσετε, να επεξεργαστείτε και να συντάξετε δεδομένα πριν από τη μοντελοποίηση. Επιπλέον, θα εκτελέσετε ETLT (εξαγωγή, μετασχηματισμός, φόρτωση και μετασχηματισμός) για να εισάγετε δεδομένα στο περιβάλλον δοκιμών. Ας ρίξουμε μια ματιά στη ροή Στατιστικής Ανάλυσης παρακάτω.

Κύκλος ζωής της επιστήμης δεδομένων
Μπορείτε να χρησιμοποιήσετε το R για καθαρισμό δεδομένων, μετασχηματισμό και οπτικοποίηση. Αυτό θα σας βοηθήσει να εντοπίσετε τα ακραία σημεία και να δημιουργήσετε μια σχέση μεταξύ των μεταβλητών.Μόλις καθαρίσετε και προετοιμάσετε τα δεδομένα, ήρθε η ώρα να κάνετε διερευνητικέςαναλυτικάσε αυτό. Ας δούμε πώς μπορείτε να το επιτύχετε.

Φάση 3 - Σχεδιασμός μοντέλου: Σχεδιασμός μοντέλου Επιστήμης δεδομένων - Edureka Εδώ, θα καθορίσετε τις μεθόδους και τις τεχνικές για να σχεδιάσετε τις σχέσεις μεταξύ των μεταβλητών.Αυτές οι σχέσεις θα θέσουν τη βάση για τους αλγόριθμους που θα εφαρμόσετε στην επόμενη φάση.Θα εφαρμόσετε το Exploratory Data Analytics (EDA) χρησιμοποιώντας διάφορους στατιστικούς τύπους και εργαλεία οπτικοποίησης.

Ας ρίξουμε μια ματιά σε διάφορα εργαλεία σχεδιασμού μοντέλων.

Εργαλεία σχεδιασμού μοντέλων στην Επιστήμη Δεδομένων - Edureka

  1. Ρ έχει ένα πλήρες σύνολο δυνατοτήτων μοντελοποίησης και παρέχει ένα καλό περιβάλλον για την κατασκευή ερμηνευτικών μοντέλων.
  2. Υπηρεσίες ανάλυσης SQL μπορεί να εκτελέσει αναλυτικά στοιχεία στη βάση δεδομένων χρησιμοποιώντας κοινές λειτουργίες εξόρυξης δεδομένων και βασικά μοντέλα πρόβλεψης.
  3. SAS/ACCESS μπορεί να χρησιμοποιηθεί για πρόσβαση σε δεδομένα από το Hadoop και χρησιμοποιείται για τη δημιουργία επαναλαμβανόμενων και επαναχρησιμοποιήσιμων διαγραμμάτων ροής μοντέλου.

Αν και υπάρχουν πολλά εργαλεία στην αγορά, αλλά το R είναι το πιο συχνά χρησιμοποιούμενο εργαλείο.

Τώρα που έχετε πληροφορίες σχετικά με τη φύση των δεδομένων σας και έχετε αποφασίσει τους αλγόριθμους που θα χρησιμοποιηθούν. Στο επόμενο στάδιο, θα το κάνετεισχύουντον αλγόριθμο και τη δημιουργία ενός μοντέλου.

Κτίριο μοντέλων Επιστήμης δεδομένων - EdurekaΦάση 4 - Δημιουργία μοντέλου: Σε αυτήν τη φάση, θα αναπτύξετε σύνολα δεδομένων για σκοπούς εκπαίδευσης και δοκιμών. ΕδώΠρέπει να εξετάσετε εάν τα υπάρχοντα εργαλεία σας θα επαρκούν για τη λειτουργία των μοντέλων ή θα χρειαστεί ένα πιο στιβαρό περιβάλλον (όπως γρήγορη και παράλληλη επεξεργασία). Θα αναλύσετε διάφορες τεχνικές μάθησης όπως ταξινόμηση, συσχέτιση και ομαδοποίηση για να δημιουργήσετε το μοντέλο.

Μπορείτε να επιτύχετε τη δημιουργία μοντέλων μέσω των παρακάτω εργαλείων.

Εργαλεία δημιουργίας μοντέλων στην Επιστήμη δεδομένων

Φάση 5 — Λειτουργία: Η Επιστήμη Δεδομένων λειτουργεί - Edureka Σε αυτήν τη φάση, παραδίδετε τελικές εκθέσεις, ενημερώσεις, κώδικα και τεχνικά έγγραφα.Επιπλέον, μερικές φορές ένα πιλοτικό έργο υλοποιείται επίσης σε πραγματικό χρόνο παραγωγής. Αυτό θα σας δώσει μια σαφή εικόνα της απόδοσης και άλλων σχετικών περιορισμών σε μικρή κλίμακα πριν από την πλήρη ανάπτυξη.


Επικοινωνία στην Επιστήμη των Δεδομένων - EdurekaΦάση 6 - Επικοινωνία αποτελεσμάτων:
Τώρα είναι σημαντικό να αξιολογήσετε εάν καταφέρατε να επιτύχετε τον στόχο σας που είχατε σχεδιάσει στην πρώτη φάση. Έτσι, στην τελευταία φάση, προσδιορίζετε όλα τα βασικά ευρήματα, επικοινωνείτε με τα ενδιαφερόμενα μέρη και καθορίζετε εάν τα αποτελέσματατου έργου είναι μια επιτυχία ή μια αποτυχία με βάση τα κριτήρια που αναπτύχθηκαν στη Φάση 1.

Τώρα, θα κάνω μια μελέτη περίπτωσης για να σας εξηγήσω τις διάφορες φάσεις που περιγράφονται παραπάνω.

Μελέτη περίπτωσης: Πρόληψη του διαβήτη

Τι γίνεται αν θα μπορούσαμε να προβλέψουμε την εμφάνιση του διαβήτη και να λάβουμε τα κατάλληλα μέτρα εκ των προτέρων για να το αποτρέψουμε;
Σε αυτήν την περίπτωση χρήσης, θα προβλέψουμε την εμφάνιση του διαβήτη που χρησιμοποιεί ολόκληρο τον κύκλο ζωής που συζητήσαμε νωρίτερα. Ας ακολουθήσουμε τα διάφορα βήματα.

Βήμα 1:

  • Πρώτα,θα συλλέξουμε τα δεδομένα με βάση το ιατρικό ιστορικότου ασθενούς όπως αναφέρεται στη Φάση 1. Μπορείτε να ανατρέξετε στα παρακάτω δείγματα δεδομένων.

Δείγμα δεδομένων Επιστήμης δεδομένων - Edureka

  • Όπως μπορείτε να δείτε, έχουμε τα διάφορα χαρακτηριστικά όπως αναφέρονται παρακάτω.

Γνωρίσματα:

  1. npreg - Αριθμός εγκυμοσύνης
  2. γλυκόζη - συγκέντρωση γλυκόζης στο πλάσμα
  3. bp - αρτηριακή πίεση
  4. δέρμα - πάχος τρικέφαλου
  5. bmi - Δείκτης μάζας σώματος
  6. ped - Λειτουργία γενεαλογικού διαβήτη
  7. ηλικία - Ηλικία
  8. εισόδημα - εισόδημα

Βήμα 2:

  • Τώρα, αφού έχουμε τα δεδομένα, πρέπει να καθαρίσουμε και να προετοιμάσουμε τα δεδομένα για ανάλυση δεδομένων.
  • Αυτά τα δεδομένα έχουν πολλές ασυνέπειες όπως λείπουν τιμές, κενές στήλες, απότομες τιμές και εσφαλμένη μορφή δεδομένων που πρέπει να καθαριστούν.
  • Εδώ, έχουμε οργανώσει τα δεδομένα σε έναν πίνακα με διαφορετικά χαρακτηριστικά - κάνοντάς τα να φαίνονται πιο δομημένα.
  • Ας ρίξουμε μια ματιά στα παρακάτω δείγματα δεδομένων.

Ασυνεπή δεδομένα επιστήμης δεδομένων - Edureka

Αυτά τα δεδομένα έχουν πολλές ασυνέπειες.

  1. Στη στήλη npreg Το 'ένα' είναι γραμμένολόγια,ενώ πρέπει να είναι σε αριθμητική μορφή όπως 1.
  2. Στη στήλη bp μία από τις τιμές είναι 6600 που είναι αδύνατη (τουλάχιστον για τον άνθρωπο) καθώς το bp δεν μπορεί να φτάσει σε τόσο μεγάλη τιμή.
  3. Όπως μπορείτε να δείτε το Εισόδημα η στήλη είναι κενή και επίσης δεν έχει νόημα στην πρόβλεψη του διαβήτη. Επομένως, είναι περιττό να το έχετε εδώ και πρέπει να αφαιρεθεί από τον πίνακα.
  • Έτσι, θα καθαρίσουμε και θα επεξεργαστούμε αυτά τα δεδομένα αφαιρώντας τα ακραία σημεία, γεμίζοντας τις μηδενικές τιμές και ομαλοποιώντας τον τύπο δεδομένων. Αν θυμάστε, αυτή είναι η δεύτερη φάση μας που είναι η προεπεξεργασία δεδομένων.
  • Τέλος, λαμβάνουμε τα καθαρά δεδομένα, όπως φαίνεται παρακάτω, τα οποία μπορούν να χρησιμοποιηθούν για ανάλυση.

Σταθερά δεδομένα Επιστήμης δεδομένων - Edureka

Βήμα 3:

Τώρα ας κάνουμε κάποια ανάλυση όπως συζητήθηκε νωρίτερα στη Φάση 3.

  • Πρώτον, θα φορτώσουμε τα δεδομένα στο αναλυτικό περιβάλλον δοκιμών και θα εφαρμόσουμε διάφορες στατιστικές συναρτήσεις σε αυτό. Για παράδειγμα, το R έχει λειτουργίες όπως περιγράφει που μας δίνει τον αριθμό των τιμών που λείπουν και τις μοναδικές τιμές. Μπορούμε επίσης να χρησιμοποιήσουμε τη συνθετική συνάρτηση που θα μας δώσει στατιστικές πληροφορίες όπως μέσες, μέσες τιμές, εύρος, ελάχιστες και μέγιστες τιμές.
  • Στη συνέχεια, χρησιμοποιούμε τεχνικές οπτικοποίησης όπως ιστογράμματα, γραφήματα γραμμών, γραφήματα κουτιού για να πάρουμε μια δίκαιη ιδέα για τη διανομή δεδομένων.

Οπτικοποίηση της επιστήμης δεδομένων - Edureka

Βήμα 4:

Τώρα, βάσει των πληροφοριών που προέρχονται από το προηγούμενο βήμα, η καλύτερη λύση για αυτό το είδος προβλήματος είναι το δέντρο αποφάσεων. Ας δούμε πώς;

  • Από τότε, έχουμε ήδη τα κύρια χαρακτηριστικά για ανάλυση όπως npreg, bmi κ.λπ., έτσι θα το χρησιμοποιήσουμεεποπτευόμενη τεχνική μάθησης για να χτίσει έναμοντέλο εδώ.
  • Επιπλέον, χρησιμοποιήσαμε ιδιαίτερα το δέντρο αποφάσεων επειδή λαμβάνει υπόψη όλα τα χαρακτηριστικά με μία κίνηση, όπως αυτά που έχουνγραμμική σχέση καθώς και εκείνες που έχουν μη γραμμική σχέση. Στην περίπτωσή μας, έχουμε μια γραμμική σχέση μεταξύ npreg και ηλικία, λαμβάνοντας υπόψη ότι η μη γραμμική σχέση μεταξύ npreg και παιδάκι .
  • Τα μοντέλα δέντρων απόφασης είναι επίσης πολύ ανθεκτικά καθώς μπορούμε να χρησιμοποιήσουμε τον διαφορετικό συνδυασμό χαρακτηριστικών για να φτιάξουμε διάφορα δέντρα και στη συνέχεια να εφαρμόσουμε αυτό με τη μέγιστη απόδοση.

Ας ρίξουμε μια ματιά στο δέντρο των αποφάσεών μας.

Σχεδιάστε σύνολο δεδομένων δέντρου

Εδώ, η πιο σημαντική παράμετρος είναι το επίπεδο της γλυκόζης, έτσι είναι ο ριζικός μας κόμβος. Τώρα, ο τρέχων κόμβος και η τιμή του καθορίζουν την επόμενη σημαντική παράμετρο που πρέπει να ληφθεί. Συνεχίζει μέχρι να πάρουμε το αποτέλεσμα σε όρους θέση ή αρνη . Το Pos σημαίνει ότι η τάση για διαβήτη είναι θετική και αρνητική σημαίνει ότι η τάση για διαβήτη είναι αρνητική.

συνδεσιμότητα βάσης δεδομένων σε java με mysql

Αν θέλετε να μάθετε περισσότερα σχετικά με την εφαρμογή του δέντρου αποφάσεων, ανατρέξτε σε αυτό το ιστολόγιο

Βήμα 5:

Σε αυτήν τη φάση, θα εκτελέσουμε ένα μικρό πιλοτικό έργο για να ελέγξουμε εάν τα αποτελέσματά μας είναι κατάλληλα. Θα αναζητήσουμε επίσης περιορισμούς απόδοσης εάν υπάρχουν. Εάν τα αποτελέσματα δεν είναι ακριβή, τότε πρέπει να επανασχεδιάσουμε και να ανοικοδομήσουμε το μοντέλο.

Βήμα 6:

Μόλις ολοκληρώσουμε με επιτυχία το έργο, θα μοιραστούμε το αποτέλεσμα για πλήρη ανάπτυξη.

Το να είσαι Επιστήμονας Δεδομένων είναι πιο εύκολο να το πεις παρά να το κάνεις. Ας δούμε λοιπόν τι χρειάζεστε για να είστε Επιστήμονας Δεδομένων.Ένας Επιστήμονας Δεδομένων απαιτεί βασικά δεξιότητεςαπό τρεις κύριους τομείς όπως φαίνεται παρακάτω.

Δεξιότητες επιστήμης δεδομένων - Edureka

Όπως μπορείτε να δείτε στην παραπάνω εικόνα, πρέπει να αποκτήσετε διάφορες σκληρές δεξιότητες και μαλακές δεξιότητες. Πρέπει να είσαι καλός στατιστική και μαθηματικά για ανάλυση και οπτικοποίηση δεδομένων. Περιττό να πω, Μηχανική εκμάθηση αποτελεί την καρδιά της Επιστήμης Δεδομένων και απαιτεί από εσάς να είστε καλοί σε αυτό. Επίσης, πρέπει να έχετε μια σταθερή κατανόηση του τομέα εργάζεστε για να κατανοήσετε καθαρά τα επιχειρηματικά προβλήματα. Η εργασία σας δεν τελειώνει εδώ. Πρέπει να είστε σε θέση να εφαρμόσετε διάφορους αλγόριθμους που απαιτούν καλό κωδικοποίηση δεξιότητες. Τέλος, αφού λάβετε ορισμένες βασικές αποφάσεις, είναι σημαντικό να τις παραδώσετε στους ενδιαφερόμενους. Τοσο καλα επικοινωνία σίγουρα θα προσθέσει βαθμούς brownie στις δεξιότητές σας.

Σας παρακαλώ να δείτε αυτό το εκπαιδευτικό βίντεο για την Επιστήμη δεδομένων που εξηγεί τι είναι η Επιστήμη δεδομένων και όλα όσα έχουμε συζητήσει στο ιστολόγιο. Προχωρήστε, απολαύστε το βίντεο και πείτε μου τη γνώμη σας.

Τι είναι η επιστήμη δεδομένων; Μάθημα Επιστήμης Δεδομένων - Εκμάθηση Επιστήμης Δεδομένων για αρχάριους | Έντρεκα

Αυτό το βίντεο μαθημάτων Edureka Data Science θα σας καθοδηγήσει στην ανάγκη της επιστήμης των δεδομένων, τι είναι η επιστήμη των δεδομένων, οι περιπτώσεις χρήσης της επιστήμης δεδομένων για τις επιχειρήσεις, το BI έναντι της επιστήμης δεδομένων, τα εργαλεία ανάλυσης δεδομένων, ο κύκλος ζωής της επιστήμης δεδομένων μαζί με ένα demo

Στο τέλος, δεν θα είναι λάθος να πούμε ότι το μέλλον ανήκει στους επιστήμονες δεδομένων. Προβλέπεται ότι μέχρι το τέλος του 2018, θα υπάρχει ανάγκη περίπου ενός εκατομμυρίου επιστημόνων δεδομένων. Όλο και περισσότερα δεδομένα θα παρέχουν ευκαιρίες για τη λήψη βασικών επιχειρηματικών αποφάσεων. Σύντομα πρόκειται να αλλάξει τον τρόπο με τον οποίο βλέπουμε τον κόσμο που είναι γεμάτος δεδομένα γύρω μας. Επομένως, ένας Επιστήμονας Δεδομένων θα πρέπει να είναι πολύ ειδικευμένος και να έχει κίνητρα για την επίλυση των πιο περίπλοκων προβλημάτων.

Ελπίζω να σας άρεσε να διαβάζετε το blog μου και να καταλαβαίνετε τι είναι η Επιστήμη δεδομένων.Ρίξτε μια ματιά στο δικό μας εδώ, έρχεται με ζωντανή εκπαίδευση με καθοδήγηση εκπαιδευτή και πραγματική εμπειρία έργου.