Στατιστικά στοιχεία για τη μηχανική μάθηση: Ένας οδηγός για αρχάριους



Αυτό το άρθρο σχετικά με τις στατιστικές για τη μηχανική μάθηση είναι ένας πλήρης οδηγός για τις διάφορες έννοιες των στατιστικών στοιχείων με παραδείγματα.

Η κατανόηση των δεδομένων και η ικανότητα δημιουργίας αξίας από αυτά είναι η ικανότητα της δεκαετίας. Η μηχανική εκμάθηση είναι μια τέτοια βασική ικανότητα που βοηθά τις εταιρείες να την εκπληρώσουν. Ωστόσο, για να ξεκινήσετε, πρέπει να δημιουργήσετε τα θεμέλια σας σωστά. Έτσι, σε αυτό το άρθρο, θα καλύψω μερικές βασικές έννοιες και θα σας δώσω οδηγίες για να ξεκινήσετε το ταξίδι σας στη Μηχανική Εκμάθηση. Έτσι, σε αυτό το άρθρο σχετικά με τις στατιστικές για τη μηχανική μάθηση, θα συζητηθούν τα ακόλουθα θέματα:

  1. Πιθανότητα
  2. Στατιστική
  3. Γραμμική άλγεβρα

Πιθανότητα και στατιστικές για μηχανική εκμάθηση:





Τι είναι η πιθανότητα;

Η πιθανότητα ποσοτικοποιεί την πιθανότητα εμφάνισης ενός συμβάντος. Για παράδειγμα, εάν ρίξετε μια δίκαιη, αμερόληπτη μήτρα, τότε η πιθανότητα του ένας η εμφάνιση είναι 1/6 . Τώρα, αν αναρωτιέστε wγεια; Τότε η απάντηση είναι αρκετά απλή!

Αυτό οφείλεται στο γεγονός ότι υπάρχουν έξι δυνατότητες και όλα είναι εξίσου πιθανά (δίκαιο die). Επομένως μπορούμε να προσθέσουμε 1 + 1 + 1 + 1 + 1 + 1 = 6. Όμως, επειδή μας ενδιαφέρει το συμβάν όπου εμφανίζεται 1 . Υπάρχει μόνο ένας τρόπος μπορεί να συμβεί το συμβάν. Ως εκ τούτου,



Πιθανότητα 1 αύξησης = 1/6

Το ίδιο ισχύει και για όλους τους άλλους αριθμούς, καθώς όλα τα γεγονότα είναι εξίσου πιθανά. Απλό, σωστά;

Λοιπόν, ένας συχνός ορισμός της πιθανότητας για αυτό το παράδειγμα θα ακούγεται - η πιθανότητα 1 να εμφανιστεί είναι ο λόγος του αριθμού των φορών που 1 εμφανίστηκε στο συνολικό αριθμό φορών που ο κύλινδρος έλαβε κύλιση εάν ο κύλινδρος έλαβε άπειρο αριθμό φορές.Πώς έχει νόημα αυτό;



Ας το κάνουμε πιο ενδιαφέρον. Εξετάστε τις δύο περιπτώσεις - κυλήσατε μια δίκαιη μήτρα 5 φορές. Σε μία περίπτωση η ακολουθία των αριθμών που εμφανίζεται είναι - [1,4,2,6,4,3]. Στην άλλη περίπτωση, έχουμε - [2,2,2,2,2,2]. Ποιο πιστεύετε ότι είναι πιο πιθανό;

Και τα δύο είναι εξίσου πιθανά. Φαίνεται περίεργο, σωστά;

Τώρα, σκεφτείτε μια άλλη περίπτωση όπου και τα 5 ρολά σε κάθε περίπτωση ανεξάρτητος . Δηλαδή, το ένα ρολό δεν επηρεάζει το άλλο. Στην πρώτη περίπτωση, όταν 6 εμφανίστηκαν, δεν είχε ιδέα ότι οι 2 εμφανίστηκαν πριν. Ως εκ τούτου, και τα 5 ρολά είναι εξίσου πιθανά.

Ομοίως, οι ευθείες 2s στη δεύτερη περίπτωση μπορούν να θεωρηθούν ως αλληλουχία ανεξάρτητων γεγονότων. Και όλα αυτά τα γεγονότα είναι εξίσου πιθανά. Συνολικά, αφού έχουμε τα ίδια ζάρια, η πιθανότητα εμφάνισης ενός συγκεκριμένου αριθμού σε περίπτωση που η μία είναι ίδια με την περίπτωση δύο. Στη συνέχεια, σε αυτό το άρθρο σχετικά με τις στατιστικές για τη μηχανική μάθηση, ας κατανοήσουμε τον όρο Ανεξαρτησία.

Ανεξαρτησία

Δύο εκδηλώσεις Οι Α και Β λέγονται ανεξάρτητες εάν η εμφάνιση του Α δεν επηρεάζει το συμβάν Β . Για παράδειγμα, αν πετάξετε ένα νόμισμα και ρίξετε ένα καλούπι, το αποτέλεσμα της μήτρας δεν επηρεάζει εάν το νόμισμα δείχνει κεφαλές ή ουρές. Επίσης, για δύο ανεξάρτητες εκδηλώσεις Α και Β , ο πιθανότητα ότι τα Α και Β μπορούν να συμβούν μαζί . Έτσι, για παράδειγμα, αν θέλετε η πιθανότητα ότι το κέρμα δείχνει κεφάλια και το κύβος δείχνει 3.

P (A και B) = P (A) * P (B)

Επομένως P = & frac12 (πιθανότητα ανατροπής κεφαλών) * ⅙ (πιθανότητα 3 ανατροπής) = 1/12

Στο προηγούμενο παράδειγμα, και για τις δύο περιπτώσεις, P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

Ας μιλήσουμε τώρα για γεγονότα που δεν είναι ανεξάρτητα. Εξετάστε τον ακόλουθο πίνακα:

Παχύσαρκος Όχι παχύσαρκοι
Καρδιακά προβλήματαΤέσσερα πέντεδεκαπέντε
Χωρίς καρδιακά προβλήματα1030

Πραγματοποιήθηκε έρευνα 100 ατόμων. 60 είχαν καρδιακά προβλήματα και 40 δεν είχαν. Από τους 60 που είχαν καρδιακό πρόβλημα, οι 45 ήταν παχύσαρκοι. Από τους 40 που δεν είχαν καρδιακό πρόβλημα, 10 ήταν παχύσαρκοι. Αν κάποιος σας ρωτήσει -

  1. Ποια είναι η πιθανότητα εμφάνισης καρδιακού προβλήματος;
  2. Ποια είναι η πιθανότητα να έχετε καρδιακό πρόβλημα και να μην είστε παχύσαρκοι;

Η απάντηση στα πρώτα ερωτήματα είναι εύκολη - 60/100. Για το δεύτερο, θα ήταν 15/100. Τώρα εξετάστε την τρίτη ερώτηση - Ένα άτομο επιλέχθηκε τυχαία. Διαπιστώθηκε ότι είχε καρδιακές παθήσεις. Ποια είναι η πιθανότητα ότι είναι παχύσαρκος;

δομή δεδομένων και αλγόριθμος σε Java

Τώρα σκεφτείτε τις πληροφορίες που σας δόθηκαν - Είναι γνωστό ότι έχει καρδιακή νόσο. Επομένως, δεν μπορεί να είναι από τους 40 που δεν πάσχουν από καρδιακή νόσο. Υπάρχουν μόνο 60 πιθανές επιλογές (η επάνω σειρά στον πίνακα). Τώρα, μεταξύ αυτών των μειωμένων δυνατοτήτων, η πιθανότητα να είναι παχύσαρκος είναι 45/60. Τώρα, που γνωρίζετε, τι είναι ανεξάρτητα γεγονότα, στη συνέχεια σε αυτό το άρθρο σχετικά με τις στατιστικές για τη μηχανική μάθηση, ας καταλάβουμε τις πιθανότητες υπό όρους.

Υπό όρους πιθανότητες

Για να κατανοήσουμε τις πιθανότητες υπό όρους, ας συνεχίσουμε τη συζήτησή μας με το παραπάνω παράδειγμα. Η κατάσταση του παχύσαρκου και η κατάσταση του καρδιακού προβλήματος δεν είναι ανεξάρτητη. Εάν η παχυσαρκία δεν επηρέαζε τα καρδιακά προβλήματα, τότε ο αριθμός των παχύσαρκων και μη παχύσαρκων περιπτώσεων για άτομα με καρδιακά προβλήματα θα ήταν ο ίδιος.

Επίσης, μας δόθηκε ότι το άτομο έχει καρδιακά προβλήματα και έπρεπε να ανακαλύψουμε την πιθανότητα ότι είναι παχύσαρκος. Έτσι, η πιθανότητα, σε αυτήν την περίπτωση, λέγεται ότι εξαρτάται από το γεγονός ότι έχει καρδιακό πρόβλημα. Εάν η πιθανότητα εμφάνισης συμβάντος Α εξαρτάται από το συμβάν Β, το αντιπροσωπεύουμε ως

Ρ (Α | Β)

Τώρα, υπάρχει ένα θεώρημα που μας βοηθά να υπολογίσουμε αυτήν την πιθανότητα υπό όρους. Ονομάζεται Κανόνας Bayes .

P (A | B) = P (A και B) / P (B)

Μπορείτε να ελέγξετε αυτό το θεώρημα συνδέοντας το παράδειγμα που μόλις συζητήσαμε. Εάν έχετε καταλάβει μέχρι τώρα, μπορείτε να ξεκινήσετε με τα ακόλουθα - Naive Bayes . Χρησιμοποιεί πιθανότητες υπό όρους για να ταξινομήσει εάν ένα email είναι ανεπιθύμητο ή όχι. Μπορεί να εκτελέσει πολλές άλλες εργασίες ταξινόμησης. Αλλά ουσιαστικά, η πιθανότητα υπό όρους βρίσκεται στην καρδιά του .

Στατιστική:

Οι στατιστικές είναι χρησιμοποιείται για να συνοψίσει και να κάνει συμπεράσματα για μεγάλο αριθμό σημείων δεδομένων. Στην Επιστήμη των Δεδομένων και στη Μηχανική Μάθηση, θα συναντήσετε συχνά την ακόλουθη ορολογία

  • Κεντρικά μέτρα
  • Διανομές (ιδιαίτερα κανονικές)

Κεντρικά μέτρα και μέτρα spread

Σημαίνω:

Το μέσο είναι απλώς ένα μέσος όρος αριθμών . Για να μάθετε το μέσο, ​​πρέπει να αθροίσετε τους αριθμούς και να τον διαιρέσετε με τον αριθμό των αριθμών. Για παράδειγμα, ο μέσος όρος [1,2,3,4,5] είναι 15/5 = 3.

mean-statistics-for-machine-learning

Διάμεσος:

Το διάμεσο είναι το μεσαίο στοιχείο ενός συνόλου αριθμών όταν είναι διατεταγμένα σε αύξουσα σειρά. Για παράδειγμα, οι αριθμοί [1,2,4,3,5] είναι διατεταγμένοι σε αύξουσα σειρά [1,2,3,4,5]. Το μεσαίο από αυτά είναι 3. Επομένως, ο διάμεσος είναι 3. Αλλά τι γίνεται αν ο αριθμός των αριθμών είναι ίσος και επομένως δεν έχει μεσαίο αριθμό; Σε αυτήν την περίπτωση, παίρνετε το μέσο όρο των δύο μεσαίων περισσότερων αριθμών. Για μια ακολουθία αριθμών 2n σε αύξουσα σειρά, ο μέσος όρος nth και (n + 1)ουαριθμός για να λάβετε τη διάμεση τιμή. Παράδειγμα - [1,2,3,4,5,6] έχει τη διάμεση τιμή (3 + 4) / 2 = 3,5

Τρόπος:

Η λειτουργία είναι απλά η πιο συχνός αριθμός σε ένα σύνολο αριθμών . Για παράδειγμα, η λειτουργία [1,2,3,3,4,5,5,5] είναι 5.

Διαφορά:

Η διακύμανση δεν είναι ένα μέτρο κεντρικότητας. Μετρά πώς τα δεδομένα σας εξαπλώνονται γύρω από το μέσο όρο . Ποσοτικοποιείται ως

Χείναι ο μέσος όρος των αριθμών Ν. Παίρνετε ένα σημείο, αφαιρέστε το μέσο όρο, πάρτε το τετράγωνο αυτής της διαφοράς. Κάντε αυτό για όλους τους αριθμούς Ν και τον μέσο όρο τους. Η τετραγωνική ρίζα της διακύμανσης ονομάζεται τυπική απόκλιση. Στη συνέχεια, σε αυτό το άρθρο σχετικά με τις στατιστικές για τη μηχανική μάθηση, ας κατανοήσουμε την Κανονική κατανομή.

Κανονική κατανομή

Η διανομή μας βοηθά κατανοήστε πώς διαδίδονται τα δεδομένα μας . Για παράδειγμα, σε ένα δείγμα ηλικιών, ενδέχεται να έχουμε νέους περισσότερους από τους ηλικιωμένους και ως εκ τούτου μικρότερες τιμές της ηλικίας περισσότερο από μεγαλύτερες τιμές. Αλλά πώς ορίζουμε μια διανομή; Εξετάστε το παρακάτω παράδειγμα

Ο άξονας y αντιπροσωπεύει την πυκνότητα. Ο τρόπος αυτής της διανομής είναι 30 δεδομένου ότι είναι η κορυφή και ως εκ τούτου πιο συχνή. Μπορούμε επίσης να εντοπίσουμε τη διάμεση τιμή. Το διάμεσο βρίσκεται στο σημείο στον άξονα Χ όπου καλύπτεται η μισή περιοχή κάτω από την καμπύλη. Η περιοχή κάτω από οποιαδήποτε κανονική κατανομή είναι 1 επειδή το άθροισμα των πιθανοτήτων όλων των συμβάντων είναι 1. Για παράδειγμα,

Η διάμεση τιμή στην παραπάνω περίπτωση είναι περίπου 4. Αυτό σημαίνει ότι η περιοχή κάτω από την καμπύλη πριν από το 4 είναι η ίδια με εκείνη μετά το 4. Εξετάστε ένα άλλο παράδειγμα

πρόγραμμα σειράς fibonacci στην Ιάβα

Βλέπουμε τρεις κανονικές κατανομές. Το μπλε και το κόκκινο έχουν το ίδιο μέσο. Το κόκκινο έχει μεγαλύτερη διακύμανση. Ως εκ τούτου, απλώνεται περισσότερο από το μπλε. Αλλά επειδή η περιοχή πρέπει να είναι 1, η κορυφή της κόκκινης καμπύλης είναι μικρότερη από την μπλε καμπύλη, για να διατηρηθεί η περιοχή σταθερή.

Ελπίζω να καταλάβατε τα βασικά στατιστικά στοιχεία και τις κανονικές κατανομές. Τώρα, στη συνέχεια σε αυτό το άρθρο σχετικά με τις στατιστικές για τη μηχανική μάθηση, ας μάθουμε για τη Γραμμική Άλγεβρα.

Γραμμική άλγεβρα

Η σύγχρονη τεχνητή νοημοσύνη δεν θα ήταν δυνατή χωρίς τη γραμμική άλγεβρα. Αποτελεί τον πυρήνα του Βαθιά μάθηση και έχει χρησιμοποιηθεί ακόμη και σε απλούς αλγόριθμους όπως . Χωρίς περαιτέρω καθυστέρηση, ας ξεκινήσουμε.

Πρέπει να είστε εξοικειωμένοι με τα διανύσματα. Είναι ένα είδος γεωμετρικών αναπαραστάσεων στο διάστημα. Για παράδειγμα, ένα διάνυσμα [3,4] έχει 3 μονάδες κατά μήκος του άξονα x και 4 μονάδες κατά μήκος του άξονα y. Εξετάστε την ακόλουθη εικόνα -

Το διάνυσμα d1 έχει 0,707 μονάδες κατά μήκος του άξονα x και 0,707 μονάδες κατά μήκος του άξονα y. Ένα διάνυσμα έχει 1 διάσταση. Έχει απαραιτήτως μέγεθος και κατεύθυνση. Για παράδειγμα,

Η παραπάνω εικόνα έχει ένα διάνυσμα (4,3). Το μέγεθος του είναι 5 και κάνει 36,9 μοίρες με τον άξονα x.

Τώρα, τι είναι ένας πίνακας; Το Matrix είναι ένας πολυδιάστατος πίνακας αριθμών. Σε τι χρησιμεύει; Θα δούμε μπροστά. Αλλά πρώτα, ας δούμε πώς χρησιμοποιείται.

Μήτρα

Ένας πίνακας μπορεί να έχει πολλές διαστάσεις. Ας εξετάσουμε έναν δισδιάστατο πίνακα. Έχει σειρές (m) και στήλες (n). Επομένως έχει στοιχεία m * n.

Για παράδειγμα,

Αυτός ο πίνακας έχει 5 σειρές και 5 στήλες. Ας το ονομάσουμε A. Επομένως, το A (2,3) είναι η καταχώριση στη δεύτερη σειρά και την τρίτη στήλη που είναι 8.

Τώρα, που γνωρίζετε τι είναι ένας πίνακας, ας εξετάσουμε τις διαφορετικές λειτουργίες του πίνακα.

Λειτουργίες Matrix

Προσθήκη πινάκων

Δύο πίνακες του ίδιο μπορούν να προστεθούν διαστάσεις. Η προσθήκη συμβαίνει με στοιχεία.

Κλιματικός πολλαπλασιασμός

Ένας πίνακας μπορεί να πολλαπλασιαστεί με μια κλιμακωτή ποσότητα. Ένας τέτοιος πολλαπλασιασμός οδηγεί σε κάθε καταχώριση στον πίνακα να πολλαπλασιάζεται με τη βαθμίδα. Η κλίμακα είναι απλώς ένας αριθμός

χρησιμοποιώντας κλάση σαρωτή στην Java

Μεταφορά Matrix

Η μεταφορά Matrix είναι απλή. Για έναν πίνακα A (m, n), ας είναι το A 'μεταφορά του. Τότε

A '(i, j) = A (j, i)

Για παράδειγμα,

Πολλαπλασιασμός μήτρας

Αυτό είναι πιθανώς λίγο δύσκολο από άλλες λειτουργίες. Πριν βυθίσουμε σε αυτό, ας καθορίσουμε το προϊόν κουκκίδων μεταξύ δύο διανυσμάτων.

Εξετάστε το διάνυσμα X = [1,4,6,0] και το διάνυσμα Y = [2,3,4,5]. Στη συνέχεια, το προϊόν κουκκίδων μεταξύ Χ και Υ ορίζεται ως

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

Είναι λοιπόν ο πολλαπλασιασμός και η προσθήκη με γνώμονα τα στοιχεία. Τώρα,ας εξετάσουμε δύο πίνακες A (m, n) και B (n, k), όπου m, n, k είναι διαστάσεις και ως εκ τούτου ακέραιοι. Ορίζουμε τον πολλαπλασιασμό μήτρας ως

Στο παραπάνω παράδειγμα, το πρώτο στοιχείο του προϊόντος (44) λαμβάνεται από το προϊόν κουκκίδων της πρώτης σειράς της αριστερής μήτρας με την πρώτη στήλη της δεξιάς μήτρας. Παρομοίως, το 72 λαμβάνεται από το προϊόν κουκίδων της πρώτης σειράς του αριστερού πίνακα με τη δεύτερη στήλη του δεξιού πίνακα.

Σημειώστε ότι για τον αριστερό πίνακα, ο αριθμός των στηλών πρέπει να είναι ίσος με τον αριθμό των γραμμών στη δεξιά στήλη. Στην περίπτωσή μας, το προϊόν AB υπάρχει αλλά όχι το BA, καθώς το m δεν είναι ίσο με το k. Για δύο πίνακες A (m, n) και B (n, k), το προϊόν AB ορίζεται και η διάσταση του προϊόντος είναι (m, k) (οι εξωτερικές περισσότερες διαστάσεις του (m, n), (n, k )). Αλλά το BA δεν ορίζεται εκτός εάν m = k.

Με αυτό, καταλήγουμε σε αυτό το άρθρο σχετικά με τις στατιστικές για τη μηχανική μάθηση. Ελπίζω να έχετε καταλάβει μερικούς από τους μηχανικούς εκμάθηση Jargon. Δεν τελειώνει όμως εδώ. Για να βεβαιωθείτε ότι είστε έτοιμοι για τη βιομηχανία, μπορείτε να δείτε τα μαθήματα της Edureka για την Επιστήμη δεδομένων και την τεχνητή νοημοσύνη. Μπορούν να βρεθούν