Τι είναι η μεροληψία στη μηχανική εκμάθηση;



Αυτό το άρθρο καλύπτει την έννοια της προκατάληψης και της διακύμανσης στη μηχανική μάθηση με μια σχέση μεταξύ τους που καθορίζει την προγνωστική ακρίβεια του μοντέλου.

Σε , η απόδοση ενός μοντέλου βασίζεται στις προβλέψεις του και πόσο καλά γενικεύεται σε αόρατα, ανεξάρτητα δεδομένα. Ένας τρόπος μέτρησης της ακρίβειας ενός μοντέλου είναι να λαμβάνετε υπόψη την προκατάληψη και τη διακύμανση του μοντέλου. Σε αυτό το άρθρο, θα μάθουμε πώς η μεροληψία διαδραματίζει σημαντικό ρόλο στον προσδιορισμό της αυθεντικότητας του μοντέλου. Τα ακόλουθα θέματα συζητούνται σε αυτό το άρθρο:

Αμετάκλητο σφάλμα

Οποιοδήποτε μοντέλο σε αξιολογείται με βάση το σφάλμα πρόβλεψης σε ένα νέο ανεξάρτητο, αόρατο σύνολο δεδομένων. Το σφάλμα δεν είναι παρά η διαφορά μεταξύ της πραγματικής εξόδου και της προβλεπόμενης εξόδου. Για να υπολογίσουμε το σφάλμα, κάνουμε το άθροισμα του μειωμένου και μη μειωμένου σφάλματος a.k.a bias-variance decomposition.





Το μη αναστρέψιμο σφάλμα δεν είναι τίποτα άλλο από αυτά τα σφάλματα που δεν μπορούν να μειωθούν ανεξάρτητα από κανένα που χρησιμοποιείτε στο μοντέλο. Προκαλείται από ασυνήθιστες μεταβλητές που έχουν άμεση επίδραση στη μεταβλητή εξόδου. Έτσι, για να κάνουμε το μοντέλο σας αποτελεσματικό, μένουμε με το μειωμένο σφάλμα που πρέπει να βελτιστοποιήσουμε με κάθε κόστος.

Ένα μειωμένο σφάλμα έχει δύο συστατικά - Προκατάληψη και διακύμανση , η παρουσία προκατάληψης και διακύμανσης επηρεάζει την ακρίβεια του μοντέλου με διάφορους τρόπους όπως overfitting, underfitting , και τα λοιπά.Ας ρίξουμε μια ματιά στην προκατάληψη και τη διακύμανση για να κατανοήσουμε πώς να αντιμετωπίσουμε το μειωμένο σφάλμα στο .



Τι είναι η προκατάληψη στη μηχανική μάθηση;

Η προκατάληψη είναι βασικά πόσο μακριά έχουμε προβλέψει την τιμή από την πραγματική τιμή. Λέμε ότι η μεροληψία είναι πολύ υψηλή αν οι μέσες προβλέψεις απέχουν πολύ από τις πραγματικές τιμές.

Μια υψηλή μεροληψία θα κάνει τον αλγόριθμο να χάσει ένα κυρίαρχο μοτίβο ή σχέση μεταξύ των μεταβλητών εισόδου και εξόδου. Όταν η μεροληψία είναι πολύ υψηλή, θεωρείται ότι το μοντέλο είναι αρκετά απλό και δεν κατανοεί την πολυπλοκότητα του συνόλου δεδομένων για τον προσδιορισμό της σχέσης και έτσι,προκαλεί υποσυναρμολόγηση.

Ποικιλία σε μοντέλο μηχανικής εκμάθησης;

Σε ένα ανεξάρτητο, αόρατο σύνολο δεδομένων ή ένα σύνολο επικύρωσης. Όταν ένα μοντέλο δεν λειτουργεί τόσο καλά όσο και με το εκπαιδευμένο σύνολο δεδομένων, υπάρχει πιθανότητα το μοντέλο να έχει διακύμανση. Βασικά λέει πόσο διασκορπισμένα είναι οι προβλεπόμενες τιμές από τις πραγματικές τιμές.



Η υψηλή διακύμανση σε ένα σύνολο δεδομένων σημαίνει ότι το μοντέλο έχει εκπαιδευτεί με πολύ θόρυβο και άσχετα δεδομένα. Έτσι προκαλεί υπερβολική τοποθέτηση στο μοντέλο. Όταν ένα μοντέλο έχει μεγάλη διακύμανση, γίνεται πολύ ευέλικτο και κάνει λανθασμένες προβλέψεις για νέα σημεία δεδομένων. Επειδή έχει προσαρμοστεί στα σημεία δεδομένων του εκπαιδευτικού συνόλου.

Ας προσπαθήσουμε επίσης να κατανοήσουμε μαθηματικά την έννοια της bias-variance. Αφήστε τη μεταβλητή που προβλέπουμε να είναι Y και οι άλλες ανεξάρτητες μεταβλητές να είναι X. Τώρα ας υποθέσουμε ότι υπάρχει μια σχέση μεταξύ των δύο μεταβλητών έτσι ώστε:

Y = f (X) + ε

Στην παραπάνω εξίσωση, Εδώ είναι είναι το εκτιμώμενο σφάλμα με μέση τιμή 0. Όταν κάνουμε έναν ταξινομητή χρησιμοποιώντας αλγόριθμους όπως γραμμικής παλινδρόμησης , , κ.λπ., το αναμενόμενο τετράγωνο σφάλμα στο σημείο x θα είναι:

err (x) = προκατάληψη2+ Διακύμανση + μη ανατρέψιμο σφάλμα

Ας καταλάβουμε επίσης πώς θα επηρεάσει το Bias-Variance Μηχανική εκμάθηση απόδοση του μοντέλου.

Πώς επηρεάζει το μοντέλο μηχανικής εκμάθησης;

Μπορούμε να βάλουμε τη σχέση μεταξύ προκατάληψης σε τέσσερις κατηγορίες που αναφέρονται παρακάτω:

  1. High Variance-High Bias - Το μοντέλο είναι ασυνεπές και επίσης ανακριβές κατά μέσο όρο
  2. Low Variance-High Bias - Τα μοντέλα είναι συνεπή αλλά χαμηλά κατά μέσο όρο
  3. Υψηλή διακύμανση-Χαμηλή μεροληψία - Κάπως ακριβής αλλά ασυνεπής στους μέσους όρους
  4. Low Variance-Low Bias - Είναι το ιδανικό σενάριο, το μοντέλο είναι συνεπές και ακριβές κατά μέσο όρο.

μεροληψία στη μηχανική μάθηση-edureka

Αν και η ανίχνευση προκατάληψης και διακύμανσης σε ένα μοντέλο είναι αρκετά εμφανής. Ένα μοντέλο με μεγάλη διακύμανση θα έχει χαμηλό σφάλμα εκπαίδευσης και υψηλό σφάλμα επικύρωσης. Και στην περίπτωση υψηλών προκαταλήψεων, το μοντέλο θα έχει υψηλό σφάλμα εκπαίδευσης και το σφάλμα επικύρωσης είναι το ίδιο με το σφάλμα εκπαίδευσης.

Ενώ η ανίχνευση φαίνεται εύκολη, η πραγματική αποστολή είναι να το μειώσουμε στο ελάχιστο. Σε αυτήν την περίπτωση, μπορούμε να κάνουμε τα εξής:

κύκλος ζωής δραστηριότητας του Android
  • Προσθέστε περισσότερες δυνατότητες εισαγωγής
  • Περισσότερη πολυπλοκότητα με την εισαγωγή πολυωνυμικών χαρακτηριστικών
  • Μειώστε τον όρο τακτοποίησης
  • Λήψη περισσότερων δεδομένων εκπαίδευσης

Τώρα που γνωρίζουμε τι είναι προκατάληψη και διακύμανση και πώς επηρεάζει το μοντέλο μας, ας ρίξουμε μια ματιά σε μια αντιστάθμιση απόκλισης απόκλισης.

Αντάλλαγμα Bias-Variance

Η εύρεση της σωστής ισορροπίας μεταξύ της προκατάληψης και της διακύμανσης του μοντέλου ονομάζεται ανταλλαγή Bias-Variance. Είναι βασικά ένας τρόπος για να βεβαιωθείτε ότι το μοντέλο δεν είναι σε καμία περίπτωση υπερπληρωμένο ή ανεπαρκές.

Εάν το μοντέλο είναι πολύ απλό και έχει πολύ λίγες παραμέτρους, θα υποφέρει από υψηλή μεροληψία και χαμηλή διακύμανση. Από την άλλη πλευρά, εάν το μοντέλο έχει μεγάλο αριθμό παραμέτρων, θα έχει υψηλή διακύμανση και χαμηλή μεροληψία. Αυτή η ανταλλαγή θα πρέπει να οδηγήσει σε μια απόλυτα ισορροπημένη σχέση μεταξύ των δύο. Στην ιδανική περίπτωση, η χαμηλή μεροληψία και η χαμηλή διακύμανση είναι ο στόχος για οποιοδήποτε μοντέλο Machine Learning.

Συνολικό σφάλμα

Σε οποιοδήποτε μοντέλο Μηχανικής Μάθησης, μια καλή ισορροπία μεταξύ της προκατάληψης και της απόκλισης χρησιμεύει ως ένα τέλειο σενάριο όσον αφορά την προγνωστική ακρίβεια και την αποφυγή της υπερβολικής τοποθέτησης, της υποεξάρτησης εντελώς. Η βέλτιστη ισορροπία μεταξύ της μεροληψίας και της διακύμανσης, όσον αφορά την πολυπλοκότητα του αλγορίθμου, θα διασφαλίσει ότι το μοντέλο δεν θα τοποθετηθεί ποτέ σε καμία περίπτωση ή δεν έχει καθόλου εξοπλιστεί.

Το μέσο τετράγωνο σφάλμα σε ένα στατιστικό μοντέλο θεωρείται ως το άθροισμα της τετραγωνικής προκατάληψης και της διακύμανσης και της διακύμανσης του σφάλματος. Όλα αυτά μπορούν να ενταχθούν σε ένα συνολικό σφάλμα όπου έχουμε προκατάληψη, διακύμανση και αμετάκλητο σφάλμα σε ένα μοντέλο.

Ας καταλάβουμε πώς μπορούμε να μειώσουμε το συνολικό σφάλμα με τη βοήθεια μιας πρακτικής εφαρμογής.

Έχουμε δημιουργήσει ένα ταξινομητής γραμμικής παλινδρόμησης στο Γραμμική παλινδρόμηση στη μηχανική εκμάθηση άρθρο σχετικά με το Edureka χρησιμοποιώντας το σύνολο δεδομένων για τον διαβήτη στην ενότητα συνόλων δεδομένων του scikit μάθετε βιβλιοθήκη.

πώς να ελέγξετε το palindrome στην Ιάβα

Όταν αξιολογήσαμε το μέσο τετραγωνικό σφάλμα του ταξινομητή, λάβαμε ένα συνολικό σφάλμα περίπου 2500.

Για να μειώσουμε το συνολικό σφάλμα, τροφοδοτήσαμε περισσότερα δεδομένα στον ταξινομητή και σε αντάλλαγμα το μέσο τετραγωνικό σφάλμα μειώθηκε σε 2000.

Είναι μια απλή εφαρμογή της μείωσης του συνολικού σφάλματος τροφοδοτώντας περισσότερα δεδομένα εκπαίδευσης στο μοντέλο. Παρομοίως, μπορούμε να εφαρμόσουμε άλλες τεχνικές για τη μείωση του σφάλματος και τη διατήρηση της ισορροπίας μεταξύ προκατάληψης και διακύμανσης για ένα αποτελεσματικό μοντέλο Machine Learning.

Αυτό μας φέρνει στο τέλος αυτού του άρθρου όπου έχουμε μάθει Bias-Variance στο Machine Learning με την εφαρμογή και την περίπτωση χρήσης του. Ελπίζω να είστε ξεκάθαροι με όλα όσα έχουν μοιραστεί μαζί σας σε αυτό το σεμινάριο.

Εάν βρήκατε αυτό το άρθρο σχετικά με την «Bias-Variance In Machine Learning», ανατρέξτε στο μια αξιόπιστη διαδικτυακή εταιρεία εκμάθησης με δίκτυο περισσότερων από 250.000 ικανοποιημένων μαθητών σε όλο τον κόσμο.

Είμαστε εδώ για να σας βοηθήσουμε με κάθε βήμα στο ταξίδι σας και να δημιουργήσετε ένα πρόγραμμα σπουδών που έχει σχεδιαστεί για φοιτητές και επαγγελματίες που θέλουν να γίνουν . Το μάθημα έχει σχεδιαστεί για να σας δώσει μια πρώτη αρχή στον προγραμματισμό Python και να σας εκπαιδεύσει τόσο για τις βασικές όσο και για τις προηγμένες ιδέες Python μαζί με διάφορες σαν , , και τα λοιπά.

Εάν συναντήσετε οποιεσδήποτε ερωτήσεις, μη διστάσετε να κάνετε όλες τις ερωτήσεις σας στην ενότητα σχολίων του 'Bias-Variance In Machine Learning' και η ομάδα μας θα χαρεί να απαντήσει.