Αναγνώριση ομιλίας Python: Πώς να μεταφράσετε το κείμενο σε κείμενο;



Αυτό το ιστολόγιο καλύπτει την έννοια της αναγνώρισης ομιλίας στο python με ένα δείγμα προγράμματος που μεταφράζει την ομιλία σε κείμενο χρησιμοποιώντας αναγνώριση ομιλίας.

Η ομιλία είναι το πιο κοινό μέσο επικοινωνίας σε όλο τον κόσμο. Το μεγαλύτερο μέρος του πληθυσμού στον κόσμο βασίζεται στην ομιλία για επικοινωνία μεταξύ τους. Ας υποθέσουμε ότι χτίζουμε ένα μοντέλο και αντί για μια γραπτή προσέγγιση που θέλουμε το σύστημά μας να ανταποκρίνεται στην ομιλία, γίνεται αρκετά δύσκολο και απαιτεί πολλά δεδομένα για επεξεργασία. Ένα σύστημα αναγνώρισης ομιλίας ξεπερνά αυτό το εμπόδιο μεταφράζοντας την ομιλία σε κείμενο. Σε αυτό το ιστολόγιο, θα περάσουμε από την αναγνώριση ομιλίας ενότητα στο python . Εδώ είναι η λίστα των ίδιων:

Πώς λειτουργεί η Αναγνώριση ομιλίας;

Το σύστημα αναγνώρισης ομιλίας μεταφράζει βασικά τις προφορικές εκφράσεις σε κείμενο. Υπάρχουν διάφορα πραγματικά παραδείγματα συστήματος αναγνώρισης ομιλίας. Για παράδειγμα, το siri, το οποίο παίρνει την ομιλία ως είσοδο και τη μεταφράζει σε κείμενο.





Το πλεονέκτημα της χρήσης ενός συστήματος αναγνώρισης ομιλίας είναι ότι ξεπερνά το εμπόδιο του γραμματισμού. Ένα μοντέλο αναγνώρισης ομιλίας μπορεί να εξυπηρετήσει τόσο εγγράμματο όσο και αναλφάβητο κοινό, καθώς εστιάζει στις προφορικές εκφωνήσεις.

Μπορούμε επίσης να κάνουμε μια απογραφή όλων των απειλούμενων γλωσσών σε όλο τον κόσμο χρησιμοποιώντας ένα σύστημα αναγνώρισης ομιλίας. Ενώ φαίνεται αρκετά ενδιαφέρον και καθόλου περίπλοκο, ένα σύστημα αναγνώρισης ομιλίας αντιμετωπίζει πολλές προκλήσεις στη διαδικασία.



Προκλήσεις που αντιμετωπίζει μια αναγνώριση ομιλίας Σύστημα

Ένα σύστημα αναγνώρισης ομιλίας καθίσταται δύσκολο να δημιουργηθεί επειδή έχουμε τόσες πολλές πηγές μεταβλητότητας όταν πρόκειται για ομιλία.

Στυλ ομιλίας

Κάθε άτομο έχει ποικίλο στυλ ομιλίας, συμπεριλαμβανομένων και τόνων. Όπως όλοι γνωρίζουμε, έχουμε και διαφορετικούς τόνους για να μιλάμε Αγγλικά. Υπάρχουν αμερικανικά αγγλικά, βρετανικά αγγλικά και τόσες πολλές άλλες πινελιές όταν μιλάμε για την πιο κοινή γλώσσα στον κόσμο. Η προφορά καθιστά επίσης δύσκολο για ένα σύστημα αναγνώρισης ομιλίας να μεταφράσει εντελώς την ομιλία.



περιβάλλον

Το περιβάλλον προσθέτει επίσης πολύ θόρυβο στο παρασκήνιο στο σύστημα. Ένα απομονωμένο δωμάτιο σε σύγκριση με ένα αμφιθέατρο θα έχει μεγάλη μεταβλητότητα στους θορύβους του περιβάλλοντος. Ακόμη και η ηχώ μπορεί να προσθέσει πολύ θόρυβο στο σύστημα.

Χαρακτηριστικά ηχείου

Η φωνή ενός ηλικιωμένου μπορεί να μην είναι ίδια με αυτή του βρέφους. Τα χαρακτηριστικά της ομιλίας ενός ατόμου εξαρτώνται από πολλούς παράγοντες, όπως η σκληρότητα και η σαφήνεια.

Γλωσσικοί περιορισμοί

Ορισμένες προφορικές εκφράσεις μπορεί να μην έχουν βιώσιμο νόημα όταν πρόκειται για μετάφραση.

Αφού ξεπεράσετε αυτές τις προκλήσεις, είναι αρκετά εφικτό για οποιοδήποτε σύστημα αναγνώρισης ομιλίας να μεταφράσει την ομιλία σε κείμενο. Τώρα που γνωρίζουμε πώς λειτουργεί η αναγνώριση ομιλίας, ας ρίξουμε μια ματιά σε διαφορετικά που είναι διαθέσιμα για αναγνώριση ομιλίας στο python.

Πακέτα διαθέσιμα για αναγνώριση ομιλίας στο python

  • apiai

  • Αναγνώρισης ομιλίας

  • Google_speech_cloud

  • συνελεύσεις

  • Pocketsphinx

  • Watson_developer_cloud

  • λευκό

Θα εξετάσουμε τις λεπτομέρειες του πακέτου SpeechRecognition σε αυτό το ιστολόγιο, ας ρίξουμε επίσης μια ματιά στη λωρίδα μνήμης για να κατανοήσουμε πώς εξελίχθηκαν τα συστήματα αναγνώρισης ομιλίας με την πάροδο των ετών.

Το πρώτο πρωτότυπο της αναγνώρισης ομιλίας ήταν στην πραγματικότητα ένα παιχνίδι, που ονομάστηκε ραδιόφωνο rex που ήρθε γύρω στη δεκαετία του 1920. Είχε ένα σκύλο να κάθεται σε ένα σπίτι σκύλων που θα ξεδιπλώνεται μόλις κάποιος προφέρει τη λέξη rex.

Το μόνο πρόβλημα με το μοντέλο ήταν ότι το ελατήριο συνδέθηκε με έναν ηλεκτρομαγνήτη που ήταν ευαίσθητος στην ενέργεια που κυμαινόταν περίπου 500hz. Όντας καθαρά ανιχνευτής συχνότητας, θα μπορούσε να χαρακτηριστεί εξ αποστάσεως ως μοντέλο αναγνώρισης ομιλίας.

Το 1962, η IBM βρήκε ένα κουτί μοντέλο που μπόρεσε να αναγνωρίσει μεμονωμένες λέξεις και επίσης να εκτελεί μερικές αριθμητικές πράξεις.

Τότε ήρθε ΣΤΡΙΓΚΛΑ από την CMU, η οποία μπόρεσε να αναγνωρίσει τη συνδεδεμένη ομιλία από ένα λεξιλόγιο 1000 λέξεων. Γύρω στη δεκαετία του 1980 οι άνθρωποι άρχισαν να χρησιμοποιούν στατιστικά μοντέλα και ένα από τα πιο χρησιμοποιημένα πρότυπα μηχανικής μάθησης ήταν το κρυφό μοντέλο markov.

Μετά την εισαγωγή των βαθιών νευρωνικών δικτύων, τα περισσότερα μοντέλα αναγνώρισης ομιλίας λειτουργούν στα νευρικά δίκτυα. Οι δυνατότητες είναι αδιανόητες με τα νευρικά δίκτυα, το λεξιλόγιο μπορεί να φτάσει έως και 10k λέξεις και άλλα.

Πώς να εγκαταστήσετε το SpeechRecognition στο Python;

Για να εγκαταστήσετε το πακέτο SpeechRecognition είναι python, εκτελέστε την ακόλουθη εντολή στο τερματικό και θα εγκατασταθεί στο σύστημά σας.

εγκατάσταση-αναγνώριση ομιλίας python-edureka

Μια άλλη προσέγγιση σε αυτό, μπορεί να είναι η προσθήκη του πακέτου από τον διερμηνέα του έργου εάν χρησιμοποιείτε

Το πακέτο έχει μια κατηγορία αναγνώρισης που είναι βασικά όπου συμβαίνει η μαγεία. Είναι βασικά μια τάξη που χρησιμοποιείται για την αναγνώριση της ομιλίας. Ακολουθούν επτά μέθοδοι που μπορούν να διαβάσουν διάφορες πηγές ήχου χρησιμοποιώντας διαφορετικά API.

  • αναγνώριση_bing ()
  • αναγνωρίστε_google ()
  • recognition_google_cloud ()
  • αναγνωρίστε_κυνηγήστε ()
  • αναγνώριση_ibm ()
  • αναγνωρίστε_πνεύμα ()
  • αναγνωρίστε_sphinx ()

Τώρα, η αναγνώριση_sphinx μπορεί να χρησιμοποιηθεί και για την εκτέλεση του συστήματος αναγνώρισης ομιλίας εκτός σύνδεσης. Απαιτεί την εγκατάσταση του Pocketsphinx.

εισαγωγή αναγνώρισης ομιλίας ως sr # αρχή της κλάσης αναγνωριστή r = sr. Recognizer ()

Λήψη εισόδου από μικρόφωνα

Για να χρησιμοποιήσουμε τα μικρόφωνα, θα πρέπει επίσης να εγκαταστήσουμε τη μονάδα pyaudio. Χρησιμοποιούμε την κλάση μικροφώνου για να λάβουμε την ομιλία εισόδου από το μικρόφωνο αντί για οποιαδήποτε άλλη μέθοδο εισαγωγής, όπως ένα αρχείο ήχου.

Για τα περισσότερα από τα έργα, μπορούμε να χρησιμοποιήσουμε τα προεπιλεγμένα μικρόφωνα. Αλλά αν δεν θέλετε να χρησιμοποιήσετε το προεπιλεγμένο μικρόφωνο,μπορείτε να λάβετε τη λίστα των ονομάτων μικροφώνου χρησιμοποιώντας τη μέθοδο list_microphone_names.

Για τη λήψη της εισόδου από το μικρόφωνο χρησιμοποιούμε τη μέθοδο ακρόασης.

εισαγωγή ομιλίαςrecognition ως sr r = sr.Recognizer () με sr.Microphone () ως πηγή: audio = sr.listen (πηγή)

Πώς να εγκαταστήσετε το Pyaudio στο Python;

Για να εγκαταστήσετε το Pyaudio στο python, εκτελέστε την ακόλουθη εντολή στο τερματικό ή εάν χρησιμοποιείτε το pycharm, προσθέστε το πακέτο από τον διερμηνέα έργου στις ρυθμίσεις.

Χρήση θήκης

Θα κάνουμε ένα πρόγραμμα χρησιμοποιώντας τη μονάδα αναγνώρισης ομιλίας στο python για να αναγνωρίσουμε την ομιλία και να εκτελέσουμε τα εξής:

  1. μετατρέψτε την ομιλία σε κείμενο
  2. ανοίξτε μια διεύθυνση URL χρησιμοποιώντας λειτουργική μονάδα webbrowser
  3. περάστε ένα ερώτημα χρησιμοποιώντας αναγνώριση ομιλίας για να πραγματοποιήσετε αναζήτηση στο url

Ακολουθεί το πρόγραμμα για την παραπάνω δήλωση προβλήματος:

Σε ποιες περιπτώσεις χρησιμοποιείται ο προγραμματισμός sas
εισαγωγή ομιλίας_αναγνώριση ως sr εισαγωγή webbrowser ως wb r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () with sr.Microphone () as source: print ('[search edureka: search youtube]') print ('speak now') audio = r3.listen (source) if 'edureka' στο r2.recognize_google (audio): r2 = sr.Recognizer () url = 'https://www.edureka.co/' με sr .Microphone () ως πηγή: print ('search your query') audio = r2.listen (source) try: get = r2.recognize_google (audio) print (get) wb.get (). Open_new (url + get) εκτός sr.UnknownValueError: print ('error') εκτός sr.RequestError as e: print ('fail'.format (e)) if' video 'in r1.recognize_google (audio): r1 = sr.Recognizer () url =' https://www.youtube.com/results?search_query= 'with sr.Microphone () as source: print (' search for a video ') audio = r2.listen (source) try: get = r1.recognize_google (ήχος ] print (get) wb.get (). open_new (url + get) εκτός sr.UnknownValueError: print ('δεν μπορούσε να καταλάβει') εκτός από sr.RequestError as e: print (απέτυχε η λήψη αποτελεσμάτων'.format (e) )

Θα λάβετε την έξοδο όπως φαίνεται στην εικόνα. Εάν πείτε edureka, θα σας ζητήσει να πείτε το ερώτημα που θέλετε να αναζητήσετε στη διεύθυνση urureka που έχουμε γράψει στη μεταβλητή url. Εάν πείτε python θα ανοίξετε την ακόλουθη ιστοσελίδα στο πρόγραμμα περιήγησης.

Σε αυτό το ιστολόγιο, έχουμε συζητήσει πώς μπορούμε να χρησιμοποιήσουμε την αναγνώριση ομιλίας στο python για να μεταφράσουμε την ομιλία σε κείμενο χρησιμοποιώντας το πακέτο αναγνώρισης ομιλίας. έχει γίνει η ανάγκη της ώρας για έννοιες όπως η αναγνώριση ομιλίας ή η απόρριψη αντικειμένων, με το που παρέχουν αδιανόητες δυνατότητες σε συστήματα αναγνώρισης ομιλίας όπου μπορούμε να εκπαιδεύσουμε και να δοκιμάσουμε τεράστια δεδομένα ομιλίας για τη δημιουργία ενός συστήματος. Μπορείτε να εγγραφείτε στο για βαθιά νευρωνικά δίκτυα για να κυριαρχήσετε τις δεξιότητές σας και να ξεκινήσετε τη μάθηση σας.

έχετε απορίες; τα αναφέρετε στα σχόλια, θα επικοινωνήσουμε μαζί σας.