ΑΝΑΓΝΏΡΙΣΗ ΟΜΙΛΊΑΣ PYTHON | ΤΡΌΠΟΣ ΜΕΤΆΦΡΑΣΗΣ ΟΜΙΛΊΑΣ ΣΕ ΚΕΊΜΕΝΟ

Η ομιλία είναι το πιο κοινό μέσο επικοινωνίας σε όλο τον κόσμο. Το μεγαλύτερο μέρος του πληθυσμού στον κόσμο βασίζεται στην ομιλία για επικοινωνία μεταξύ τους. Ας υποθέσουμε ότι χτίζουμε ένα μοντέλο και αντί για μια γραπτή προσέγγιση που θέλουμε το σύστημά μας να ανταποκρίνεται στην ομιλία, γίνεται αρκετά δύσκολο και απαιτεί πολλά δεδομένα για επεξεργασία. Ένα σύστημα αναγνώρισης ομιλίας ξεπερνά αυτό το εμπόδιο μεταφράζοντας την ομιλία σε κείμενο. Σε αυτό το ιστολόγιο, θα περάσουμε από την αναγνώριση ομιλίας ενότητα στο python . Εδώ είναι η λίστα των ίδιων:

Πώς λειτουργεί η Αναγνώριση ομιλίας;
Πώς να εγκαταστήσετε την αναγνώριση ομιλίας στο Python;
Λήψη εισόδου από μικρόφωνα
Πώς να εγκαταστήσετε το Pyaudio στο Python;
Χρήση θήκης

Πώς λειτουργεί η Αναγνώριση ομιλίας;

Το σύστημα αναγνώρισης ομιλίας μεταφράζει βασικά τις προφορικές εκφράσεις σε κείμενο. Υπάρχουν διάφορα πραγματικά παραδείγματα συστήματος αναγνώρισης ομιλίας. Για παράδειγμα, το siri, το οποίο παίρνει την ομιλία ως είσοδο και τη μεταφράζει σε κείμενο.

Το πλεονέκτημα της χρήσης ενός συστήματος αναγνώρισης ομιλίας είναι ότι ξεπερνά το εμπόδιο του γραμματισμού. Ένα μοντέλο αναγνώρισης ομιλίας μπορεί να εξυπηρετήσει τόσο εγγράμματο όσο και αναλφάβητο κοινό, καθώς εστιάζει στις προφορικές εκφωνήσεις.

Μπορούμε επίσης να κάνουμε μια απογραφή όλων των απειλούμενων γλωσσών σε όλο τον κόσμο χρησιμοποιώντας ένα σύστημα αναγνώρισης ομιλίας. Ενώ φαίνεται αρκετά ενδιαφέρον και καθόλου περίπλοκο, ένα σύστημα αναγνώρισης ομιλίας αντιμετωπίζει πολλές προκλήσεις στη διαδικασία.

Προκλήσεις που αντιμετωπίζει μια αναγνώριση ομιλίας Σύστημα

Ένα σύστημα αναγνώρισης ομιλίας καθίσταται δύσκολο να δημιουργηθεί επειδή έχουμε τόσες πολλές πηγές μεταβλητότητας όταν πρόκειται για ομιλία.

Στυλ ομιλίας

Κάθε άτομο έχει ποικίλο στυλ ομιλίας, συμπεριλαμβανομένων και τόνων. Όπως όλοι γνωρίζουμε, έχουμε και διαφορετικούς τόνους για να μιλάμε Αγγλικά. Υπάρχουν αμερικανικά αγγλικά, βρετανικά αγγλικά και τόσες πολλές άλλες πινελιές όταν μιλάμε για την πιο κοινή γλώσσα στον κόσμο. Η προφορά καθιστά επίσης δύσκολο για ένα σύστημα αναγνώρισης ομιλίας να μεταφράσει εντελώς την ομιλία.

περιβάλλον

Το περιβάλλον προσθέτει επίσης πολύ θόρυβο στο παρασκήνιο στο σύστημα. Ένα απομονωμένο δωμάτιο σε σύγκριση με ένα αμφιθέατρο θα έχει μεγάλη μεταβλητότητα στους θορύβους του περιβάλλοντος. Ακόμη και η ηχώ μπορεί να προσθέσει πολύ θόρυβο στο σύστημα.

Χαρακτηριστικά ηχείου

Η φωνή ενός ηλικιωμένου μπορεί να μην είναι ίδια με αυτή του βρέφους. Τα χαρακτηριστικά της ομιλίας ενός ατόμου εξαρτώνται από πολλούς παράγοντες, όπως η σκληρότητα και η σαφήνεια.

Γλωσσικοί περιορισμοί

Ορισμένες προφορικές εκφράσεις μπορεί να μην έχουν βιώσιμο νόημα όταν πρόκειται για μετάφραση.

Αφού ξεπεράσετε αυτές τις προκλήσεις, είναι αρκετά εφικτό για οποιοδήποτε σύστημα αναγνώρισης ομιλίας να μεταφράσει την ομιλία σε κείμενο. Τώρα που γνωρίζουμε πώς λειτουργεί η αναγνώριση ομιλίας, ας ρίξουμε μια ματιά σε διαφορετικά που είναι διαθέσιμα για αναγνώριση ομιλίας στο python.

Πακέτα διαθέσιμα για αναγνώριση ομιλίας στο python

apiai
Αναγνώρισης ομιλίας
Google_speech_cloud
συνελεύσεις
Pocketsphinx
Watson_developer_cloud
λευκό

Θα εξετάσουμε τις λεπτομέρειες του πακέτου SpeechRecognition σε αυτό το ιστολόγιο, ας ρίξουμε επίσης μια ματιά στη λωρίδα μνήμης για να κατανοήσουμε πώς εξελίχθηκαν τα συστήματα αναγνώρισης ομιλίας με την πάροδο των ετών.

Το πρώτο πρωτότυπο της αναγνώρισης ομιλίας ήταν στην πραγματικότητα ένα παιχνίδι, που ονομάστηκε ραδιόφωνο rex που ήρθε γύρω στη δεκαετία του 1920. Είχε ένα σκύλο να κάθεται σε ένα σπίτι σκύλων που θα ξεδιπλώνεται μόλις κάποιος προφέρει τη λέξη rex.

Το μόνο πρόβλημα με το μοντέλο ήταν ότι το ελατήριο συνδέθηκε με έναν ηλεκτρομαγνήτη που ήταν ευαίσθητος στην ενέργεια που κυμαινόταν περίπου 500hz. Όντας καθαρά ανιχνευτής συχνότητας, θα μπορούσε να χαρακτηριστεί εξ αποστάσεως ως μοντέλο αναγνώρισης ομιλίας.

Το 1962, η IBM βρήκε ένα κουτί μοντέλο που μπόρεσε να αναγνωρίσει μεμονωμένες λέξεις και επίσης να εκτελεί μερικές αριθμητικές πράξεις.

Τότε ήρθε ΣΤΡΙΓΚΛΑ από την CMU, η οποία μπόρεσε να αναγνωρίσει τη συνδεδεμένη ομιλία από ένα λεξιλόγιο 1000 λέξεων. Γύρω στη δεκαετία του 1980 οι άνθρωποι άρχισαν να χρησιμοποιούν στατιστικά μοντέλα και ένα από τα πιο χρησιμοποιημένα πρότυπα μηχανικής μάθησης ήταν το κρυφό μοντέλο markov.

Μετά την εισαγωγή των βαθιών νευρωνικών δικτύων, τα περισσότερα μοντέλα αναγνώρισης ομιλίας λειτουργούν στα νευρικά δίκτυα. Οι δυνατότητες είναι αδιανόητες με τα νευρικά δίκτυα, το λεξιλόγιο μπορεί να φτάσει έως και 10k λέξεις και άλλα.

Πώς να εγκαταστήσετε το SpeechRecognition στο Python;

Για να εγκαταστήσετε το πακέτο SpeechRecognition είναι python, εκτελέστε την ακόλουθη εντολή στο τερματικό και θα εγκατασταθεί στο σύστημά σας.

εγκατάσταση-αναγνώριση ομιλίας python-edureka

Μια άλλη προσέγγιση σε αυτό, μπορεί να είναι η προσθήκη του πακέτου από τον διερμηνέα του έργου εάν χρησιμοποιείτε

Το πακέτο έχει μια κατηγορία αναγνώρισης που είναι βασικά όπου συμβαίνει η μαγεία. Είναι βασικά μια τάξη που χρησιμοποιείται για την αναγνώριση της ομιλίας. Ακολουθούν επτά μέθοδοι που μπορούν να διαβάσουν διάφορες πηγές ήχου χρησιμοποιώντας διαφορετικά API.

αναγνώριση_bing ()
αναγνωρίστε_google ()
recognition_google_cloud ()
αναγνωρίστε_κυνηγήστε ()
αναγνώριση_ibm ()
αναγνωρίστε_πνεύμα ()
αναγνωρίστε_sphinx ()

Τώρα, η αναγνώριση_sphinx μπορεί να χρησιμοποιηθεί και για την εκτέλεση του συστήματος αναγνώρισης ομιλίας εκτός σύνδεσης. Απαιτεί την εγκατάσταση του Pocketsphinx.

εισαγωγή αναγνώρισης ομιλίας ως sr # αρχή της κλάσης αναγνωριστή r = sr. Recognizer ()

Λήψη εισόδου από μικρόφωνα

Για να χρησιμοποιήσουμε τα μικρόφωνα, θα πρέπει επίσης να εγκαταστήσουμε τη μονάδα pyaudio. Χρησιμοποιούμε την κλάση μικροφώνου για να λάβουμε την ομιλία εισόδου από το μικρόφωνο αντί για οποιαδήποτε άλλη μέθοδο εισαγωγής, όπως ένα αρχείο ήχου.

Για τα περισσότερα από τα έργα, μπορούμε να χρησιμοποιήσουμε τα προεπιλεγμένα μικρόφωνα. Αλλά αν δεν θέλετε να χρησιμοποιήσετε το προεπιλεγμένο μικρόφωνο,μπορείτε να λάβετε τη λίστα των ονομάτων μικροφώνου χρησιμοποιώντας τη μέθοδο list_microphone_names.

Για τη λήψη της εισόδου από το μικρόφωνο χρησιμοποιούμε τη μέθοδο ακρόασης.

εισαγωγή ομιλίαςrecognition ως sr r = sr.Recognizer () με sr.Microphone () ως πηγή: audio = sr.listen (πηγή)

Πώς να εγκαταστήσετε το Pyaudio στο Python;

Για να εγκαταστήσετε το Pyaudio στο python, εκτελέστε την ακόλουθη εντολή στο τερματικό ή εάν χρησιμοποιείτε το pycharm, προσθέστε το πακέτο από τον διερμηνέα έργου στις ρυθμίσεις.

Χρήση θήκης

Θα κάνουμε ένα πρόγραμμα χρησιμοποιώντας τη μονάδα αναγνώρισης ομιλίας στο python για να αναγνωρίσουμε την ομιλία και να εκτελέσουμε τα εξής:

μετατρέψτε την ομιλία σε κείμενο
ανοίξτε μια διεύθυνση URL χρησιμοποιώντας λειτουργική μονάδα webbrowser
περάστε ένα ερώτημα χρησιμοποιώντας αναγνώριση ομιλίας για να πραγματοποιήσετε αναζήτηση στο url

Ακολουθεί το πρόγραμμα για την παραπάνω δήλωση προβλήματος:

Σε ποιες περιπτώσεις χρησιμοποιείται ο προγραμματισμός sas

εισαγωγή ομιλίας_αναγνώριση ως sr εισαγωγή webbrowser ως wb r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () with sr.Microphone () as source: print ('[search edureka: search youtube]') print ('speak now') audio = r3.listen (source) if 'edureka' στο r2.recognize_google (audio): r2 = sr.Recognizer () url = 'https://www.edureka.co/' με sr .Microphone () ως πηγή: print ('search your query') audio = r2.listen (source) try: get = r2.recognize_google (audio) print (get) wb.get (). Open_new (url + get) εκτός sr.UnknownValueError: print ('error') εκτός sr.RequestError as e: print ('fail'.format (e)) if' video 'in r1.recognize_google (audio): r1 = sr.Recognizer () url =' https://www.youtube.com/results?search_query= 'with sr.Microphone () as source: print (' search for a video ') audio = r2.listen (source) try: get = r1.recognize_google (ήχος ] print (get) wb.get (). open_new (url + get) εκτός sr.UnknownValueError: print ('δεν μπορούσε να καταλάβει') εκτός από sr.RequestError as e: print (απέτυχε η λήψη αποτελεσμάτων'.format (e) )

Θα λάβετε την έξοδο όπως φαίνεται στην εικόνα. Εάν πείτε edureka, θα σας ζητήσει να πείτε το ερώτημα που θέλετε να αναζητήσετε στη διεύθυνση urureka που έχουμε γράψει στη μεταβλητή url. Εάν πείτε python θα ανοίξετε την ακόλουθη ιστοσελίδα στο πρόγραμμα περιήγησης.

Σε αυτό το ιστολόγιο, έχουμε συζητήσει πώς μπορούμε να χρησιμοποιήσουμε την αναγνώριση ομιλίας στο python για να μεταφράσουμε την ομιλία σε κείμενο χρησιμοποιώντας το πακέτο αναγνώρισης ομιλίας. έχει γίνει η ανάγκη της ώρας για έννοιες όπως η αναγνώριση ομιλίας ή η απόρριψη αντικειμένων, με το που παρέχουν αδιανόητες δυνατότητες σε συστήματα αναγνώρισης ομιλίας όπου μπορούμε να εκπαιδεύσουμε και να δοκιμάσουμε τεράστια δεδομένα ομιλίας για τη δημιουργία ενός συστήματος. Μπορείτε να εγγραφείτε στο για βαθιά νευρωνικά δίκτυα για να κυριαρχήσετε τις δεξιότητές σας και να ξεκινήσετε τη μάθηση σας.

έχετε απορίες; τα αναφέρετε στα σχόλια, θα επικοινωνήσουμε μαζί σας.

Αναγνώριση ομιλίας Python: Πώς να μεταφράσετε το κείμενο σε κείμενο;

Πώς λειτουργεί η Αναγνώριση ομιλίας;

Στυλ ομιλίας

περιβάλλον

Χαρακτηριστικά ηχείου

Γλωσσικοί περιορισμοί

Πώς να εγκαταστήσετε το SpeechRecognition στο Python;

Λήψη εισόδου από μικρόφωνα

Πώς να εγκαταστήσετε το Pyaudio στο Python;

Χρήση θήκης

Κατηγορίες

Popular Articles

Πώς να εφαρμόσετε υπερφόρτωση χειριστή στο c ++;

Ερωτήσεις συνέντευξης για την Επιστήμη δεδομένων Google: Το μόνο που πρέπει να ξέρετε για να το σπάσετε

Πώς να εφαρμόσετε τα επιχειρήματα γραμμής εντολών στην Java

Πώς να δημιουργήσετε ένα πλαίσιο ελέγχου σε HTML;

Εφαρμογές Blockchain που αλλάζουν τον κόσμο

Ψηφιακή στρατηγική μάρκετινγκ: Πώς να σχεδιάσετε τη δική σας επιχείρηση;

Μεγάλα εργαλεία ανάλυσης δεδομένων με τα βασικά χαρακτηριστικά τους

Πώς να εφαρμόσετε το χειρισμό συμβάντων στην Java;

ΔΗΜΙΟΥΡΓΙΑ ΠΙΝΑΚΑ σε SQL - Όλα όσα πρέπει να γνωρίζετε για τη δημιουργία πινάκων σε SQL

Κορυφαία εργαλεία ψηφιακού μάρκετινγκ που πρέπει να γνωρίζετε

QTP vs Selenium: Γνωρίστε τις διαφορές μεταξύ των γίγαντων δοκιμής αυτοματισμού

Πώς να εφαρμόσετε μια ετικέτα αλλαγής γραμμής σε HTML