Ο ρόλος της τεχνητής νοημοσύνης και της μηχανικής μάθησης στην αναγνώριση ομιλίας

Ο ρόλος της Τεχνητής Νοημοσύνης και της Μηχανικής Μάθησης στην Αναγνώριση Ομιλίας

Για πολύ καιρό, οι άνθρωποι ήθελαν να μπορούν να μιλάνε με μηχανές. Από τότε που άρχισαν να κατασκευάζουν υπολογιστές, επιστήμονες και μηχανικοί προσπάθησαν να ενσωματώσουν την αναγνώριση ομιλίας στη διαδικασία. Το 1962, η IBM παρουσίασε το Shoebox, μια μηχανή αναγνώρισης ομιλίας που μπορούσε να κάνει απλούς μαθηματικούς υπολογισμούς. Αυτή η καινοτόμος συσκευή αναγνώριζε και ανταποκρίθηκε σε 16 προφορικές λέξεις, συμπεριλαμβανομένων των δέκα ψηφίων από το "0" έως το "9". Όταν εκφωνούνταν ένας αριθμός και λέξεις εντολών όπως «συν», «μείον» και «σύνολο», η Shoebox έδωσε εντολή σε μια μηχανή προσθήκης να υπολογίζει και να εκτυπώνει απαντήσεις σε απλά αριθμητικά προβλήματα. Το Shoebox λειτουργούσε με ομιλία σε μικρόφωνο, το οποίο μετέτρεπε τους φωνητικούς ήχους σε ηλεκτρικούς παλμούς. Ένα κύκλωμα μέτρησης ταξινόμησε αυτούς τους παλμούς σύμφωνα με διάφορους τύπους ήχων και ενεργοποίησε τη συνδεδεμένη μηχανή προσθήκης μέσω ενός συστήματος ρελέ.

Με τον καιρό, αυτή η τεχνολογία αναπτύχθηκε και σήμερα πολλοί από εμάς αλληλεπιδρούμε τακτικά με τους υπολογιστές μέσω φωνής. Οι πιο δημοφιλείς βοηθοί φωνής σήμερα είναι οι Alexa της Amazon, Siri της Apple, Google Assistant και Cortana της Microsoft. Αυτοί οι βοηθοί μπορούν να εκτελούν εργασίες ή υπηρεσίες για ένα άτομο με βάση εντολές ή ερωτήσεις. Είναι σε θέση να ερμηνεύουν την ανθρώπινη ομιλία και να ανταποκρίνονται μέσω συνθετικών φωνών. Οι χρήστες μπορούν να κάνουν ερωτήσεις στους βοηθούς τους, να ελέγχουν τις συσκευές οικιακού αυτοματισμού και την αναπαραγωγή πολυμέσων μέσω φωνής και να διαχειρίζονται άλλες βασικές εργασίες, όπως email, λίστες υποχρεώσεων και ημερολόγια με προφορικές εντολές. Όσο περισσότερο χρησιμοποιούμε αυτές τις συσκευές που βασίζονται στη φωνή, τόσο περισσότερο γινόμαστε εξαρτάται από την τεχνητή νοημοσύνη (AI) και τη μηχανική μάθηση.

Τεχνητή νοημοσύνη (AI)

1

Όταν λέτε τεχνητή νοημοσύνη (AI), πολλοί άνθρωποι μπορεί να πιστεύουν ότι μιλάτε για επιστημονική φαντασία, παρόλο που η τεχνητή νοημοσύνη είναι πολύ ενσωματωμένη στην καθημερινότητά μας. Στην πραγματικότητα, είναι εδώ και δεκαετίες. Αλλά η αλήθεια είναι ότι ήταν πράγματι επιστημονική φαντασία που στις αρχές του 20ου αιώνα εξοικείωσε το κοινό με τεχνητά ευφυή ρομπότ που μοιάζουν με άνθρωπο. Στη δεκαετία του '50 οι έννοιες της τεχνητής νοημοσύνης ήρθαν όλο και περισσότερο στο επίκεντρο του ενδιαφέροντος των επιστημόνων και των φιλοσόφων. Εκείνη την εποχή, ο νεαρός Βρετανός μαθηματικός Άλαν Τούρινγκ πρότεινε ότι δεν υπάρχει λόγος για τον οποίο οι μηχανές δεν μπορούσαν (όπως και οι άνθρωποι) να λύσουν προβλήματα και να λάβουν αποφάσεις με βάση τις διαθέσιμες πληροφορίες. Αλλά εκείνη την εποχή, οι υπολογιστές δεν είχαν τη δυνατότητα να απομνημονεύουν κάτι που είναι το κλειδί για την ευφυΐα. Το μόνο που έκαναν ήταν να εκτελούν εντολές. Ωστόσο, ήταν ο Άλαν Τούρινγκ που καθιέρωσε τον θεμελιώδη στόχο και το όραμα της τεχνητής νοημοσύνης.

Ευρέως αναγνωρισμένος ως ο πατέρας της τεχνητής νοημοσύνης είναι ο John McCarthy που επινόησε τον όρο τεχνητή νοημοσύνη . Για αυτόν το AI ήταν: «η επιστήμη και η μηχανική της κατασκευής ευφυών μηχανών». Αυτός ο ορισμός παρουσιάστηκε σε ένα συνέδριο στο Dartmouth College το 1956 και έδειξε την έναρξη της έρευνας για την τεχνητή νοημοσύνη. Από τότε η τεχνητή νοημοσύνη άκμασε.

Στον σύγχρονο κόσμο η τεχνητή νοημοσύνη είναι πανταχού παρούσα. Έχει γίνει πιο δημοφιλές χάρη στον αυξημένο όγκο δεδομένων, τους προηγμένους αλγόριθμους και τις βελτιώσεις στην υπολογιστική ισχύ και την αποθήκευση. Κυρίως η εφαρμογή AI συνδέεται με πνευματικές εργασίες. Χρησιμοποιούμε AI για μετάφραση, αναγνώριση αντικειμένων, προσώπων και ομιλίας, ανίχνευση θεμάτων, ανάλυση ιατρικών εικόνων, επεξεργασία φυσικής γλώσσας, φιλτράρισμα κοινωνικών δικτύων, παιχνίδι σκακιού κ.λπ.

Μηχανική μάθηση

Η μηχανική μάθηση είναι μια εφαρμογή της τεχνητής νοημοσύνης και αναφέρεται σε συστήματα που έχουν την ικανότητα να βελτιώνονται από τη δική τους εμπειρία. Το πιο σημαντικό πράγμα εδώ είναι ότι το σύστημα πρέπει να ξέρει πώς να αναγνωρίζει μοτίβα. Για να είναι σε θέση να το κάνει αυτό, το σύστημα πρέπει να εκπαιδευτεί: ο αλγόριθμος τροφοδοτεί μεγάλες ποσότητες δεδομένων, ώστε σε κάποιο σημείο να είναι σε θέση να αναγνωρίσει μοτίβα. Ο στόχος είναι να επιτραπεί στους υπολογιστές να μαθαίνουν αυτόματα χωρίς ανθρώπινη παρέμβαση ή βοήθεια.

Όταν μιλάμε για μηχανική μάθηση, είναι σημαντικό να αναφέρουμε τη βαθιά μάθηση. Ας ξεκινήσουμε λέγοντας ότι ένα από τα κύρια εργαλεία που χρησιμοποιούνται στη βαθιά μάθηση είναι τα τεχνητά νευρωνικά δίκτυα. Αυτοί είναι αλγόριθμοι που εμπνέονται από τη δομή και τη λειτουργία του εγκεφάλου, παρόλο που τείνουν να είναι στατικοί και συμβολικοί, και όχι πλαστικοί και αναλογικοί όπως ο βιολογικός εγκέφαλος. Έτσι, η βαθιά μάθηση είναι μια εξειδικευμένη μορφή μηχανικής μάθησης που βασίζεται σε τεχνητό νευρωνικό δίκτυο, στόχος του οποίου είναι να αναπαράγει τον τρόπο με τον οποίο μαθαίνουν οι άνθρωποι και αυτό χρησιμεύει ως ένα εξαιρετικό εργαλείο για την εύρεση μοτίβων που είναι πάρα πολλά για να διδάξει ένας προγραμματιστής τη μηχανή. Τα τελευταία δύο χρόνια έχει γίνει πολύς λόγος για τα αυτοκίνητα χωρίς οδηγό και πώς θα μπορούσαν να αλλάξουν τη ζωή μας. Η τεχνολογία βαθιάς εκμάθησης είναι το κλειδί εδώ, γιατί μειώνει τα ατυχήματα επιτρέποντας στο αυτοκίνητο να διακρίνει έναν πεζό από έναν πυροσβεστικό κρουνό ή να αναγνωρίσει ένα κόκκινο φως. Η τεχνολογία Deep Learning παίζει επίσης τον κύριο ρόλο στον φωνητικό έλεγχο σε συσκευές όπως tablet, τηλέφωνα, ψυγεία, τηλεοράσεις κ.λπ. Οι εταιρείες ηλεκτρονικού εμπορίου συχνά χρησιμοποιούν τεχνητά νευρωνικά δίκτυα ως σύστημα φιλτραρίσματος που προσπαθεί να προβλέψει και να δείξει τα στοιχεία που θα ήθελε ένας χρήστης αγορά. Η τεχνολογία Deep Learning χρησιμοποιείται επίσης στον ιατρικό τομέα. Βοηθά τους ερευνητές του καρκίνου να ανιχνεύουν αυτόματα τα καρκινικά κύτταρα και έτσι αντιπροσωπεύει μια τεράστια πρόοδο στη θεραπεία του καρκίνου.

Αναγνώρισης ομιλίας

Η τεχνολογία αναγνώρισης ομιλίας χρησιμεύει για τον εντοπισμό λέξεων και φράσεων από την προφορική γλώσσα και τη μετατροπή τους σε μια αναγνώσιμη μορφή για το μηχάνημα. Ενώ ορισμένα προγράμματα μπορούν να αναγνωρίσουν μόνο έναν περιορισμένο αριθμό φράσεων, ορισμένα πιο εξελιγμένα προγράμματα αναγνώρισης ομιλίας μπορούν να αποκρυπτογραφήσουν τη φυσική ομιλία.

Υπάρχουν εμπόδια που πρέπει να ξεπεραστούν;

Αν και είναι βολική, η τεχνολογία αναγνώρισης ομιλίας δεν εξελίσσεται πάντα ομαλά και έχει ακόμα μερικά προβλήματα να επιλυθούν, καθώς αναπτύσσεται συνεχώς. Τα προβλήματα που μπορεί να προκύψουν μπορεί να περιλαμβάνουν μεταξύ άλλων τα εξής: η ποιότητα της εγγραφής μπορεί να είναι ανεπαρκής, μπορεί να υπάρχουν θόρυβοι στο παρασκήνιο που δυσκολεύουν την κατανόηση του ομιλητή, επίσης ο ομιλητής μπορεί να έχει πολύ έντονη προφορά ή διάλεκτο (μήπως ακούσατε ποτέ τη διάλεκτο Geordie;), κ.λπ.

Η αναγνώριση ομιλίας έχει αναπτυχθεί αρκετά, αλλά απέχει πολύ από το να είναι τέλεια. Δεν είναι όλα μόνο με τις λέξεις, η μηχανή εξακολουθεί να μην μπορεί να κάνει πολλά πράγματα που μπορούν οι άνθρωποι: δεν μπορούν να διαβάσουν τη γλώσσα του σώματος ή να αναγνωρίσουν τον σαρκαστικό τόνο στη φωνή κάποιου. Οι άνθρωποι συχνά δεν προφέρουν κάθε λέξη με τον σωστό τρόπο και τείνουν να συντομεύουν κάποιες λέξεις. Για παράδειγμα, όταν μιλούν γρήγορα και ανεπίσημα, οι γηγενείς Αγγλικοί προφέρουν συχνά «going to» σαν «gonna». Όλα τα παραπάνω, προκαλούν εμπόδια στις μηχανές που προσπαθούν να ξεπεράσουν, αλλά υπάρχει ακόμα πολύς δρόμος μπροστά τους. Είναι σημαντικό να τονιστεί ότι καθώς όλο και περισσότερα δεδομένα τροφοδοτούνται σε αυτούς τους συγκεκριμένους αλγόριθμους. οι προκλήσεις φαίνεται να μειώνονται. Το μέλλον της αυτοματοποιημένης αναγνώρισης ομιλίας φαίνεται να είναι λαμπρό.

Οι διεπαφές χρήστη που τροφοδοτούνται με φωνή γίνονται όλο και πιο διαθέσιμες και δημοφιλείς στα νοικοκυριά. Μπορεί ακόμη και να γίνει η επόμενη πλατφόρμα στην τεχνολογία.

Η Gglot προσφέρει αυτοματοποιημένη αναγνώριση ομιλίας με τη μορφή αυτοματοποιημένων υπηρεσιών μεταγραφής – μετατρέπουμε τις ομιλίες σε κείμενο. Η υπηρεσία μας είναι απλή στη χρήση, δεν θα σας κοστίσει πολύ και θα γίνει γρήγορα!