מהי בעצם זיהוי דיבור?

זיהוי דיבור

מה שאתה צריך לדעת על זיהוי דיבור

כאשר אנו מדברים על זיהוי דיבור, בדרך כלל אנו מתכוונים לתוכנה שיש לה יכולת לזהות את המילה המדוברת ולרשום אותה בתוכנית כך שבסופו של דבר יש לך את כל מה שנאמר בפורמט כתוב. זה מכונה לעתים קרובות "דיבור לטקסט". בתחילת הדרך היו לתוכנות אפשרויות מוגבלות מאוד, כך שתוכל להמיר מספר מוגבל של ביטויים בלבד. עם הזמן הטכנולוגיה שעומדת מאחורי תוכנת זיהוי דיבור התפתחה רבות והיא כיום הרבה יותר מתוחכמת, כך שתוכל לזהות שפות שונות ואפילו מבטאים שונים. אבל כמובן, יש עדיין עבודה שצריך לעשות בתחום זה.

חשוב גם לשים לב שזיהוי דיבור אינו זהה לזיהוי קולי, למרות שלעתים אנשים משתמשים בשני המונחים לאותו הדבר. זיהוי קולי משמש לזיהוי האדם המדבר ולא לציין את הנאמר.

היסטוריה קצרה של זיהוי דיבור וטכנולוגיה נלווית

במאמר זה נסביר בקצרה את ההיסטוריה והטכנולוגיה שעומדים מאחורי עליית זיהוי הדיבור.

מאז שחר העידן הדיגיטלי, לאנשים היה דחף להיות מסוגל איכשהו לתקשר עם מכונות. לאחר שהומצא המחשב הדיגיטלי הראשון, מדענים ומהנדסים רבים ניסו בדרכים שונות ליישם איכשהו זיהוי דיבור בתהליך זה. שנה מכרעת בתהליך זה הייתה 1962, כאשר IBM חשפה את Shoebox, מכונת זיהוי דיבור בסיסית שהצליחה לבצע חישובים פשוטים במתמטיקה. אם המשתמש במחשב פרוטו זה דיבר לתוך מיקרופון, מכונה זו הצליחה לזהות עד שש מילות בקרה כמו "פלוס" או "מינוס". עם הזמן הטכנולוגיה שמאחורי זה התפתחה וכיום זה תכונה נפוצה מאוד לקיים אינטראקציה עם מחשבים באמצעות קול. ישנם מנועי זיהוי דיבור מפורסמים רבים כמו סירי או אלכסה. חשוב לציין שהתקנים מונעי קול אלה תלויים בבינה מלאכותית (AI) ולמידת מכונה.

כאשר מוזכרים בינה מלאכותית (AI) זה אולי נשמע כמו משהו מסרט מדע בדיוני, אבל האמת היא שבימינו היום AI משחק תפקיד גדול בעולמנו. למעשה, AI כבר קיים מאוד בחיי היומיום שלנו, מכיוון שתוכניות ואפליקציות רבות כבר משתמשות בו. אבל זה היה מדע בדיוני בתחילת המאה ה -20, כשהמונח הופיע. בסוף 1950 המושגים של AI התבלטו יותר והיו מוקד העניין של מדענים ופילוסופים רבים. באותה תקופה, מתמטיקאי בריטי שאפתני מאוד בשם אלן טיורינג העלה הצעה שמכונות יכולות לפתור בעיות ולקבל החלטות לבד, על סמך קלט מידע זמין. הבעיה הייתה שלמחשבים עדיין לא הייתה אפשרות לשנן נתונים אלה, המהווים צעד מכריע לפיתוח בינה מלאכותית. כל מה שהם יכלו לעשות אז היה לבצע פקודות פשוטות.

שם חשוב נוסף בהתפתחות AI הוא ג'ון מקארתי, שטבע לראשונה את המונח "בינה מלאכותית" ממש. מקארתי הצהיר כי AI הוא: "המדע וההנדסה של ייצור מכונות חכמות". הגדרה זו התגלתה בכנס מכונן בדרטמות קולג 'בשנת 1956. מכאן ואילך AI התחיל להתפתח בקצב תזזיתי.

כיום, בינה מלאכותית בצורתה השונה קיימת בכל מקום. זה גדל לאימוץ המוני, בעיקר בגלל עלייה בהיקף הנתונים הכולל שמוחלף מדי יום ברחבי העולם. משתמשים בו באלגוריתמים מתקדמים והוא הוליד שיפורים בכוח האחסון והמחשוב. AI משמש למטרות רבות, למשל תרגום, תמלול, דיבור, זיהוי פנים ואובייקטים, ניתוח תמונות רפואיות, עיבוד של שפות טבעיות, פילטרים שונים של רשתות חברתיות וכן הלאה. זוכרים את משחק השחמט בין המאסטר הגדול גארי קספרוב לבין השחמט AI כחול עמוק?

ללא כותרת 7 1

לימוד מכונה הוא יישום חשוב מאוד נוסף של בינה מלאכותית. בקיצור, הכוונה היא לכל מערכות שיש בהן יכולת ללמוד ולהשתפר ממאגר הניסיון שלהן. זה עובד דרך הכרה של דפוסים. כדי שהמערכת תעשה זאת היא צריכה להיות מסוגלת להיות מאומנת. האלגוריתם של המערכת מקבל קלט של כמויות גדולות של נתונים, ובשלב מסוים הוא מסוגל לזהות דפוסים מאותם נתונים. המטרה הסופית של תהליך זה היא לאפשר למערכות מחשוב אלו ללמוד באופן עצמאי, ללא צורך בהתערבות או סיוע אנושי כלשהו.

דבר נוסף שחשוב מאוד להזכיר לצד למידת מכונה הוא למידה עמוקה. אחד הכלים החשובים ביותר בתהליך הלמידה העמוקה הם מה שמכונה רשתות עצביות מלאכותיות. הם אלגוריתמים מתקדמים, הדומים למבנה ולתפקוד של המוח האנושי. עם זאת, הם סטטיים וסמליים, בניגוד למוח ביולוגי שהוא פלסטי ומבוסס יותר אנלוגי. בקיצור, למידה עמוקה זו היא דרך מיוחדת מאוד של למידת מכונה, המבוססת בעיקר על רשתות עצביות מלאכותיות. מטרת הלמידה העמוקה היא לשכפל מקרוב תהליכי למידה אנושיים. טכנולוגיית למידה עמוקה מאוד שימושית והיא ממלאת תפקיד חשוב במכשירים שונים הנשלטים על ידי הקול - טאבלטים, טלוויזיות, סמארטפונים, מקררים וכו 'רשתות עצביות מלאכותיות משמשות גם כמעין מערכת סינון שמטרתה לחזות את הפריטים. שהמשתמש יקנה בעתיד. נעשה שימוש נרחב גם בטכנולוגיית למידה עמוקה בתחום הרפואי. זה מאוד חשוב לחוקרי סרטן, כי זה עוזר בזיהוי תאים סרטניים באופן אוטומטי.

עכשיו נחזור לזיהוי דיבור. טכנולוגיה זו, כפי שהזכרנו כבר, נועדה לזהות מילים וביטויים שונים של השפה המדוברת. לאחר מכן הוא ממיר אותם לפורמט שהמכונה מסוגלת לקרוא. תוכניות בסיסיות מזהות רק מספר קטן של ביטויי מפתח, אך כמה תוכנות לזיהוי דיבור מתקדמות יותר מסוגלות לפענח כל מיני דיבורים טבעיים. טכנולוגיית זיהוי דיבור נוחה ברוב המקרים, אך לעיתים היא נתקלת בבעיות כאשר איכות ההקלטה אינה טובה דיה או כשיש רעשי רקע המקשים על הבנת הרמקול כראוי. זה עשוי גם להיתקל בבעיות מסוימות כאשר לדובר יש מבטא חזק מאוד או ניב. זיהוי הדיבור מתפתח כל הזמן, אך הוא עדיין לא מושלם לחלוטין. לא הכל עוסק במילים, מכונות עדיין אינן מסוגלות להרבה דברים שבני אדם יכולים לעשות, למשל הן אינן מסוגלות לפענח את שפת הגוף או את גוון קולו של מישהו. עם זאת, ככל שמפענחים יותר נתונים על ידי אלגוריתמים מתקדמים אלה, נראה כי חלק מהאתגרים הללו יורדים בקושי. מי יודע מה יביא העתיד? קשה לחזות לאן יסתיים זיהוי הדיבור. לדוגמא, גוגל כבר מצליחה מאוד ליישם תוכנות לזיהוי דיבור במנועי גוגל טרנסלייט, והמכונה כל הזמן לומדת ומתפתחת. אולי יום אחד הם יחליפו לחלוטין מתרגמים אנושיים. או אולי לא, מצבי דיבור יומיומיים מורכבים מדי עבור כל סוג של מכונה שאינה מסוגלת לקרוא את עומק נפש האדם.

מתי להשתמש בזיהוי דיבור?

כיום כמעט לכולם יש טלפון חכם או טאבלט. זיהוי דיבור הוא תכונה נפוצה במכשירים אלה. הם משמשים להמרת נאום של אדם לפעולה. אם אתה רוצה להתקשר לסבתא שלך, מספיק שתפקד "להתקשר לסבתא" והסמארטפון שלך כבר מחייג למספר מבלי שתצטרך להקליד דרך רשימות אנשי הקשר שלך. זו זיהוי דיבור. דוגמא טובה נוספת לכך, היא Alexa או Siri. יש להם גם תכונה זו מחוברת במערכת שלהם. גוגל נותנת לך גם את האפשרות לחפש כל דבר בקול, מבלי להקליד דבר.

ללא שם 8 1

אולי אתה סקרן עכשיו איך כל זה עובד. ובכן, כדי שזה יעבוד, חייבים לבנות בתוכנה חיישנים כמו מיקרופונים כך שגלי הקול של המילים המדוברות יזוהו, ינותחו ויומרו לפורמט דיגיטלי. יש להשוות את המידע הדיגיטלי עם מידע אחר המאוחסן במאגר כלשהו של מילים וביטויים. כשיש התאמה התוכנה יכולה לזהות את הפקודה ולפעול בהתאם.

דבר נוסף שצריך להזכיר בשלב זה הוא מה שמכונה WER (שיעור שגיאות מילים). זוהי נוסחה בה אתה מחלק את מספר השגיאה עם סך המילים. לכן, אם לומר זאת במילים פשוטות, זה קשור הרבה לדיוק. המטרה היא כמובן ש- WER נמוך, מכיוון שמשמעות הדבר היא כי תעתיק המילה המדוברת מדויק יותר.

זיהוי דיבור מבוקש כעת כתמיד. אם אתה צריך להמיר גם את המילה המדוברת, נניח קובץ שמע מוקלט לטקסט, אתה יכול לפנות אל Gglot. אנו מספקים שירותי תמלול המציעים תמלולים מדויקים במחיר הוגן. לכן, אל תהססו ליצור קשר דרך האתר הידידותי למשתמש שלנו.