תפקיד הבינה המלאכותית ולמידת מכונה בזיהוי דיבור

תפקיד הבינה המלאכותית ולמידת מכונה בזיהוי דיבור

במשך זמן רב אנשים רצו להיות מסוגלים לדבר עם מכונות. מאז שהתחילו לבנות מחשבים, מדענים ומהנדסים ניסו לשלב בתהליך זיהוי דיבור. בשנת 1962 הציגה IBM את Shoebox, מכונת זיהוי דיבור שיכולה לעשות חישובים מתמטיים פשוטים. מכשיר חדשני זה זיהה והגיב ל -16 מילים מדוברות, כולל עשר הספרות מ- "0" עד "9." כאשר נאמרו מספר מילות פקודה כמו "פלוס", "מינוס" ו"סך הכל ", הורה Shoebox למכונת הוספה לחשב ולהדפיס תשובות לבעיות חשבון פשוטות. קופסת הנעל הופעלה על ידי דיבור למיקרופון, שהמיר צלילי קול לדחפים חשמליים. מעגל מדידה סיווג דחפים אלו על פי סוגים שונים של צלילים והפעיל את מכונת ההוספה המחוברת באמצעות מערכת ממסר.

עם הזמן התפתחה טכנולוגיה זו וכיום רבים מאיתנו מתקשרים באופן שוטף עם מחשבים באמצעות קול. העוזרות הקוליות הפופולריות ביותר כיום הן Alexa של אמזון, סירי של אפל, Google Assistant ו- Cortana של מיקרוסופט. עוזרים אלה יכולים לבצע משימות או שירותים לאדם על בסיס פקודות או שאלות. הם מסוגלים לפרש דיבור אנושי ולהגיב באמצעות קולות מסונתזים. משתמשים יכולים לשאול את העוזרים שלהם שאלות, לשלוט במכשירי אוטומציה ביתית ובהשמעת מדיה באמצעות קול, ולנהל משימות בסיסיות אחרות כגון דוא"ל, רשימות מטלות ו לוחות שנה עם פקודות מילוליות. ככל שאנו משתמשים במכשירים מונעי קול אלה ככל שנהיה יותר תלוי בבינה מלאכותית (AI) ולמידת מכונה.

בינה מלאכותית (AI)

1

כשאומרים בינה מלאכותית (AI), אנשים רבים עשויים לחשוב שאתה מדבר על מדע בדיוני, למרות ש- AI מוטמע מאוד בחיי היומיום שלנו. למעשה זה היה כבר עשרות שנים. אבל האמת היא שאכן מדע בדיוני הוא שבראשית המאה העשרים הכיר את הציבור עם רובוטים אינטליגנטיים דמויי אנוש באופן מלאכותי. בשנות ה 50 המושגים של AI הגיעו יותר ויותר במוקד התעניינותם של מדענים ופילוסופים. באותה תקופה הצעיר המתמטיקאי הבריטי אלן טיורינג הציע כי אין סיבה שמכונות אינן יכולות (בדיוק כמו בני אדם) לפתור בעיות ולקבל החלטות על סמך מידע זמין. אבל באותה תקופה, למחשבים לא הייתה אפשרות לשנן את המפתח למודיעין. כל מה שהם עשו היה לבצע פקודות. אך עדיין, אלן טיורינג היה זה שקבע את המטרה הבסיסית וחזון הבינה המלאכותית.

מוכר נרחב כאביו של AI הוא ג'ון מקארתי שטבע את המונח בינה מלאכותית . עבורו AI היה: "המדע וההנדסה של ייצור מכונות חכמות". הגדרה זו הוצגה בכנס במכללת דרטמות 'בשנת 1956 והיא הצביעה על תחילתו של מחקר AI. מכאן והלאה AI פרח.

בעולם המודרני הבינה המלאכותית נמצאת בכל מקום. זה הפך פופולרי יותר הודות להגדלת נפחי הנתונים, אלגוריתמים מתקדמים ושיפורים בכוח המחשוב ובאחסון. בעיקר יישום AI מחובר למשימות אינטלקטואליות. אנו משתמשים ב- AI לתרגום, זיהוי אובייקטים, פנים ודיבור, איתור נושאים, ניתוח תמונות רפואיות, עיבוד שפה טבעית, סינון רשתות חברתיות, משחק שחמט וכו '.

למידת מכונה

למידת מכונה היא יישום של בינה מלאכותית והיא מתייחסת למערכות שיש להן יכולת להשתפר מהניסיון שלהן. הדבר החשוב ביותר כאן הוא שהמערכת צריכה לדעת לזהות דפוסים. כדי להיות מסוגל לעשות את זה צריך לאמן את המערכת: האלגוריתם מזין כמויות גדולות של נתונים ולכן בשלב מסוים הוא מסוגל לזהות דפוסים. המטרה היא לאפשר למחשבים ללמוד באופן אוטומטי ללא התערבות אנושית או סיוע.

כשמדברים על למידת מכונה, חשוב להזכיר למידה עמוקה. נתחיל ואומר שאחד הכלים העיקריים המשמשים בלימוד עמוק הם רשתות עצביות מלאכותיות. אלה אלגוריתמים אשר מעוצבים בהשראת המבנה והתפקוד של המוח, למרות שהם נוטים להיות סטטיים וסמליים, ולא פלסטיים ואנלוגיים כמו המוח הביולוגי. לכן, למידה עמוקה היא צורה מיוחדת של למידת מכונה המבוססת על רשת עצבית מלאכותית שמטרתה לשכפל את האופן שבו בני האדם לומדים וזה משמש כלי נהדר למצוא דפוסים רבים מדי מכדי שלמתכנת ילמד את המכונה. בשנתיים האחרונות דובר רבות על מכוניות ללא נהג וכיצד הן יכולות לשנות את חיינו. הטכנולוגיה של למידה עמוקה היא המפתח כאן מכיוון שהיא מפחיתה תאונות בכך שהיא מאפשרת למכונית להבחין בין הולך רגל לבין ברז כיבוי או לזהות נורה אדומה. טכנולוגיית למידה עמוקה ממלאת גם את התפקיד העיקרי בשליטה קולית במכשירים כמו טאבלטים, טלפונים, מקררים, טלוויזיות וכו '. חברות מסחר אלקטרוני משתמשות לרוב ברשתות עצביות מלאכותיות כמערכת סינון המנסה לחזות ולהראות את הפריטים שמשתמש היה רוצה להעביר. לִקְנוֹת. טכנולוגיית למידה עמוקה משמשת גם בתחום הרפואי. זה עוזר לחוקרי סרטן לאתר באופן אוטומטי תאים סרטניים ובכך מייצג התקדמות אדירה בטיפול בסרטן.

זיהוי דיבור

טכנולוגיית זיהוי דיבור משמשת לזיהוי מילים וביטויים מהווים את השפה המדוברת ולהמיר אותם לפורמט קריא למכונה. בעוד שתוכניות מסוימות יכולות לזהות רק מספר מוגבל של ביטויים, חלק מהתוכניות המתוחכמות יותר לזיהוי דיבור יכולות לפענח דיבור טבעי.

האם יש מכשולים להתגבר עליהם?

אמנם הטכנולוגיה לזיהוי דיבור נוחה לא תמיד עוברת בצורה חלקה ועדיין יש לה כמה בעיות לעבוד, מכיוון שהיא מפותחת ברציפות. בעיות שעלולות להיווצר יכולות לכלול בין היתר את הדברים הבאים: איכות ההקלטה עשויה להיות בלתי מספקת, יתכנו רעשים ברקע המקשים על הבנת הדובר, וגם הדובר עשוי להיות בעל מבטא חזק או ניב חזק (האם האם שמעתי פעם את הניב של ג'ורדי?) וכו '.

זיהוי הדיבור התפתח די הרבה, אך הוא עדיין רחוק מלהיות מושלם. לא הכל נוגע רק למילים, מכונה עדיין לא יכולה לעשות דברים רבים שבני אדם יכולים: הם אינם יכולים לקרוא שפת גוף או לזהות את הטון הסרקסטי בקולו של מישהו. אנשים לעיתים קרובות לא מבטאים כל מילה בדרך הראויה והם נוטים לקצר כמה מילים. לדוגמא, כאשר מדברים מהר ובלתי פורמלי, דוברי אנגלית שפת אם מבטאים לעתים קרובות "הולך" כמו "הולך". כל האמור לעיל גורם למכשולים למכונות שעליהן הם מנסים להתגבר, אך עדיין ישנה דרך ארוכה לפניהם. חשוב להדגיש שככל שיותר ויותר נתונים מוזנים לאלגוריתמים הספציפיים האלה; נראה שהאתגרים פוחתים. נראה שעתיד זיהוי הדיבור האוטומטי הוא בהיר.

ממשקי משתמש המופעלים באמצעות קול הופכים זמינים יותר ויותר פופולריים במשקי בית. זה עשוי אפילו להפוך לפלטפורמה הבאה בטכנולוגיה.

Gglot מציעה זיהוי דיבור אוטומטי בצורה של שירותי תמלול אוטומטיים - אנו ממירים נאומים לטקסט. השירות שלנו פשוט לשימוש, זה לא יעלה לך הרבה וזה יתבצע במהירות!