نقش هوش مصنوعی و یادگیری ماشینی در تشخیص گفتار

نقش هوش مصنوعی و یادگیری ماشین در تشخیص گفتار

برای مدت طولانی، مردم می خواستند بتوانند با ماشین ها صحبت کنند. از زمانی که شروع به ساخت کامپیوتر کردند، دانشمندان و مهندسان تلاش کردند تا تشخیص گفتار را در این فرآیند بگنجانند. در سال 1962، آی‌بی‌ام Shoebox را معرفی کرد، یک ماشین تشخیص گفتار که می‌توانست محاسبات ساده ریاضی را انجام دهد. این دستگاه نوآورانه 16 کلمه گفتاری شامل ده رقم از "0" تا "9" را تشخیص داده و به آنها پاسخ می دهد. هنگامی که یک عدد و کلمات دستوری مانند "بعلاوه"، "منهای" و "کل" گفته می شد، Shoebox به یک ماشین جمع کننده دستور داد تا پاسخ های مسائل ساده حسابی را محاسبه و چاپ کند. Shoebox با صحبت کردن در یک میکروفون کار می کرد که صداهای صوتی را به تکانه های الکتریکی تبدیل می کرد. یک مدار اندازه‌گیری این تکانه‌ها را بر اساس انواع مختلف صداها طبقه‌بندی کرد و دستگاه اضافه‌کننده متصل را از طریق یک سیستم رله فعال کرد.

با گذشت زمان، این فناوری توسعه یافت و امروزه بسیاری از ما به طور معمول با رایانه‌های صوتی ارتباط برقرار می‌کنیم. محبوب ترین دستیارهای صوتی امروزه الکسا آمازون، سیری اپل، دستیار گوگل و کورتانا مایکروسافت هستند. این دستیاران می توانند وظایف یا خدماتی را برای یک فرد بر اساس دستورات یا سوالات انجام دهند. آنها می توانند گفتار انسان را تفسیر کنند و از طریق صداهای سنتز شده پاسخ دهند. کاربران می‌توانند از دستیاران خود سؤال بپرسند، دستگاه‌های اتوماسیون خانگی و پخش رسانه‌ها را از طریق صدا کنترل کنند، و سایر کارهای اساسی مانند ایمیل، فهرست کارها، و تقویم‌ها را با دستورات شفاهی مدیریت کنند. وابسته به هوش مصنوعی (AI) و یادگیری ماشین است.

هوش مصنوعی (AI)

1

وقتی می گویید هوش مصنوعی (AI)، بسیاری از مردم ممکن است فکر کنند که شما در مورد داستان های علمی تخیلی صحبت می کنید، حتی اگر هوش مصنوعی در زندگی روزمره ما بسیار جا افتاده است. در واقع، دهه‌ها بوده است. اما حقیقت این است که واقعاً این یک داستان علمی تخیلی بود که در آغاز قرن بیستم مردم را با ربات‌های انسان‌مانند با هوش مصنوعی آشنا کرد. در دهه 50 مفاهیم هوش مصنوعی بیش از پیش در کانون توجه دانشمندان و فیلسوفان قرار گرفت. در آن زمان، آلن تورینگ، ریاضیدان جوان بریتانیایی پیشنهاد کرد که دلیلی وجود ندارد که ماشین‌ها (درست مانند انسان) نتوانند مسائل را حل کنند و بر اساس اطلاعات موجود تصمیم بگیرند. اما در آن زمان، کامپیوترها امکان به خاطر سپردن که کلید هوش است را نداشتند. تنها کاری که آنها انجام دادند اجرای دستورات بود. اما با این حال، این آلن تورینگ بود که هدف و چشم انداز اساسی هوش مصنوعی را ایجاد کرد.

جان مک کارتی که به طور گسترده به عنوان پدر هوش مصنوعی شناخته می شود، اصطلاح هوش مصنوعی را ابداع کرد. برای او هوش مصنوعی عبارت بود از: "علم و مهندسی ساخت ماشین های هوشمند". این تعریف در کنفرانسی در کالج دارتموث در سال 1956 ارائه شد و نشان دهنده آغاز تحقیقات هوش مصنوعی بود. از آن زمان به بعد هوش مصنوعی شکوفا شد.

در دنیای مدرن هوش مصنوعی در همه جا وجود دارد. به لطف افزایش حجم داده ها، الگوریتم های پیشرفته و بهبود قدرت محاسباتی و ذخیره سازی، محبوبیت بیشتری پیدا کرده است. بیشتر برنامه هوش مصنوعی به وظایف فکری متصل است. ما از هوش مصنوعی برای ترجمه، تشخیص اشیا، چهره و گفتار، تشخیص موضوع، تجزیه و تحلیل تصویر پزشکی، پردازش زبان طبیعی، فیلتر شبکه های اجتماعی، بازی شطرنج و غیره استفاده می کنیم.

فراگیری ماشین

یادگیری ماشینی کاربرد هوش مصنوعی است و به سیستم‌هایی اطلاق می‌شود که توانایی بهبود با تجربه خود را دارند. مهمترین چیز در اینجا این است که سیستم باید بداند چگونه الگوها را تشخیص دهد. برای اینکه سیستم بتواند این کار را انجام دهد نیاز به آموزش دارد: الگوریتم مقادیر زیادی از داده را تغذیه می کند، بنابراین در برخی موارد قادر به شناسایی الگوها است. هدف این است که به کامپیوترها اجازه داده شود تا به طور خودکار بدون دخالت یا کمک انسان یاد بگیرند.

هنگام صحبت در مورد یادگیری ماشینی، ذکر یادگیری عمیق مهم است. بیایید با گفتن این نکته شروع کنیم که یکی از ابزارهای اصلی مورد استفاده در یادگیری عمیق، شبکه های عصبی مصنوعی هستند. اینها الگوریتم‌هایی هستند که از ساختار و عملکرد مغز الهام گرفته شده‌اند، هرچند که تمایل دارند ایستا و نمادین باشند، نه پلاستیک و آنالوگ مانند مغز بیولوژیکی. بنابراین، یادگیری عمیق یک شکل تخصصی از یادگیری ماشینی مبتنی بر شبکه عصبی مصنوعی است که هدف آن تکرار روشی است که انسان‌ها یاد می‌گیرند و این به عنوان یک ابزار عالی برای یافتن الگوهایی است که برای یک برنامه‌نویس برای آموزش ماشین بسیار زیاد است. در دو سال گذشته صحبت های زیادی در مورد ماشین های بدون راننده و اینکه چگونه می توانند زندگی ما را تغییر دهند، بوده است. فناوری یادگیری عمیق در اینجا کلید اصلی است، زیرا با امکان تشخیص عابر پیاده از شیر آتش نشانی یا تشخیص چراغ قرمز، تصادفات را کاهش می دهد. فناوری یادگیری عمیق همچنین نقش اصلی را در کنترل صدا در دستگاه هایی مانند تبلت، تلفن، یخچال، تلویزیون و غیره ایفا می کند. شرکت های تجارت الکترونیک اغلب از شبکه های عصبی مصنوعی به عنوان یک سیستم فیلتر استفاده می کنند که سعی می کند مواردی را که کاربر می خواهد پیش بینی و نشان دهد. خرید فناوری یادگیری عمیق در زمینه پزشکی نیز مورد استفاده قرار می گیرد. این به محققان سرطان کمک می کند تا به طور خودکار سلول های سرطانی را شناسایی کنند و در نتیجه پیشرفت فوق العاده ای در درمان سرطان نشان می دهد.

تشخیص گفتار

فناوری تشخیص گفتار برای شناسایی کلمات و عبارات از زبان گفتاری و تبدیل آنها به قالب قابل خواندن برای دستگاه استفاده می کند. در حالی که برخی از برنامه ها فقط می توانند تعداد محدودی از عبارات را شناسایی کنند، برخی از برنامه های پیچیده تر تشخیص گفتار می توانند گفتار طبیعی را رمزگشایی کنند.

آیا موانعی برای غلبه بر وجود دارد؟

اگرچه راحت است، اما فناوری تشخیص گفتار همیشه یکنواخت پیش نمی رود و همچنان چند مشکل برای حل آن وجود دارد، زیرا به طور مداوم توسعه می یابد. مشکلاتی که ممکن است به وجود بیاید می تواند شامل موارد زیر باشد: کیفیت ضبط ممکن است نامناسب باشد، ممکن است صداهایی در پس زمینه وجود داشته باشد که درک گوینده را دشوار می کند، همچنین گوینده ممکن است لهجه یا گویش واقعا قوی داشته باشد (آیا شما تا به حال لهجه Geordie را شنیده اید؟) و غیره.

تشخیص گفتار بسیار توسعه یافته است، اما هنوز تا کامل بودن فاصله دارد. همه چیز فقط در مورد کلمات نیست، ماشین هنوز نمی تواند بسیاری از کارهایی را که انسان می تواند انجام دهد: آنها نمی توانند زبان بدن را بخوانند یا لحن طعنه آمیز صدای کسی را تشخیص دهند. مردم اغلب هر کلمه را به درستی تلفظ نمی کنند و تمایل دارند برخی از کلمات را کوتاه کنند. به عنوان مثال، هنگام صحبت سریع و غیر رسمی، انگلیسی زبانان بومی اغلب "going to" را مانند "gonna" تلفظ می کنند. همه موارد فوق موانعی را برای ماشین‌ها به وجود می‌آورد که سعی می‌کنند بر آن‌ها فائق آیند، اما هنوز راه درازی پیش روی آنهاست. مهم است که تاکید کنیم که هر چه داده های بیشتری به آن الگوریتم های خاص تغذیه می شود. به نظر می رسد چالش ها کاهش می یابد. به نظر می رسد آینده تشخیص خودکار گفتار روشن باشد.

رابط های کاربری صوتی به طور فزاینده ای در دسترس و محبوب در خانواده ها می شوند. حتی ممکن است به پلتفرم بعدی فناوری تبدیل شود.

Gglot تشخیص خودکار گفتار را در قالب خدمات رونویسی خودکار ارائه می دهد - ما سخنرانی ها را به متن تبدیل می کنیم. استفاده از خدمات ما ساده است، هزینه زیادی برای شما نخواهد داشت و به سرعت انجام می شود!