บทบาทของปัญญาประดิษฐ์และการเรียนรู้ของเครื่องในการรู้จำเสียง

บทบาทของปัญญาประดิษฐ์และการเรียนรู้ของเครื่องในการรู้จำเสียง

เป็นเวลานานแล้วที่ผู้คนต้องการที่จะพูดคุยกับเครื่องจักรได้ นับตั้งแต่พวกเขาเริ่มสร้างคอมพิวเตอร์ นักวิทยาศาสตร์และวิศวกรได้พยายามรวมการรู้จำเสียงเข้ากับกระบวนการนี้ ในปี พ.ศ. 2505 IBM ได้เปิดตัว Shoebox ซึ่งเป็นเครื่องรู้จำเสียงพูดที่สามารถคำนวณทางคณิตศาสตร์อย่างง่ายได้ อุปกรณ์ที่เป็นนวัตกรรมใหม่นี้จดจำและตอบสนองต่อคำพูด 16 คำ รวมถึงตัวเลข 10 หลักตั้งแต่ "0" ถึง "9" เมื่อมีการพูดตัวเลขและคำสั่ง เช่น “บวก” “ลบ” และ “ผลรวม” Shoebox จะสั่งให้เครื่องบวกคำนวณและพิมพ์คำตอบของปัญหาทางคณิตศาสตร์ง่ายๆ Shoebox ทำงานโดยการพูดใส่ไมโครโฟน ซึ่งแปลงเสียงพูดให้เป็นแรงกระตุ้นทางไฟฟ้า วงจรการวัดจะจำแนกแรงกระตุ้นเหล่านี้ตามเสียงประเภทต่างๆ และเปิดใช้งานเครื่องบวกที่ต่ออยู่ผ่านระบบรีเลย์

เมื่อเวลาผ่านไป เทคโนโลยีนี้ได้พัฒนาขึ้น และในปัจจุบันพวกเราหลายคนโต้ตอบด้วยเสียงโดยไม่ต้องใช้คอมพิวเตอร์เป็นประจำ ผู้ช่วยด้านเสียงที่ได้รับความนิยมมากที่สุดในปัจจุบัน ได้แก่ Alexa จาก Amazon, Siri จาก Apple, Google Assistant และ Cortana จาก Microsoft ผู้ช่วยเหล่านี้สามารถทำงานหรือบริการให้กับแต่ละบุคคลตามคำสั่งหรือคำถาม พวกเขาสามารถตีความคำพูดของมนุษย์และตอบสนองด้วยเสียงสังเคราะห์ได้ ผู้ใช้สามารถถามคำถามกับผู้ช่วย ควบคุมอุปกรณ์อัตโนมัติภายในบ้านและการเล่นสื่อผ่านเสียง และจัดการงานพื้นฐานอื่นๆ เช่น อีเมล รายการสิ่งที่ต้องทำ และปฏิทินด้วยคำสั่งด้วยวาจา ยิ่งเราใช้อุปกรณ์ที่ขับเคลื่อนด้วยเสียงเหล่านี้มากเท่าไร เราก็จะยิ่งกลายเป็น ขึ้นอยู่กับปัญญาประดิษฐ์ (AI) และการเรียนรู้ของเครื่อง

ปัญญาประดิษฐ์ (เอไอ)

1

เมื่อคุณพูดถึงปัญญาประดิษฐ์ (AI) หลายคนอาจคิดว่าคุณกำลังพูดถึงนิยายวิทยาศาสตร์ แม้ว่า AI จะฝังแน่นอยู่ในชีวิตประจำวันของเราก็ตาม อันที่จริงมันก็มีมานานหลายทศวรรษแล้ว แต่ความจริงก็คือ มันเป็นนิยายวิทยาศาสตร์จริงๆ ที่ในช่วงต้นศตวรรษที่ 20 ทำให้สาธารณชนคุ้นเคยกับหุ่นยนต์ที่มีลักษณะคล้ายมนุษย์ที่ชาญฉลาด ในช่วงทศวรรษที่ 50 แนวคิดของ AI ได้รับความสนใจจากนักวิทยาศาสตร์และนักปรัชญามากขึ้นเรื่อยๆ ในเวลานั้น อลัน ทัวริง นักคณิตศาสตร์หนุ่มชาวอังกฤษแนะนำว่าไม่มีเหตุผลว่าทำไมเครื่องจักรไม่สามารถ (เช่นเดียวกับมนุษย์) แก้ปัญหาและตัดสินใจโดยอาศัยข้อมูลที่มีอยู่ได้ แต่ในเวลานั้น คอมพิวเตอร์ไม่มีความสามารถในการจดจำ ซึ่งเป็นกุญแจสำคัญสำหรับความฉลาด สิ่งที่พวกเขาทำคือรันคำสั่ง แต่ถึงกระนั้น Alan Turing ก็ยังเป็นผู้กำหนดเป้าหมายพื้นฐานและวิสัยทัศน์ของปัญญาประดิษฐ์

จอห์น แม็กคาร์ธี ผู้ก่อตั้ง AI เป็นที่รู้จักอย่างกว้างขวางว่าเป็นบิดาแห่ง AI และเป็นผู้บัญญัติศัพท์ว่า ปัญญาประดิษฐ์ สำหรับเขาแล้ว AI คือ “วิทยาศาสตร์และวิศวกรรมศาสตร์ในการสร้างเครื่องจักรอัจฉริยะ” คำจำกัดความนี้ถูกนำเสนอในการประชุมที่วิทยาลัย Dartmouth ในปี 1956 และถือเป็นจุดเริ่มต้นของการวิจัย AI จากนั้นเป็นต้นมา AI ก็เจริญรุ่งเรือง

ในโลกสมัยใหม่ปัญญาประดิษฐ์มีอยู่ทั่วไปทุกหนทุกแห่ง ได้รับความนิยมมากขึ้นเนื่องจากปริมาณข้อมูลที่เพิ่มขึ้น อัลกอริธึมขั้นสูง และการปรับปรุงพลังการประมวลผลและพื้นที่จัดเก็บข้อมูล แอปพลิเคชัน AI ส่วนใหญ่เชื่อมโยงกับงานทางปัญญา เราใช้ AI สำหรับการแปล วัตถุ การจดจำใบหน้าและคำพูด การตรวจจับหัวข้อ การวิเคราะห์ภาพทางการแพทย์ การประมวลผลภาษาธรรมชาติ การกรองเครือข่ายโซเชียล การเล่นหมากรุก ฯลฯ

การเรียนรู้ของเครื่อง

การเรียนรู้ของเครื่องเป็นการประยุกต์ใช้ปัญญาประดิษฐ์และหมายถึงระบบที่มีความสามารถในการปรับปรุงจากประสบการณ์ของตนเอง สิ่งที่สำคัญที่สุดคือระบบจำเป็นต้องรู้วิธีจดจำรูปแบบ เพื่อให้สามารถทำเช่นนั้นได้ ระบบจำเป็นต้องได้รับการฝึกอบรม: อัลกอริธึมจะป้อนข้อมูลจำนวนมาก ดังนั้นในบางจุดจึงสามารถระบุรูปแบบได้ เป้าหมายคือการอนุญาตให้คอมพิวเตอร์เรียนรู้โดยอัตโนมัติโดยไม่ต้องมีการแทรกแซงหรือความช่วยเหลือจากมนุษย์

เมื่อพูดถึง Machine Learning สิ่งสำคัญคือต้องพูดถึง Deep Learning เริ่มต้นด้วยการบอกว่าหนึ่งในเครื่องมือหลักที่ใช้ในการเรียนรู้เชิงลึกคือโครงข่ายประสาทเทียม สิ่งเหล่านี้คืออัลกอริธึมที่ได้รับแรงบันดาลใจจากโครงสร้างและการทำงานของสมอง แม้ว่าพวกมันจะมีลักษณะคงที่และเป็นสัญลักษณ์ ไม่ใช่พลาสติกและแอนะล็อกเหมือนสมองทางชีววิทยา ดังนั้น การเรียนรู้เชิงลึกเป็นรูปแบบเฉพาะของการเรียนรู้ของเครื่องโดยอิงจากโครงข่ายประสาทเทียม โดยมีเป้าหมายเพื่อจำลองวิธีที่มนุษย์เรียนรู้ และสิ่งนี้ทำหน้าที่เป็นเครื่องมือที่ยอดเยี่ยมในการค้นหารูปแบบซึ่งมีมากมายเกินกว่าที่โปรแกรมเมอร์จะสอนเครื่องจักรได้ ในช่วงสองสามปีที่ผ่านมา มีการพูดคุยกันมากมายเกี่ยวกับรถยนต์ไร้คนขับและการเปลี่ยนแปลงชีวิตของเราได้อย่างไร เทคโนโลยีการเรียนรู้เชิงลึกเป็นกุญแจสำคัญในที่นี้ เนื่องจากจะช่วยลดอุบัติเหตุโดยทำให้รถสามารถแยกแยะคนเดินถนนจากหัวจ่ายน้ำดับเพลิง หรือจดจำสัญญาณไฟสีแดงได้ เทคโนโลยีการเรียนรู้เชิงลึกยังมีบทบาทสำคัญในการควบคุมด้วยเสียงในอุปกรณ์ต่างๆ เช่น แท็บเล็ต โทรศัพท์ ตู้เย็น ทีวี เป็นต้น บริษัทอีคอมเมิร์ซมักใช้โครงข่ายประสาทเทียมเป็นระบบกรองที่พยายามคาดเดาและแสดงรายการที่ผู้ใช้ต้องการ ซื้อ. เทคโนโลยีการเรียนรู้เชิงลึกยังใช้ในด้านการแพทย์ด้วย ช่วยให้นักวิจัยมะเร็งสามารถตรวจจับเซลล์มะเร็งได้โดยอัตโนมัติ และแสดงถึงความก้าวหน้าอย่างมากในการรักษาโรคมะเร็ง

การรู้จำเสียง

เทคโนโลยีการรู้จำเสียงทำหน้าที่ในการระบุคำและวลีจากภาษาพูด และแปลงให้อยู่ในรูปแบบที่เครื่องสามารถอ่านได้ แม้ว่าบางโปรแกรมจะสามารถระบุวลีได้เพียงจำนวนจำกัด แต่โปรแกรมรู้จำเสียงพูดที่ซับซ้อนกว่าบางโปรแกรมสามารถถอดรหัสเสียงพูดที่เป็นธรรมชาติได้

มีอุปสรรคที่ต้องเอาชนะหรือไม่?

แม้ว่าเทคโนโลยีการรู้จำเสียงจะสะดวก แต่ไม่ได้ทำงานได้อย่างราบรื่นเสมอไป และยังมีปัญหาบางประการที่ต้องแก้ไขเนื่องจากมีการพัฒนาอย่างต่อเนื่อง ปัญหาที่อาจเกิดขึ้นอาจรวมถึงสิ่งต่อไปนี้: คุณภาพของการบันทึกอาจไม่เพียงพอ อาจมีเสียงรบกวนในพื้นหลังซึ่งทำให้ยากต่อการเข้าใจผู้พูด นอกจากนี้ผู้พูดอาจมีสำเนียงหรือสำเนียงที่หนักแน่นมาก (คุณ เคยได้ยินภาษา Geordie บ้างไหม) ฯลฯ

การรู้จำเสียงได้รับการพัฒนาไปมาก แต่ก็ยังห่างไกลจากความสมบูรณ์แบบ ไม่ใช่ทุกอย่างเป็นเพียงคำพูด เครื่องจักรยังคงไม่สามารถทำสิ่งต่าง ๆ มากมายที่มนุษย์ทำได้: พวกเขาไม่สามารถอ่านภาษากายหรือรับรู้น้ำเสียงประชดประชันในน้ำเสียงของใครบางคน ผู้คนมักไม่ออกเสียงทุกคำด้วยวิธีที่ถูกต้องและมักจะย่อคำบางคำให้สั้นลง ตัวอย่างเช่น เมื่อพูดอย่างรวดเร็วและไม่เป็นทางการ เจ้าของภาษาอังกฤษมักจะออกเสียงว่า "going to" เหมือน "gonna" ทั้งหมดที่กล่าวมาข้างต้นทำให้เกิดอุปสรรคสำหรับเครื่องจักรที่พวกเขาพยายามจะเอาชนะ แต่หนทางข้างหน้ายังอีกยาวไกล สิ่งสำคัญคือต้องเน้นว่าเมื่อมีการป้อนข้อมูลไปยังอัลกอริธึมเฉพาะเหล่านั้นมากขึ้นเรื่อยๆ ความท้าทายดูเหมือนจะลดลง อนาคตของการรู้จำเสียงอัตโนมัติดูเหมือนจะสดใส

อินเทอร์เฟซผู้ใช้ที่ขับเคลื่อนด้วยเสียงกำลังมีเพิ่มมากขึ้นและได้รับความนิยมในครัวเรือน มันอาจจะกลายเป็นแพลตฟอร์มต่อไปในเทคโนโลยีก็ได้

Gglot เสนอการรู้จำเสียงพูดอัตโนมัติในรูปแบบของบริการถอดความอัตโนมัติ - เราแปลงคำพูดเป็นข้อความ บริการของเราใช้งานง่าย ไม่เสียค่าใช้จ่ายมากนัก และดำเนินการได้รวดเร็ว!