การรู้จำเสียงคืออะไรกันแน่?
การรู้จำเสียง
สิ่งที่คุณต้องรู้เกี่ยวกับการรู้จำเสียง
เมื่อเรากำลังพูดถึงการรู้จำเสียง โดยปกติแล้วเราหมายถึงซอฟต์แวร์ที่มีความสามารถในการจดจำคำพูดและเขียนลงในโปรแกรม ดังนั้นในท้ายที่สุดคุณจึงมีทุกสิ่งที่พูดในรูปแบบลายลักษณ์อักษร นอกจากนี้ยังมักเรียกกันว่า "คำพูดเป็นข้อความ" ในตอนแรกซอฟต์แวร์นั้นมีความเป็นไปได้ที่จำกัด ดังนั้นคุณจึงสามารถแปลงวลีได้ในจำนวนที่จำกัด เมื่อเวลาผ่านไป เทคโนโลยีที่อยู่เบื้องหลังซอฟต์แวร์รู้จำเสียงได้รับการพัฒนาไปมาก และตอนนี้มีความซับซ้อนมากขึ้น เพื่อให้สามารถจดจำภาษาต่างๆ และแม้แต่สำเนียงที่แตกต่างกันได้ แต่แน่นอนว่ายังมีงานที่ต้องทำในด้านนี้
สิ่งสำคัญคือต้องสังเกตด้วยว่าการรู้จำเสียงพูดไม่เหมือนกับการรู้จำเสียง แม้ว่าบางครั้งผู้คนจะใช้คำทั้งสองเพื่อสิ่งเดียวกันก็ตาม การรู้จำเสียงใช้เพื่อระบุตัวบุคคลที่กำลังพูดและไม่ต้องจดบันทึกสิ่งที่กำลังพูด
ประวัติโดยย่อของการรู้จำเสียงและเทคโนโลยีที่เกี่ยวข้อง
ในบทความนี้ เราจะอธิบายโดยย่อเกี่ยวกับประวัติและเทคโนโลยีเบื้องหลังการเพิ่มขึ้นของการรู้จำเสียง
นับตั้งแต่รุ่งอรุณของยุคดิจิทัล ผู้คนมีความต้องการที่จะสื่อสารกับเครื่องจักรด้วยวิธีใดวิธีหนึ่ง หลังจากที่คอมพิวเตอร์ดิจิทัลประเภทแรกถูกประดิษฐ์ขึ้น นักวิทยาศาสตร์และวิศวกรจำนวนมากได้ลองใช้วิธีต่างๆ มากมายในการนำการรู้จำเสียงไปใช้ในกระบวนการนี้ ปีที่สำคัญของกระบวนการนี้คือปี 1962 เมื่อ IBM เปิดตัว Shoebox ซึ่งเป็นเครื่องรู้จำคำพูดพื้นฐานที่สามารถคำนวณทางคณิตศาสตร์อย่างง่ายได้ หากผู้ใช้คอมพิวเตอร์ต้นแบบเครื่องนี้พูดใส่ไมโครโฟน เครื่องนี้สามารถจดจำคำควบคุมได้มากถึงหกคำ เช่น "บวก" หรือ "ลบ" เมื่อเวลาผ่านไป เทคโนโลยีที่อยู่เบื้องหลังสิ่งนี้ได้พัฒนาขึ้น และในปัจจุบัน การโต้ตอบกับคอมพิวเตอร์ด้วยเสียงถือเป็นคุณสมบัติทั่วไป มีโปรแกรมรู้จำเสียงที่มีชื่อเสียงมากมายเช่น Siri หรือ Alexa สิ่งสำคัญคือต้องทราบว่าอุปกรณ์ที่ขับเคลื่อนด้วยเสียงเหล่านี้ขึ้นอยู่กับปัญญาประดิษฐ์ (AI) และการเรียนรู้ของเครื่อง
เมื่อพูดถึงปัญญาประดิษฐ์ (AI) อาจฟังดูเหมือนมาจากภาพยนตร์นิยายวิทยาศาสตร์ แต่ความจริงก็คือ ในยุคปัจจุบัน AI มีบทบาทสำคัญในโลกของเรา อันที่จริง AI มีอยู่มากในชีวิตประจำวันของเราแล้ว เนื่องจากมีโปรแกรมและแอปจำนวนมากใช้งานอยู่แล้ว แต่มันเป็นนิยายวิทยาศาสตร์เมื่อต้นศตวรรษที่ 20 เมื่อมีคำนี้เกิดขึ้น ในช่วงปลายทศวรรษ 1950 แนวคิดของ AI มีความโดดเด่นมากขึ้นและเป็นจุดสนใจของนักวิทยาศาสตร์และนักปรัชญาจำนวนมาก ในเวลานั้น อลัน ทัวริง นักคณิตศาสตร์ชาวอังกฤษผู้ทะเยอทะยานมากเกิดข้อเสนอว่าเครื่องจักรสามารถแก้ปัญหาและตัดสินใจได้ด้วยตัวเอง โดยอาศัยข้อมูลที่มีอยู่ ปัญหาคือคอมพิวเตอร์ยังไม่มีความเป็นไปได้ในการจดจำข้อมูลนั้น ซึ่งเป็นขั้นตอนสำคัญสำหรับการพัฒนาปัญญาประดิษฐ์ สิ่งที่พวกเขาทำได้ในตอนนั้นคือดำเนินการคำสั่งง่ายๆ
ชื่อที่สำคัญอีกชื่อหนึ่งในการพัฒนา AI คือ John McCarthy ซึ่งเป็นผู้บัญญัติศัพท์คำว่า "ปัญญาประดิษฐ์" เป็นครั้งแรก McCarthy กล่าวว่า AI คือ "วิทยาศาสตร์และวิศวกรรมศาสตร์ในการสร้างเครื่องจักรอัจฉริยะ" คำจำกัดความนี้ปรากฏให้เห็นในการประชุมสำคัญที่วิทยาลัย Dartmouth ในปี 1956 จากนั้นเป็นต้นมา AI ก็เริ่มพัฒนาอย่างรวดเร็ว
ปัจจุบันปัญญาประดิษฐ์ในรูปแบบต่างๆ มีอยู่ทุกที่ มีการนำไปใช้อย่างกว้างขวาง สาเหตุหลักมาจากการเพิ่มขึ้นของปริมาณข้อมูลโดยรวมที่มีการแลกเปลี่ยนกันทั่วโลกทุกวัน มันถูกใช้ในอัลกอริธึมขั้นสูง และทำให้เกิดการปรับปรุงในด้านการจัดเก็บและพลังการประมวลผล AI ใช้เพื่อวัตถุประสงค์หลายประการ เช่น การแปล การถอดเสียง คำพูด การจดจำใบหน้าและวัตถุ การวิเคราะห์ภาพทางการแพทย์ การประมวลผลภาษาธรรมชาติ ตัวกรองเครือข่ายโซเชียลต่างๆ และอื่นๆ จำการแข่งขันหมากรุกระหว่างปรมาจารย์ Gari Kasparov และ AI หมากรุก Deep Blue ได้ไหม
การเรียนรู้ของเครื่องเป็นอีกหนึ่งการประยุกต์ใช้ปัญญาประดิษฐ์ที่สำคัญมาก กล่าวโดยย่อหมายถึงระบบใด ๆ ที่มีความสามารถในการเรียนรู้และปรับปรุงจากฐานข้อมูลประสบการณ์ของตนเอง สิ่งนี้ทำงานผ่านการจดจำรูปแบบ เพื่อให้ระบบทำเช่นนั้นได้นั้นจำเป็นต้องได้รับการฝึกอบรม อัลกอริธึมของระบบรับข้อมูลเข้าจำนวนมาก และเมื่อถึงจุดหนึ่งก็สามารถระบุรูปแบบจากข้อมูลนั้นได้ เป้าหมายสุดท้ายของกระบวนการนี้คือเพื่อให้ระบบคอมพิวเตอร์เหล่านี้สามารถเรียนรู้ได้อย่างอิสระ โดยไม่ต้องมีการแทรกแซงหรือความช่วยเหลือจากมนุษย์
อีกสิ่งหนึ่งที่สำคัญมากที่ต้องพูดถึงควบคู่ไปกับการเรียนรู้ของเครื่องก็คือการเรียนรู้เชิงลึก เครื่องมือที่สำคัญที่สุดอย่างหนึ่งในกระบวนการเรียนรู้เชิงลึกคือสิ่งที่เรียกว่าโครงข่ายประสาทเทียม เป็นอัลกอริธึมขั้นสูง คล้ายกับโครงสร้างและการทำงานของสมองมนุษย์ อย่างไรก็ตาม พวกมันเป็นแบบคงที่และเป็นสัญลักษณ์ ต่างจากสมองทางชีววิทยาที่เป็นพลาสติกและมีพื้นฐานแบบอะนาล็อกมากกว่า กล่าวโดยสรุป การเรียนรู้เชิงลึกนี้เป็นลักษณะการเรียนรู้ของเครื่องที่เชี่ยวชาญเป็นพิเศษ โดยพื้นฐานแล้วใช้โครงข่ายประสาทเทียม เป้าหมายของการเรียนรู้เชิงลึกคือการจำลองกระบวนการเรียนรู้ของมนุษย์อย่างใกล้ชิด เทคโนโลยีการเรียนรู้เชิงลึกมีประโยชน์มากและมีบทบาทสำคัญในอุปกรณ์ต่างๆ ที่ถูกควบคุมด้วยเสียง เช่น แท็บเล็ต ทีวี สมาร์ทโฟน ตู้เย็น เป็นต้น โครงข่ายประสาทเทียมยังใช้เป็นระบบกรองชนิดหนึ่งที่มีจุดมุ่งหมายเพื่อทำนายรายการต่างๆ ที่ผู้ใช้จะซื้อในอนาคต เทคโนโลยีการเรียนรู้เชิงลึกยังใช้กันอย่างแพร่หลายในสาขาการแพทย์ ถือเป็นสิ่งสำคัญมากสำหรับนักวิจัยโรคมะเร็ง เนื่องจากช่วยตรวจหาเซลล์มะเร็งได้โดยอัตโนมัติ
ตอนนี้เราจะกลับมาที่การรู้จำเสียงพูด ตามที่เราได้กล่าวไปแล้วเทคโนโลยีนี้มีวัตถุประสงค์เพื่อระบุคำและวลีต่างๆ ของภาษาพูด หลังจากนั้นจะแปลงเป็นรูปแบบที่เครื่องสามารถอ่านได้ โปรแกรมพื้นฐานระบุวลีสำคัญเพียงจำนวนเล็กน้อย แต่ซอฟต์แวร์การรู้จำเสียงขั้นสูงบางโปรแกรมสามารถถอดรหัสคำพูดที่เป็นธรรมชาติได้ทุกประเภท เทคโนโลยีการรู้จำเสียงพูดนั้นสะดวกในกรณีส่วนใหญ่ แต่บางครั้งก็ประสบปัญหาเมื่อคุณภาพของการบันทึกไม่ดีพอหรือเมื่อมีเสียงรบกวนรอบข้างซึ่งทำให้ยากต่อการเข้าใจผู้พูดอย่างเหมาะสม นอกจากนี้ยังอาจยังประสบปัญหาอยู่เมื่อผู้พูดมีสำเนียงหรือภาษาถิ่นที่หนักแน่นมาก การรู้จำเสียงมีการพัฒนาอย่างต่อเนื่อง แต่ก็ยังไม่สมบูรณ์แบบนัก ไม่ใช่ทุกอย่างที่เป็นเรื่องเกี่ยวกับคำพูด เครื่องจักรยังไม่สามารถทำได้หลายอย่างที่มนุษย์สามารถทำได้ เช่น ไม่สามารถถอดรหัสภาษากายหรือน้ำเสียงของใครบางคนได้ อย่างไรก็ตาม เมื่อข้อมูลถูกถอดรหัสมากขึ้นโดยอัลกอริธึมขั้นสูงเหล่านี้ ความท้าทายบางอย่างก็ดูเหมือนจะลดน้อยลงด้วยความยากลำบาก ใครจะรู้ว่าอนาคตจะเป็นอย่างไร? เป็นการยากที่จะคาดเดาได้ว่าการรู้จำเสียงจะสิ้นสุดที่ใด ตัวอย่างเช่น Google ประสบความสำเร็จอย่างมากในการใช้ซอฟต์แวร์รู้จำเสียงในเครื่องมือ Google Translate และเครื่องกำลังเรียนรู้และพัฒนาอยู่ตลอดเวลา บางทีวันหนึ่งพวกเขาจะเข้ามาแทนที่นักแปลที่เป็นมนุษย์โดยสิ้นเชิง หรืออาจจะไม่ สถานการณ์การพูดในชีวิตประจำวันนั้นซับซ้อนเกินไปสำหรับเครื่องจักรประเภทใดก็ตามที่ไม่สามารถอ่านความลึกของจิตวิญญาณมนุษย์ได้
เมื่อใดจึงควรใช้การรู้จำเสียง?
ปัจจุบันแทบทุกคนมีสมาร์ทโฟนหรือแท็บเล็ต การรู้จำเสียงเป็นคุณสมบัติทั่วไปในอุปกรณ์เหล่านั้น ใช้เพื่อแปลงคำพูดของบุคคลให้เป็นการกระทำ หากคุณต้องการโทรหาคุณยาย แค่คุณสั่ง “โทรหาคุณยาย” ก็เพียงพอแล้ว และสมาร์ทโฟนของคุณก็กดหมายเลขไปแล้วโดยที่คุณไม่ต้องพิมพ์รายชื่อผู้ติดต่อ นี่คือการรู้จำเสียง อีกตัวอย่างที่ดีคือ Alexa หรือ Siri พวกเขายังมีคุณสมบัตินี้แบบมีสายในระบบของพวกเขาด้วย Google ให้ตัวเลือกแก่คุณในการค้นหาทุกสิ่งด้วยเสียงโดยไม่ต้องพิมพ์อะไรเลย
บางทีคุณอาจสงสัยว่าทั้งหมดนี้ทำงานอย่างไร เพื่อให้ทำงานได้ ต้องมีเซ็นเซอร์ เช่น ไมโครโฟน ติดตั้งอยู่ในซอฟต์แวร์เพื่อให้สามารถจดจำ วิเคราะห์ และแปลงคลื่นเสียงของคำพูดให้เป็นรูปแบบดิจิทัลได้ ข้อมูลดิจิทัลจะต้องนำไปเปรียบเทียบกับข้อมูลอื่นที่จัดเก็บไว้ในคลังคำและสำนวนบางประเภท เมื่อมีการจับคู่กัน ซอฟต์แวร์จะสามารถจดจำคำสั่งและดำเนินการตามนั้นได้
อีกสิ่งหนึ่งที่ต้องกล่าวถึงในตอนนี้คือสิ่งที่เรียกว่า WER (อัตราความผิดพลาดของคำ) นี่คือสูตรที่คุณหารหมายเลขข้อผิดพลาดด้วยจำนวนคำทั้งหมด พูดง่ายๆ ก็คือความถูกต้องต้องอาศัยอะไรหลายอย่าง แน่นอนว่าเป้าหมายคือต้องมี WER ต่ำ เพราะนั่นหมายความว่าการถอดเสียงคำพูดมีความแม่นยำมากขึ้น
การรู้จำเสียงเป็นที่ต้องการอย่างมากเช่นเคย หากคุณต้องการแปลงคำพูดจากไฟล์เสียงที่บันทึกไว้เป็นข้อความด้วย คุณสามารถเปลี่ยนเป็น Gglot ได้ เราเป็นผู้ให้บริการถอดเสียงที่นำเสนอการถอดเสียงที่แม่นยำในราคายุติธรรม ดังนั้นอย่าลังเลที่จะติดต่อเราผ่านเว็บไซต์ที่เป็นมิตรต่อผู้ใช้ของเรา