Voicebot
Saruta Charunmethee
2
นาที อ่าน
November 23, 2023

Speech Recognition กับสมองเราเหมือนกันตรงไหน?

ระบบ Speech Recognition อาจจะประมวลผลคำพูด (Speech Processing) ได้เก่งจริงแต่ก็ยังเป็นที่สองรองจากสมองมนุษย์

speech recognition กับสมองหมือนกันตรงไหน
Speech Recognition กับสมองเราเหมือนกันตรงไหน

มนุษย์เรามักจะมองหารูปแบบและลักษณะร่วมในพฤติกรรมของบุคคลนั้นๆ

ไม่เชื่อลองถามนักจิตวิทยาดูสิ

เหตุผลนี้เองที่แสดงให้เห็นว่าปัญญาประดิษฐ์หรือ AI เรียนรู้จากมนุษย์ โดยเฉพาะ Speech Recognition (เทคโนโลยีรู้จำเสียงพูด) ที่มีวิธีการเข้าใจหรือตีความภาษาพูดเหมือนกับสมองของเรา ซึ่งเป็นอวัยวะที่ซับซ้อนและเป็นศูนย์กลางของระบบประสาทส่วนกลาง

เรามาเริ่มเจาะลึกกันซักหน่อยดีกว่า

Speech Recognition (เทคโนโลยีรู้จำเสียงพูด) หรือ Automatic Speech Recognition or ASR (ระบบรับรู้เสียงอัตโนมัติ) เป็นเทคโนโลยีที่แปลงคำพูดหรือภาษาพูดของมนุษย์เป็นข้อความเขียน กระบวนการดังกล่าวต้องใช้ทักษะด้านวิทยาการคอมพิวเตอร์ ภาษาศาสตร์ และวิศวกรรมคอมพิวเตอร์เพื่อถอดและแปลความหมาย

การรู้จำเสียง (Voice Recognition) ซึ่งคนมักเข้าใจผิดว่าเป็นเทคโนโลยีรู้จำเสียงพูด เป็นเทคโนโลยีที่สามารถรู้จำและระบุเสียงของบุคคลใดบุคคลหนึ่งโดยใช้ทักษะสาขาดังกล่าวที่ใกล้เคียงกัน

6 ฟังก์ชันที่ระบบเทคโนโลยีรู้จำเสียงพูดและสมองมนุษย์มีร่วมกัน

1. การจดจำรูปแบบ (Pattern Recognition)

ทั้งระบบเทคโนโลยีรู้จำเสียงพูดและสมองมนุษย์ต่างอาศัยการจดจำแพทเทิร์น ปกติแล้ว Speech Recognition ต้องทำการวิเคราะห์ Acoustic pattern ซึ่งเกี่ยวข้องกับสัญญาณเสียงพูดและลักษณะทางภาษาเช่น สูงต่ำของเสียง ความเข้มของเสียง และระยะเวลาของเสียง

สมองมนุษย์ยังจดจำรูปแบบคำพูดได้ดีเยี่ยม ไม่ว่าจะเป็นจากลักษณะบุคคลหรือโครงสร้างทางภาษา ทำให้เราเข้าใจและตีความภาษาได้

2. การสกัดคุณลักษณะ (Feature Extraction)

ทั้งSpeech Recognition และสมองมนุษย์สกัดลักษณะที่เกี่ยวข้องดังกล่าวจากสัญญาณนำเข้า ในด้านซอฟต์แวร์การรับรู้เสียง การสกัดคุณลักษณะดังกล่าวเกี่ยวข้องกับการสกัดสัญญาณเสียงพูดเช่น ความสูงต่ำของเสียง ความเข้มของเสียง และระยะเวลา ซึ่งไม่ต่างจากระบบกรองเสียงของมนุษย์ที่สามารถสกัดลักษณะเหล่านี้เพื่อเข้าใจภาษาที่พูดได้

3. การเข้าใจบริบท (Contextual Understanding)

Speech Recognition รับรู้และเข้าใจบริบทคล้ายกับสมองมนุษย์ อธิบายง่ายๆ ก็คือโปรแกรมมักเข้าใจบริบทภาษา (Context) ผ่านโมเดลภาษา (Language model) และขอบเขตของบริบทภาษา (Context window) ในขณะที่สมองมนุษย์อิงข้อมูลจากบริบทภาษาและสถานการณ์ เพื่อแปลความหมายจากถ้อยคำ

ซึ่งบางครั้งผู้พูดอาจตั้งใจเสียดสี บ่งบอกความหมายโดยนัย หรือสื่อสารมากกว่าหนึ่งภาษาในหนึ่งบทสนทนา

4. การเรียนรู้และการปรับตัว (Learning and Adapting)

ทั้ง Speech Recognition และสมองมนุษย์สามารถเรียนรู้และปรับตัวได้ตลอดเวลา อัลกอริทึมการเรียนรู้ของซอฟต์แวร์ทำให้ Speech Recognition พัฒนาให้แม่นยำขึ้นเรื่อยๆ ผ่านการรับสาร

ในขณะเดียวกัน สมองมนุษย์ฉลาดกว่าตรงที่สามารถเรียนรู้และปรับตัวตามสำเนียง ภาษา และวิธีการพูดได้

5. การประมวลผลทางประสาท (Neural Processing)

สมองมนุษย์และเครือข่ายระบบประสาทของ Machine Learning มีความคล้ายคลึงด้านแนวคิดบางประการ โครงสร้างของระบบประสาทของ Machine Learning มีแรงบันดาลใจมาจากโครงสร้างและการทำงานของสมองมนุษย์ โดยมีโหนด (Node) หรือนิวรอนเชื่อมต่อกันเพื่อประมวลผลข้อมูล

6. การจัดการข้อผิดพลาด (Error Handling)

ทั้งโปรแกรมและมนุษย์ต่างมีข้อผิดพลาดกันได้ Speech Recognition อาจตีความผิด สมองมนุษย์ก็อาจได้ยินผิดหรือเข้าใจผิด

อย่างไรก็ตามเรายังจำเป็นที่จะต้องพิจารณาบริบท พื้นฐานความรู้ และภาษากาย เพื่อหลีกเลี่ยงความกำกวมและเพื่อให้สื่อสารได้ตรงความหมาย ถูกต้องตามเจตนามากที่สุด

เหมือนกันแต่ก็ต่างกัน คล้ายกันแต่ไม่เหมือนกัน

ถึงแม้กระบวนการจะคล้ายกัน แต่ต้องอย่าลืมว่าระดับความซับซ้อนและประสิทธิภาพในการประมวลผลเสียงของสมองมนุษย์มีความสามารถเหนือกว่า Speech Recognition สมองมนุษย์รวมข้อมูลจากกระบวนการสัมผัสและพื้นฐานความรู้ทางสติปัญญาที่หลากหลาย สามารถสร้างทฤษฎีหรือแนวคิดใหม่ๆ แก้ไขปัญหา จินตนาการ หรือย้อนความหลังว่าเจอกับใครครั้งล่าสุดเมื่อไหร่

การผนวก Speech Recognition เพื่อการเสริมสร้างธุรกิจ

เนื่องจากธุรกิจต้องการสร้างประสบการณ์ที่ดีลูกค้า ซึ่งความต้องการระบบเทคโนโลยีรู้จำเสียงพูดจึงเพิ่มสูงขึ้นตามไปด้วย

สถิติจาก Google Search ล่าสุดพบว่า 27% ของจำนวนประชากรโลกออนไลน์ใช้การค้นหาด้วยเสียงบนอุปกรณ์มือถือ ซึ่งเท่ากับ 1 พันล้านครั้งต่อเดือน

93.7% ของการค้นหาด้วยเสียงผ่านผู้ช่วย AI แสดงให้เห็นว่าการรับรู้เสียงมีการผนวกเข้ากับเทคโนโลยี AI อย่างมีประสิทธิภาพ

ลองดู AI Voicebot ของ Amity Solutions เป็นตัวอย่าง

ด้วยเทคโนโลยีที่ขับเคลื่อนด้วย GPT และการผนวกแชทบอทเพื่อจัดการคำขอและคำถามสามารถเสริมประสบการณ์ลูกค้าได้อย่างมีประสิทธิภาพ ช่วยให้การสนทนาเป็นธรรมชาติเหมือนคุยกับคนจริงๆ

ด้วยรูปแบบที่มีทั้งเสียงและข้อความในภาษาไทย Amity Voicebot เป็นส่วนเสริมที่ช่วยสร้าง engagement เพื่อระบบคอลเซ็นเตอร์และระบบบริการลูกค้าที่มีประสิทธิภาพมากขึ้น

สนใจอ่านข้อมูลเพิ่มเติม สามารถคลิ๊กที่นี่