OpenAI เปิดตัวโมเดล AI ตัวใหม่ โต้ตอบด้วยเสียงได้ไวเท่ามนุษย์!

GPT-4o คืออะไร? ทำอะไรได้บ้าง?

GPT-4o ("o" หมายถึง "omni") เป็นก้าวสำคัญในการสื่อสารระหว่างมนุษย์และคอมพิวเตอร์ที่เป็นธรรมชาติมากขึ้น โมเดลนี้สามารถรับและแสดงข้อมูลได้หลากหลายรูปแบบ ทั้งข้อความ เสียง และภาพ GPT-4o สามารถตอบสนองต่อเสียงที่ป้อนเข้ามาได้ในเวลาเพียง 232 มิลลิวินาที โดยเฉลี่ยอยู่ที่ 320 มิลลิวินาที ซึ่งใกล้เคียงกับเวลาตอบสนองของมนุษย์ในการสนทนา

ประสิทธิภาพเหนือกว่า ราคาถูกลง

นอกจากนี้ GPT-4o ยังมีประสิทธิภาพเทียบเท่ากับ GPT-4 Turbo ในการประมวลผลข้อความภาษาอังกฤษและโค้ด พร้อมทั้งปรับปรุงการประมวลผลข้อความในภาษาอื่นๆ ให้ดีขึ้นอย่างมาก ขณะเดียวกันก็เร็วขึ้นและมีราคาถูกลงถึง 50% เมื่อเทียบกับ API GPT-4o ที่โดดเด่นเป็นพิเศษในด้านการเข้าใจภาพและเสียงเมื่อเทียบกับโมเดลที่มีอยู่

โมเดลแบบครบวงจร

ก่อนหน้า GPT-4o ผู้ใช้สามารถใช้ Voice Mode เพื่อพูดคุยกับ ChatGPT โดยมีความหน่วงเฉลี่ยอยู่ที่ 2.8 วินาที (GPT-3.5) และ 5.4 วินาที (GPT-4) ซึ่ง Voice Mode ประกอบด้วยโมเดลย่อย 3 ตัว ได้แก่ โมเดลสำหรับแปลงเสียงเป็นข้อความ, GPT-3.5 หรือ GPT-4 รับข้อความและส่งออกข้อความ, และโมเดลแปลงข้อความกลับเป็นเสียง กระบวนการนี้ทำให้ GPT-4 ซึ่งเป็นแหล่งปัญญาประดิษฐ์หลักสูญเสียข้อมูลไปมาก

GPT-4o ได้ถูกฝึกฝนโมเดลใหม่แบบครบวงจรที่ผสมผสานทั้งข้อความ ภาพ และเสียงเข้าด้วยกัน ซึ่งหมายความว่าข้อมูลที่ป้อนเข้าและส่งออกทั้งหมดจะถูกประมวลผลโดยเครือข่ายประสาทเดียวกัน เนื่องจาก GPT-4o เป็นโมเดลแรกของที่รวมโหมดการทำงานเหล่านี้เข้าด้วยกัน

การป้อนคำสั่งกับ GT-4o ที่ advance มากขึ้น — ตัวอย่างฟังก์ชันการทำงานของ GPT-4o

ประเมินประสิทธิภาพของโมเดล

GPT-4o ทำคะแนนสูงในด้านความสามารถด้านข้อความ การใช้เหตุผล และปัญญาประดิษฐ์ด้านการเขียนโค้ดเมื่อเทียบกับคู่แข่งอื่นๆ

แผนภูมิเปรียบเทียบความสามารถของ AI แต่ละแบรนด์ — แผนภูมิแสดงความสามารถในการคตอบข้อความของ GPT-4o เทียบกับคู่แข่งอื่นๆ

เมื่อวัดประสิทธิภาพตามเกณฑ์มาตรฐาน GPT-4o ถือว่าอยู่ระดับเดียวกับ GPT-4 Turbo ในแง่ของข้อความ การใช้เหตุผล และปัญญาประดิษฐ์ในการเขียนโค้ด ขณะเดียวกันก็สร้างมาตรฐานใหม่ในด้านความสามารถด้านภาษา เสียง และภาพ GPT-4o ทำคะแนนสูงสุดที่ 88.7%

ความปลอดภัยและข้อจำกัดของโมเดล

GPT-4o มีการออกแบบให้มีความปลอดภัยในโหมดการทำงานต่างๆ เช่น การกรองข้อมูลที่ใช้ในการฝึกฝน และการปรับพฤติกรรมของโมเดลผ่านกระบวนการฝึกฝน OpenAI ได้สร้างระบบความปลอดภัยใหม่เพื่อการควบคุมที่ดีขึ้น ทั้งการประเมินด้านความปลอดภัยทางไซเบอร์, CBRN, การชักจูง และความเป็นอิสระของโมเดลแสดงให้เห็นว่า GPT-4o เป็น AI ที่มีความเสี่ยงต่ำและความปลอดภัยสูง

GPT-4o ยังผ่านการทดสอบด้านความเสี่ยงโดยผู้เชี่ยวชาญภายนอกกว่า 70 คนในสาขาต่างๆ เช่น จิตวิทยาสังคม, ความเที่ยงตรงและความยุติธรรม, และการเผยแพร่ข้อมูลเท็จ เพื่อระบุความเสี่ยงที่อาจถูกนำเสนอหรือขยายผลโดยโหมดการทำงานใหม่ที่เพิ่มเข้ามา OpenAI ใช้บทเรียนเหล่านี้ในการพัฒนามาตรการความปลอดภัยเพื่อปรับปรุงความปลอดภัยในการใช้งาน GPT-4o โดยจะยังคงปรับปรุงเพื่อลดความเสี่ยงใหม่ๆ ที่อาจถูกค้นพบ

ความพร้อมใช้งานของโมเดล

GPT-4o เป็นความพยายามล่าสุดในการผลักดันขีดจำกัดของการเรียนรู้เชิงลึก (deep learning) โดยครั้งนี้มุ่งเน้นไปที่การใช้งานในทางปฏิบัติ OpenAI ได้ทุ่มเทความพยายามอย่างมากในช่วงสองปีที่ผ่านมาเพื่อปรับปรุงประสิทธิภาพในทุกชั้นของระบบ ผลลัพธ์แรกของการวิจัยนี้ทำให้สามารถนำโมเดลระดับ GPT-4 มาใช้ได้อย่างกว้างขวางยิ่งขึ้น

ความสามารถของ GPT-4o จะถูกเปิดตัวอย่างค่อยเป็นค่อยไป ส่วนความสามารถด้านข้อความและภาพของ GPT-4o เริ่มให้บริการใน ChatGPT ตั้งแต่วันนี้ GPT-4o พร้อมใช้งานทั้งแบบไม่เสียค่าใช้จ่ายและสำหรับผู้ใช้งาน Plus ที่มีขีดจำกัดข้อความสูงกว่าถึง 5 เท่า ในอีกไม่กี่สัปดาห์ข้างหน้า จะมีการเปิดตัว Voice Mode เวอร์ชันใหม่ที่ใช้ GPT-4o ในรูปแบบ Alpha ภายใน ChatGPT Plus

GPT-4o พร้อมใช้งานสำหรับนักพัฒนาผ่าน API แล้ว

ตอนนี้นักพัฒนาสามารถเข้าถึง GPT-4o ผ่าน API ในรูปแบบโมเดลข้อความและภาพได้แล้ว GPT-4o มีความเร็วเป็น 2 เท่า ขณะที่ราคาถูกลงครึ่งหนึ่ง และมีขีดจำกัดอัตราการใช้งานสูงกว่า GPT-4 Turbo ถึง 5 เท่า

ทาง Amity Solutions ก็มีบริการ Chatbot ที่ช่วยเพิ่มประสิทธิภาพการดำเนินงานเช่นกัน ปรึกษาผู้เชี่ยวชาญของเราได้ที่นี่

‍