OpenAI เปิดตัว Operator ในรูปแบบการทดลองวิจัย เป็น AI ตัวแทนขั้นสูงที่สามารถท่องเว็บและจัดการงานดิจิทัลได้ หัวใจสำคัญคือระบบ Computer-Using Agent (CUA) ที่ผสานความสามารถด้านการมองเห็นของ GPT-4o เข้ากับการใช้เหตุผลแบบเรียนรู้เสริมแรง CUA โต้ตอบกับส่วนติดต่อผู้ใช้แบบกราฟิก (GUI) เหมือนมนุษย์ ไม่ว่าจะเป็นการกดปุ่ม เมนู และช่องข้อความ แทนที่จะพึ่งพา API เฉพาะของระบบปฏิบัติการหรือเว็บ วิธีนี้ช่วยเพิ่มความยืดหยุ่นในการทำงานข้ามแพลตฟอร์มต่างๆ
CUA เป็นผลลัพธ์จากการวิจัยหลายปีที่บูรณาการความเข้าใจหลายรูปแบบและการแก้ปัญหาอย่างเป็นระบบ ด้วยความสามารถในการรับรู้และโต้ตอบกับ GUI ทำให้สามารถแยกงานซับซ้อนเป็นขั้นตอนย่อยๆ พร้อมรับมือกับความท้าทายที่ไม่คาดคิด นับเป็นก้าวสำคัญของ AI ที่ช่วยให้โมเดลใช้เครื่องมือดิจิทัลได้คล้ายมนุษย์ และขยายขอบเขตการประยุกต์ใช้
แม้จะอยู่ในช่วงเริ่มต้น CUA ก็สร้างมาตรฐานใหม่ในประสิทธิภาพของ AI โดยทำคะแนนได้ 38.1% ใน OSWorld สำหรับการใช้คอมพิวเตอร์ทั่วไป 58.1% ใน WebArena และ 87% ใน WebVoyager สำหรับงานบนเว็บ ผลลัพธ์นี้แสดงให้เห็นความสามารถในการทำงานข้ามสภาพแวดล้อมดิจิทัลที่หลากหลายด้วยกรอบการทำงานเดียวกัน
CUA สร้างมาตรฐานใหม่ทั้งในงานคอมพิวเตอร์และงานบนเว็บ โดยใช้อินเทอร์เฟซสากลเดียวกันคือหน้าจอ เมาส์ และคีย์บอร์ด
WebArena และ WebVoyager เป็นแพลตฟอร์มทดสอบที่ออกแบบมาเพื่อประเมินความสามารถของตัวแทน AI ในการท่องโลกออนไลน์ โดยที่ WebArena ใช้เว็บไซต์โอเพนซอร์สที่โฮสต์เองเพื่อจำลองสถานการณ์จริง เช่น อีคอมเมิร์ซ ระบบจัดการเนื้อหา และฟอรัม ส่วน WebVoyager ประเมินความสามารถของโมเดลบนแพลตฟอร์มออนไลน์จริง เช่น Amazon, GitHub และ Google Maps
CUA แสดงประสิทธิภาพที่โดดเด่นในการทดสอบเหล่านี้ ด้วยอัตราความสำเร็จ 58.1% ใน WebArena และ 87% ใน WebVoyager แม้จะทำผลงานได้ดีใน WebVoyager แต่งานที่ซับซ้อนกว่าใน WebArena ชี้ให้เห็นว่ายังต้องพัฒนาต่อเพื่อให้ทัดเทียมมนุษย์
OSWorld เป็นเกณฑ์มาตรฐานที่วัดความสามารถของโมเดลในการใช้งานระบบคอมพิวเตอร์ ทั้ง Ubuntu, Windows และ macOS CUA ทำคะแนนได้ 38.1% ใน OSWorld แสดงให้เห็นศักยภาพในการจัดการสภาพแวดล้อมดิจิทัลที่หลากหลาย ที่น่าสนใจคือประสิทธิภาพจะดีขึ้นเมื่อเพิ่มขั้นตอนการประมวลผล บ่งชี้ว่ามีโอกาสพัฒนาความสามารถต่อไปได้อีก อย่างไรก็ตาม ประสิทธิภาพของมนุษย์ในการทดสอบนี้อยู่ที่ 72.4% ชี้ให้เห็นว่ายังมีพื้นที่ให้พัฒนาอีกมาก
ด้วยความสามารถของ CUA ในการโต้ตอบกับสภาพแวดล้อมดิจิทัล ความปลอดภัยจึงเป็นจุดเน้นหลักในการพัฒนา OpenAI ได้ติดตั้งระบบป้องกันเพื่อจัดการความเสี่ยงต่างๆ ตามรายละเอียดใน Operator System Card ในแผนการเปิดตัวแบบเฟส CUA จะเริ่มให้บริการในรูปแบบการทดลองวิจัยผ่าน Operator ที่ operator.chatgpt.com สำหรับผู้ใช้ระดับ Pro ในสหรัฐฯ การเปิดตัวแบบควบคุมนี้ช่วยให้ OpenAI รวบรวมข้อเสนอแนะจากผู้ใช้ ปรับปรุงมาตรการความปลอดภัย และเพิ่มความน่าเชื่อถือก่อนขยายการให้บริการ
CUA ทำงานด้วยการวิเคราะห์ข้อมูลพิกเซลเพื่อแปลความหมายสิ่งที่อยู่บนหน้าจอ และใช้เมาส์และคีย์บอร์ดเสมือนในการทำงาน สามารถจัดการกระบวนการหลายขั้นตอน แก้ไขข้อผิดพลาด และปรับตัวกับสภาพแวดล้อมที่เปลี่ยนแปลง ทำให้มีความยืดหยุ่นสูง
วงจรการทำงานของ CUA ประกอบด้วยสามขั้นตอนหลัก:
ด้วยการพัฒนาอย่างต่อเนื่องจากข้อเสนอแนะในโลกจริง CUA แสดงถึงความก้าวหน้าครั้งสำคัญในการทำงานอัตโนมัติด้วย AI ความสามารถในการใช้อินเทอร์เฟซดิจิทัลเหมือนมนุษย์เปิดโอกาสใหม่สำหรับการประยุกต์ใช้ AI และเพิ่มประสิทธิภาพดิจิทัลในทุกอุตสาหกรรม
ในฐานะที่เป็นหนึ่งใน AI Agent ตัวแรกๆ ของ OpenAI ที่สามารถดำเนินการในเบราว์เซอร์ได้โดยตรง CUA นำมาซึ่งความท้าทายและความเสี่ยงใหม่ๆ ที่ต้องจัดการอย่างรอบคอบ ก่อนเปิดตัว Operator มีการทดสอบความปลอดภัยอย่างละเอียดและติดตั้งระบบป้องกันเพื่อรับมือกับความเสี่ยงหลัก 3 ด้าน: การใช้งานในทางที่ผิด ข้อผิดพลาดของโมเดล และภัยคุกคามด้านความปลอดภัยขั้นสูง OpenAI ใช้วิธีการป้องกันแบบหลายชั้น ทั้งในระดับโมเดล CUA ระบบ Operator และการติดตามหลังการใช้งาน
Operator มีระบบป้องกันหลายชั้นควบคู่กับนโยบายการใช้งานของ OpenAI:
ข้อผิดพลาดของโมเดล เช่น การทำงานที่ไม่ได้ตั้งใจ อาจมีตั้งแต่ปัญหาเล็กน้อยอย่างพิมพ์ผิดในอีเมล ไปจนถึงผลกระทบรุนแรง เช่น การซื้อของผิด หรือลบข้อมูลสำคัญ OpenAI จึงมีมาตรการต่อไปนี้:
CUA มีระบบป้องกันการโจมตีต่างๆ รวมถึง prompt injection การเจาะระบบ และการหลอกลวง:
CUA แสดงถึงความก้าวหน้าหลายปีในด้าน AI แบบ multimodal การใช้เหตุผล และการวิจัยด้านความปลอดภัย OpenAI ได้พัฒนาการใช้เหตุผลเชิงลึกผ่านซีรีส์ o-model เพิ่มขีดความสามารถด้านการมองเห็นผ่าน GPT-4o และเสริมความแข็งแกร่งของ AI ด้วยการเรียนรู้แบบเสริมแรงและลำดับขั้นคำสั่ง การพัฒนาระยะต่อไปจะมุ่งเน้นการขยายความสามารถของ AI Agent ในการโต้ตอบกับสภาพแวดล้อมซอฟต์แวร์ที่หลากหลาย
ด้วยการใช้อินเทอร์เฟซสากล CUA ถูกออกแบบให้สามารถใช้เครื่องมือดิจิทัลใดๆ ที่สร้างมาสำหรับผู้ใช้ที่เป็นมนุษย์ ก้าวข้ามข้อจำกัดของ API เฉพาะทาง ความสามารถในการปรับตัวนี้ช่วยให้จัดการงานดิจิทัลที่หลากหลายซึ่งโมเดล AI ทั่วไปทำได้ยาก OpenAI กำลังทำงานเพื่อผสาน CUA เข้ากับ API ของตน เพื่อให้นักพัฒนาสามารถสร้าง AI Agent ของตัวเองได้
ขณะที่การทดลองวิจัยดำเนินต่อไป OpenAI จะปรับปรุงความสามารถและระบบป้องกันของ CUA จากข้อเสนอแนะในโลกจริง เพื่อให้แน่ใจว่าความก้าวหน้าของ AI ยังคงทั้งนวัตกรรมและความรับผิดชอบ
ทาง Amity Solutions ก็มีบริการ Amity Botsที่ช่วยเพิ่มประสิทธิภาพการดำเนินงานเช่นกัน ปรึกษาผู้เชี่ยวชาญของเราได้ที่นี่