ChatGPT

Operator จาก OpenAI: ผู้ช่วยคนใหม่ให้การทำงานบนเว็บง่ายขึ้น

Boonyawee Sirimaya

•

January 31, 2025

นาที อ่าน

ภาพปกบล็อกแสดงชื่อ Computer-Using Agent และชื่อรอง OpenAI Operator บนพื้นหลังไล่ระดับสีน้ำเงิน

OpenAI เปิดตัว Operator ในรูปแบบการทดลองวิจัย เป็น AI ตัวแทนขั้นสูงที่สามารถท่องเว็บและจัดการงานดิจิทัลได้ หัวใจสำคัญคือระบบ Computer-Using Agent (CUA) ที่ผสานความสามารถด้านการมองเห็นของ GPT-4o เข้ากับการใช้เหตุผลแบบเรียนรู้เสริมแรง CUA โต้ตอบกับส่วนติดต่อผู้ใช้แบบกราฟิก (GUI) เหมือนมนุษย์ ไม่ว่าจะเป็นการกดปุ่ม เมนู และช่องข้อความ แทนที่จะพึ่งพา API เฉพาะของระบบปฏิบัติการหรือเว็บ วิธีนี้ช่วยเพิ่มความยืดหยุ่นในการทำงานข้ามแพลตฟอร์มต่างๆ

ก้าวกระโดดของ AI ด้วยการโต้ตอบผ่าน GUI

CUA เป็นผลลัพธ์จากการวิจัยหลายปีที่บูรณาการความเข้าใจหลายรูปแบบและการแก้ปัญหาอย่างเป็นระบบ ด้วยความสามารถในการรับรู้และโต้ตอบกับ GUI ทำให้สามารถแยกงานซับซ้อนเป็นขั้นตอนย่อยๆ พร้อมรับมือกับความท้าทายที่ไม่คาดคิด นับเป็นก้าวสำคัญของ AI ที่ช่วยให้โมเดลใช้เครื่องมือดิจิทัลได้คล้ายมนุษย์ และขยายขอบเขตการประยุกต์ใช้

แม้จะอยู่ในช่วงเริ่มต้น CUA ก็สร้างมาตรฐานใหม่ในประสิทธิภาพของ AI โดยทำคะแนนได้ 38.1% ใน OSWorld สำหรับการใช้คอมพิวเตอร์ทั่วไป 58.1% ใน WebArena และ 87% ใน WebVoyager สำหรับงานบนเว็บ ผลลัพธ์นี้แสดงให้เห็นความสามารถในการทำงานข้ามสภาพแวดล้อมดิจิทัลที่หลากหลายด้วยกรอบการทำงานเดียวกัน

การประเมินผลและประสิทธิภาพตามเกณฑ์มาตรฐาน

CUA สร้างมาตรฐานใหม่ทั้งในงานคอมพิวเตอร์และงานบนเว็บ โดยใช้อินเทอร์เฟซสากลเดียวกันคือหน้าจอ เมาส์ และคีย์บอร์ด

การใช้งานเบราว์เซอร์

WebArena และ WebVoyager เป็นแพลตฟอร์มทดสอบที่ออกแบบมาเพื่อประเมินความสามารถของตัวแทน AI ในการท่องโลกออนไลน์ โดยที่ WebArena ใช้เว็บไซต์โอเพนซอร์สที่โฮสต์เองเพื่อจำลองสถานการณ์จริง เช่น อีคอมเมิร์ซ ระบบจัดการเนื้อหา และฟอรัม ส่วน WebVoyager ประเมินความสามารถของโมเดลบนแพลตฟอร์มออนไลน์จริง เช่น Amazon, GitHub และ Google Maps

CUA แสดงประสิทธิภาพที่โดดเด่นในการทดสอบเหล่านี้ ด้วยอัตราความสำเร็จ 58.1% ใน WebArena และ 87% ใน WebVoyager แม้จะทำผลงานได้ดีใน WebVoyager แต่งานที่ซับซ้อนกว่าใน WebArena ชี้ให้เห็นว่ายังต้องพัฒนาต่อเพื่อให้ทัดเทียมมนุษย์

การใช้งานคอมพิวเตอร์

OSWorld เป็นเกณฑ์มาตรฐานที่วัดความสามารถของโมเดลในการใช้งานระบบคอมพิวเตอร์ ทั้ง Ubuntu, Windows และ macOS CUA ทำคะแนนได้ 38.1% ใน OSWorld แสดงให้เห็นศักยภาพในการจัดการสภาพแวดล้อมดิจิทัลที่หลากหลาย ที่น่าสนใจคือประสิทธิภาพจะดีขึ้นเมื่อเพิ่มขั้นตอนการประมวลผล บ่งชี้ว่ามีโอกาสพัฒนาความสามารถต่อไปได้อีก อย่างไรก็ตาม ประสิทธิภาพของมนุษย์ในการทดสอบนี้อยู่ที่ 72.4% ชี้ให้เห็นว่ายังมีพื้นที่ให้พัฒนาอีกมาก

กราฟแสดงการเปรียบเทียบอัตราความสำเร็จระหว่าง OpenAI CUA และ Claude-3-5-sonnet-20241022 ในการทดสอบ OSWorld — กราฟเปรียบเทียบประสิทธิภาพแสดงอัตราความสำเร็จของ CUA ที่เพิ่มขึ้นตามจำนวนขั้นตอนการประมวลผลใน OSWorld

การให้ความสำคัญกับความปลอดภัยและการเปิดตัวอย่างรับผิดชอบ

ด้วยความสามารถของ CUA ในการโต้ตอบกับสภาพแวดล้อมดิจิทัล ความปลอดภัยจึงเป็นจุดเน้นหลักในการพัฒนา OpenAI ได้ติดตั้งระบบป้องกันเพื่อจัดการความเสี่ยงต่างๆ ตามรายละเอียดใน Operator System Card ในแผนการเปิดตัวแบบเฟส CUA จะเริ่มให้บริการในรูปแบบการทดลองวิจัยผ่าน Operator ที่ operator.chatgpt.com สำหรับผู้ใช้ระดับ Pro ในสหรัฐฯ การเปิดตัวแบบควบคุมนี้ช่วยให้ OpenAI รวบรวมข้อเสนอแนะจากผู้ใช้ ปรับปรุงมาตรการความปลอดภัย และเพิ่มความน่าเชื่อถือก่อนขยายการให้บริการ

วิธีการทำงานของ CUA

แผนภาพแสดงการทำงานของ CUA จากข้อมูลนำเข้า (ข้อความคำสั่งและภาพหน้าจอ) สู่การโต้ตอบกับเครื่องจักรเสมือน — แผนผังแสดงวิธีการที่ CUA ประมวลผลข้อมูลนำเข้าและสร้างการกระทำสำหรับโต้ตอบกับเครื่องจักรเสมือน

CUA ทำงานด้วยการวิเคราะห์ข้อมูลพิกเซลเพื่อแปลความหมายสิ่งที่อยู่บนหน้าจอ และใช้เมาส์และคีย์บอร์ดเสมือนในการทำงาน สามารถจัดการกระบวนการหลายขั้นตอน แก้ไขข้อผิดพลาด และปรับตัวกับสภาพแวดล้อมที่เปลี่ยนแปลง ทำให้มีความยืดหยุ่นสูง

วงจรการทำงานของ CUA ประกอบด้วยสามขั้นตอนหลัก:

การรับรู้: โมเดลจับภาพหน้าจอของสภาพแวดล้อมดิจิทัลปัจจุบัน เพื่อใช้ในการตัดสินใจ
การใช้เหตุผล: CUA ใช้วิธีการคิดแบบเป็นลำดับขั้น ประเมินสิ่งที่สังเกตเห็น ติดตามขั้นตอนระหว่างทาง และกำหนดลำดับการทำงานที่เหมาะสมที่สุด
การลงมือทำ: โต้ตอบกับอินเทอร์เฟซด้วยการคลิก เลื่อน และพิมพ์ ทำต่อเนื่องจนกว่างานจะเสร็จหรือต้องการข้อมูลจากผู้ใช้ สำหรับการทำงานที่ต้องการความปลอดภัยสูง เช่น การใส่ข้อมูลเข้าสู่ระบบหรือตอบ CAPTCHA CUA จะขอการยืนยันจากผู้ใช้ก่อนดำเนินการ

ด้วยการพัฒนาอย่างต่อเนื่องจากข้อเสนอแนะในโลกจริง CUA แสดงถึงความก้าวหน้าครั้งสำคัญในการทำงานอัตโนมัติด้วย AI ความสามารถในการใช้อินเทอร์เฟซดิจิทัลเหมือนมนุษย์เปิดโอกาสใหม่สำหรับการประยุกต์ใช้ AI และเพิ่มประสิทธิภาพดิจิทัลในทุกอุตสาหกรรม

การรักษาความปลอดภัยในการใช้งาน AI Agent

ในฐานะที่เป็นหนึ่งใน AI Agent ตัวแรกๆ ของ OpenAI ที่สามารถดำเนินการในเบราว์เซอร์ได้โดยตรง CUA นำมาซึ่งความท้าทายและความเสี่ยงใหม่ๆ ที่ต้องจัดการอย่างรอบคอบ ก่อนเปิดตัว Operator มีการทดสอบความปลอดภัยอย่างละเอียดและติดตั้งระบบป้องกันเพื่อรับมือกับความเสี่ยงหลัก 3 ด้าน: การใช้งานในทางที่ผิด ข้อผิดพลาดของโมเดล และภัยคุกคามด้านความปลอดภัยขั้นสูง OpenAI ใช้วิธีการป้องกันแบบหลายชั้น ทั้งในระดับโมเดล CUA ระบบ Operator และการติดตามหลังการใช้งาน

การจัดการความเสี่ยงจากการใช้งานในทางที่ผิด

Operator มีระบบป้องกันหลายชั้นควบคู่กับนโยบายการใช้งานของ OpenAI:

การปฏิเสธ: CUA ถูกฝึกให้ปฏิเสธงานที่เป็นอันตราย ผิดกฎหมาย หรืออยู่ภายใต้การควบคุม
บัญชีดำ: Operator จำกัดการเข้าถึงเว็บไซต์บางประเภท เช่น การพนัน เนื้อหาสำหรับผู้ใหญ่ และร้านค้าที่ขายยาหรืออาวุธปืน
การกลั่นกรอง: ระบบตรวจสอบความปลอดภัยอัตโนมัติคอยเฝ้าดูการโต้ตอบของผู้ใช้แบบเรียลไทม์
การตรวจจับออฟไลน์: ใช้ทั้งเครื่องมืออัตโนมัติและการตรวจสอบโดยมนุษย์เพื่อป้องกันกิจกรรมต้องห้าม

การลดข้อผิดพลาดของโมเดล

ข้อผิดพลาดของโมเดล เช่น การทำงานที่ไม่ได้ตั้งใจ อาจมีตั้งแต่ปัญหาเล็กน้อยอย่างพิมพ์ผิดในอีเมล ไปจนถึงผลกระทบรุนแรง เช่น การซื้อของผิด หรือลบข้อมูลสำคัญ OpenAI จึงมีมาตรการต่อไปนี้:

การยืนยันจากผู้ใช้: ก่อนดำเนินการที่มีผลภายนอก CUA จะขอการยืนยันจากผู้ใช้
ข้อจำกัดงาน: โมเดลจะปฏิเสธคำขอที่เกี่ยวข้องกับกิจกรรมเสี่ยงสูง
โหมดเฝ้าดู: เมื่อใช้งานเว็บไซต์ที่ละเอียดอ่อน Operator จะต้องมีผู้ใช้คอยกำกับดูแล

การป้องกันการโจมตี

CUA มีระบบป้องกันการโจมตีต่างๆ รวมถึง prompt injection การเจาะระบบ และการหลอกลวง:

การนำทางอย่างระมัดระวัง: โมเดลถูกฝึกให้ตรวจจับและละเว้นความพยายามฉีด prompt
ระบบเฝ้าระวัง: มีโมเดลตรวจสอบที่คอยสแกนเนื้อหาต้องสงสัย
ระบบตรวจจับ: กระบวนการตรวจสอบอัตโนมัติและโดยมนุษย์คอยติดตามรูปแบบการเข้าถึงที่ผิดปกติ

บทสรุป

CUA แสดงถึงความก้าวหน้าหลายปีในด้าน AI แบบ multimodal การใช้เหตุผล และการวิจัยด้านความปลอดภัย OpenAI ได้พัฒนาการใช้เหตุผลเชิงลึกผ่านซีรีส์ o-model เพิ่มขีดความสามารถด้านการมองเห็นผ่าน GPT-4o และเสริมความแข็งแกร่งของ AI ด้วยการเรียนรู้แบบเสริมแรงและลำดับขั้นคำสั่ง การพัฒนาระยะต่อไปจะมุ่งเน้นการขยายความสามารถของ AI Agent ในการโต้ตอบกับสภาพแวดล้อมซอฟต์แวร์ที่หลากหลาย

ด้วยการใช้อินเทอร์เฟซสากล CUA ถูกออกแบบให้สามารถใช้เครื่องมือดิจิทัลใดๆ ที่สร้างมาสำหรับผู้ใช้ที่เป็นมนุษย์ ก้าวข้ามข้อจำกัดของ API เฉพาะทาง ความสามารถในการปรับตัวนี้ช่วยให้จัดการงานดิจิทัลที่หลากหลายซึ่งโมเดล AI ทั่วไปทำได้ยาก OpenAI กำลังทำงานเพื่อผสาน CUA เข้ากับ API ของตน เพื่อให้นักพัฒนาสามารถสร้าง AI Agent ของตัวเองได้

ขณะที่การทดลองวิจัยดำเนินต่อไป OpenAI จะปรับปรุงความสามารถและระบบป้องกันของ CUA จากข้อเสนอแนะในโลกจริง เพื่อให้แน่ใจว่าความก้าวหน้าของ AI ยังคงทั้งนวัตกรรมและความรับผิดชอบ

ทาง Amity Solutions ก็มีบริการ Amity Botsที่ช่วยเพิ่มประสิทธิภาพการดำเนินงานเช่นกัน ปรึกษาผู้เชี่ยวชาญของเราได้ที่นี่