ในโลกของปัญญาประดิษฐ์ที่กำลังพัฒนาอย่างรวดเร็ว มีสองเทคนิคหลักในการจัดการกับข้อมูลขนาดใหญ่ที่น่าสนใจ นั่นคือ การสร้างเนื้อหาโดยใช้การค้นคืนข้อมูล (Retrieval Augmented Generation หรือ RAG) และโมเดลภาษาขนาดใหญ่ที่รองรับบริบทที่ยาว (Long-Context Large Language Models หรือ LC LLMs)
บทความนี้จะพาไปสำรวจความแตกต่างระหว่างสองเทคนิคนี้ พร้อมชี้ให้เห็นจุดเด่นและจุดด้อย รวมถึงแนะนำวิธีผสมผสานที่นำข้อดีของทั้งสองแบบมารวมกัน
RAG เป็นเทคนิคที่ AI จะค้นหาข้อมูลที่เกี่ยวข้องจากฐานข้อมูลขนาดใหญ่ แล้วนำมาสร้างคำตอบ ลองนึกภาพว่าเรามีห้องสมุดขนาดมหึมา แทนที่จะอ่านหนังสือทุกเล่ม เราสามารถขอให้บรรณารักษ์ (ซึ่งก็คือ AI) หยิบหนังสือที่เกี่ยวข้องกับคำถามมาให้ จากนั้น AI ก็จะใช้ข้อมูลจากหนังสือเหล่านั้นมาตอบคำถามของเรานั่นเอง
ตัวอย่างเช่น สมมติว่ามีแชทบอท HR ที่ออกแบบมาเพื่อตอบคำถามเกี่ยวกับสวัสดิการพนักงาน ถ้าพนักงานถามเกี่ยวกับการเบิกค่ารักษาพยาบาลผู้ป่วยนอก (OPD) ภายใต้กรมธรรม์ประกันกลุ่ม ระบบที่ใช้ RAG จะค้นหาเอกสารหรือส่วนที่เกี่ยวข้องกับการเบิก OPD โดยเฉพาะ แล้วสร้างคำตอบจากข้อมูลที่ค้นมาได้ ทำให้คำตอบมีความแม่นยำและตรงประเด็น
ในทางกลับกัน LC LLMs ถูกออกแบบมาให้ประมวลผลและเข้าใจข้อความยาวๆ ได้โดยตรง โมเดลเหล่านี้สามารถจัดการกับบริบทที่ยาวมากๆ โดยไม่ต้องไปค้นหาข้อมูลเพิ่มเติม ทำให้เหมาะกับงานที่ต้องการความเข้าใจอย่างลึกซึ้งและต่อเนื่อง ซึ่งต่างจากโมเดลภาษาขนาดเล็กหรือที่มีบริบทสั้นๆ ที่อาจจะไม่สามารถจับรายละเอียดหรือบริบทที่ซับซ้อนได้เท่ากัน
ยกตัวอย่างเดียวกันกับแชทบอท HR ถ้าพนักงานถามเรื่องการเบิกค่า OPD ระบบที่ใช้ LC จะนำเอากรมธรรม์ประกันกลุ่มทั้งฉบับมาใส่ไว้ในคำสั่ง (prompt) ของ AI ทำให้โมเดลสามารถให้คำตอบที่ครอบคลุมโดยเข้าใจบริบททั้งหมดของกรมธรรม์ แม้ว่าคำถามจะเกี่ยวข้องกับหลายแง่มุมของความคุ้มครองก็ตาม
งานวิจัยล่าสุดได้เปรียบเทียบ RAG และ LC โดยใช้ชุดข้อมูลหลากหลาย ทดสอบกับโมเดลอย่าง Gemini-1.5-Pro และ GPT-4 ผลการวิจัยพบว่าโมเดล LC มักจะมีประสิทธิภาพดีกว่า RAG ในแง่ของความแม่นยำและความลึกของความเข้าใจ หากมีทรัพยากรการคำนวณเพียงพอ อย่างไรก็ตาม RAG ยังคงมีข้อได้เปรียบในแง่ของต้นทุนการคำนวณที่ต่ำกว่า
เพื่อลดช่องว่างระหว่างประสิทธิภาพและต้นทุน นักวิจัยได้เสนอวิธี Self-Route ซึ่งเป็นวิธีผสมผสานที่เลือกใช้ RAG หรือ LC แบบไดนามิก ขึ้นอยู่กับความซับซ้อนของคำถามและการประเมินตนเองของโมเดล
โดยเทคนิค Self-Route ให้ประสิทธิภาพที่สมดุล โดย GPT-4O ทำได้ 48.89 คะแนน และ Gemini-1.5-Pro ทำได้ 46.41 คะแนน ในขณะที่รักษาต้นทุนให้อยู่ในระดับปานกลาง (61% สำหรับ GPT-4O)
สรุปง่ายๆ คือ แม้ว่า LC LLMs จะเก่งกว่าในงานที่ต้องดึงข้อมูลยาวๆ มาใช้ แต่ RAG ก็ยังมีประโยชน์เพราะประหยัดค่าใช้จ่ายกว่า ส่วนเทคนิค Self-Route ที่เพิ่งคิดค้นขึ้นมาใหม่นี้ เอาข้อดีของทั้งสองอย่างมารวมกัน ทำให้ได้วิธีที่ทั้งมีประสิทธิภาพและประหยัดไปพร้อมๆ กัน ไม่แปลกเลยถ้าในอนาคตอันใกล้ เราจะเห็นเทคนิคแบบผสมผสานนี้ถูกนำไปใช้กันอย่างแพร่หลาย เพราะมันตอบโจทย์การใช้งานได้หลากหลายและมีประสิทธิภาพสูงนั่นเอง
ทาง Amity Solutions ก็มีบริการ generative AI และ Chatbot ที่ช่วยเพิ่มประสิทธิภาพการดำเนินงานเช่นกัน ปรึกษาผู้เชี่ยวชาญของเราได้ที่นี่