ทีมวิจัยของแอปเปลรายงานถึงการทดสอบทางคณิตศาสตร์ของ Large Language Model (LLM) ว่าอาจจะยังไม่ดีพอ โดยยกตัวอย่างการทดสอบ GSM8K ที่ทดสอบการให้เหตุผลทางคณิตศาสตร์ที่ LLM รุ่นใหม่ๆ ทำคะแนนได้ดีขึ้นเรื่อยๆ แต่เมื่อทดสอบแก้ไขโจทย์เล็กน้อย หลายโมเดลกลับทำคะแนนได้แย่ลงมาก แสดงให้เห็นว่าโมเดลเหล่านี้ท่องโจทย์มาตอบ ไม่ได้เข้าใจโจทย์จริงๆ
แนวทางของทีมงานคือการสร้างชุดทดสอบ GSM-Symbolic เป็น template ของชุดทดสอบที่สามารถสร้างข้อสอบได้หลากหลาย หลังจากนั้นทดสอบด้วยชุดทดสอบที่เปลี่ยนค่าต่างๆ ไปแล้ว
ผลทดสอบพบว่าโมเดลจำนวนมากคะแนนแย่ลงมากจากการเปลี่ยนตัวเลข ขณะที่การเปลี่ยนค่าอืนๆ เช่น ชื่อต่าง ยังคงสามารถทำงานได้ถูกต้องอยู่ หรือชุดทดสอบ GSM-NoOps ที่ใส่ข้อความที่ไม่เกี่ยวกับโจทย์เติมลงไปก็ทำให้ผลทดสอบแย่ลงเช่นกัน
ประสิทธิภาพของ LLM ใน GSM-Symbolic นั้นลดลงต่างกันไป โดย GPT-4o ลดลงน้อยที่สุด แต่หากเพิ่มความยากให้โจทย์ด้วยการเพิ่มข้อความในโจทย์เติมลงไปอีกสองชุด คะแนนก็จะลดลงชัดเจนทุกโมเดล รวมถึง GPT-4o
ที่มา - ArXiv