거대 언어 모델의 한계점 발견: 긴 대화가 모델의 정확도를 33퍼센트 하락시킨다

최신 거대 언어 모델들이 더 넓은 컨텍스트 창을 제공하고 있음에도 불구하고, 실제 긴 대화 과정에서의 신뢰성은 여전히 취약한 것으로 나타났습니다. 필립 라반(Philippe Laban) 연구팀의 최신 보고서에 따르면, 인공지능과의 대화 턴(Turn)이 길어질수록 모델의 작업 수행 정확도가 초기 대비 최대 33퍼센트까지 하락하는 현상이 관찰되었습니다.

연구진은 코드 작성, 데이터베이스 쿼리, 수학 문제 해결 등 6가지 영역에서 성능을 테스트했습니다. 그 결과 동일한 정보를 단일 프롬프트로 전달했을 때와 여러 번의 대화로 나누어 전달했을 때의 성능 차이가 극명하게 갈렸습니다. 정보가 파편화되어 메시지 사이에 흩어질 경우, 모델은 맥락을 유지하고 이를 종합하여 최종 결과물을 도출하는 데 큰 어려움을 겪는 것으로 분석되었습니다.

특히 사용자가 대화 중간에 요구 사항을 변경하거나 새로운 정보를 추가할 경우 성능 하락 폭은 더욱 커졌습니다. 이는 현재의 인공지능이 긴 대화를 인간처럼 완벽하게 기억하고 추론하는 데 구조적인 한계가 있음을 보여줍니다.

연구팀은 인공지능과 복잡한 작업을 수행할 때 발생할 수 있는 오류를 줄이기 위한 실질적인 해결책을 제시했습니다. 대화가 일정 수준 이상 길어지거나 결과가 모호해질 경우, 현재까지의 대화 내용을 모델에게 요약하게 한 뒤 그 요약본을 바탕으로 완전히 새로운 대화창에서 작업을 다시 시작하는 것이 가장 효율적입니다. 이러한 '맥락 리셋' 전략은 인공지능을 비즈니스에 활용하는 억만장자들이 반드시 숙지해야 할 필수 운용 팁입니다.