인공지능(AI) 기술이 급속히 발전하면서 기존 평가 방식의 한계가 드러나 미국 주요 기술기업들이 AI 모델을 테스트하고 평가하는 새로운 방식을 모색하고 있다.
인공지능(AI) 관련 이미지 [로이터 연합뉴스 자료사진]
9일(현지시간) 파이낸셜타임스(FT)에 따르면, 기존 벤치마크 테스트에서 AI 신모델들의 정확도가 90%대를 기록하면서 더 복잡하고 정교한 평가 방식의 필요성이 대두되고 있다.
메타플랫폼의 한 관계자는 "업계의 발전 속도가 극히 빠르다"면서 "측정 능력이 포화하기 시작했으며 AI 신모델을 평가하기가 점점 어려워지고 있다"고 지적했다.
오픈AI, 마이크로소프트, 메타, 앤스로픽 등은 최근 인간을 대신해 자동으로 업무를 수행할 수 있는 'AI 에이전트' 구축 계획을 발표했다. 이러한 새로운 기술의 등장으로 평가 방식의 혁신이 시급해졌다.
이에 주요 기술기업들은 자체적인 벤치마크를 개발하고 있다. 다만 업계 일각에서는 공개적인 테스트가 없는 상황에서 각 기업의 AI 기술을 객관적으로 비교하기 어렵다는 우려가 제기되고 있다.
이런 상황에서 기존 벤치마크 중 하나인 'SWE-bench Verified'는 지난 8월 오픈AI 등의 의견을 반영해 업데이트를 진행했다. 이 테스트는 개발자 플랫폼 '깃허브' 등에서 가져온 실제 문제를 활용하고 있다.
새로운 테스트에서 오픈AI의 최신 AI 모델인 GPT-4는 41.4%의 문제를 해결했으며, 앤스로픽의 '클로드 3.5 소넷'은 49%의 정답률을 기록했다.
한편 AI 세이프티의 댄 헨드릭스는 "테스트가 공개되지 않으면 재계나 사회 전반에서 비교에 대해 말하기 어렵다"며 공개된 평가 기준의 필요성을 강조했다.