기사 메일전송

AI 기술 진화에 따른 평가 방식도 혁신 필요하다

김인규 기자
등록 2024-11-11 12:16:02

목록

AI 모델 평가 벤치마크서 90%대 정확도...기존 테스트로는 한계
오픈AI·메타 등 자체 평가 방식 개발...전문가들은 "공개 테스트 필요" 지적
SWE-bench Verified 등 실제 문제 활용한 새로운 테스트 등장

인공지능(AI) 기술이 급속히 발전하면서 기존 평가 방식의 한계가 드러나 미국 주요 기술기업들이 AI 모델을 테스트하고 평가하는 새로운 방식을 모색하고 있다.

인공지능(AI) 관련 이미지 [로이터 연합뉴스 자료사진]

9일(현지시간) 파이낸셜타임스(FT)에 따르면, 기존 벤치마크 테스트에서 AI 신모델들의 정확도가 90%대를 기록하면서 더 복잡하고 정교한 평가 방식의 필요성이 대두되고 있다.

메타플랫폼의 한 관계자는 "업계의 발전 속도가 극히 빠르다"면서 "측정 능력이 포화하기 시작했으며 AI 신모델을 평가하기가 점점 어려워지고 있다"고 지적했다.

오픈AI, 마이크로소프트, 메타, 앤스로픽 등은 최근 인간을 대신해 자동으로 업무를 수행할 수 있는 'AI 에이전트' 구축 계획을 발표했다. 이러한 새로운 기술의 등장으로 평가 방식의 혁신이 시급해졌다.

이에 주요 기술기업들은 자체적인 벤치마크를 개발하고 있다. 다만 업계 일각에서는 공개적인 테스트가 없는 상황에서 각 기업의 AI 기술을 객관적으로 비교하기 어렵다는 우려가 제기되고 있다.

이런 상황에서 기존 벤치마크 중 하나인 'SWE-bench Verified'는 지난 8월 오픈AI 등의 의견을 반영해 업데이트를 진행했다. 이 테스트는 개발자 플랫폼 '깃허브' 등에서 가져온 실제 문제를 활용하고 있다.

새로운 테스트에서 오픈AI의 최신 AI 모델인 GPT-4는 41.4%의 문제를 해결했으며, 앤스로픽의 '클로드 3.5 소넷'은 49%의 정답률을 기록했다.

한편 AI 세이프티의 댄 헨드릭스는 "테스트가 공개되지 않으면 재계나 사회 전반에서 비교에 대해 말하기 어렵다"며 공개된 평가 기준의 필요성을 강조했다.

0

프로필이미지

김인규 기자 다른 기사 보기

포토뉴스 더보기

이전 기사 보기

다음 기사 보기

최신뉴스

많이 본 뉴스 더보기

건훈뉴스
등록번호서울, 아04741
등록일2017-10-02
발행일자2025-08-16
발행•편집인유응주
청소년보호책임자권영흥

법인명주식회사 건훈
연락처02-336-5590
사업자등록번호411-88-02225
주소서울시 서대문구 연세로5다길 46, 수연빌딩 5층

건훈뉴스 © www.gunhoon.com All rights reserved.
건훈뉴스의 모든 콘텐츠(기사 등)는 저작권법의 보호를 받은바, 무단 전재, 복사, 배포 등을 금합니다.

다다미디어 홈

모바일 버전 바로가기