기사 메일전송

AI 기술 진화에 따른 평가 방식도 혁신 필요하다

  • 김인규 기자
  • 등록 2024-11-11 12:16:02
기사수정
  • AI 모델 평가 벤치마크서 90%대 정확도...기존 테스트로는 한계
  • 오픈AI·메타 등 자체 평가 방식 개발...전문가들은 "공개 테스트 필요" 지적
  • SWE-bench Verified 등 실제 문제 활용한 새로운 테스트 등장

인공지능(AI) 기술이 급속히 발전하면서 기존 평가 방식의 한계가 드러나 미국 주요 기술기업들이 AI 모델을 테스트하고 평가하는 새로운 방식을 모색하고 있다.


인공지능(AI) 관련 이미지 [로이터 연합뉴스 자료사진]

9일(현지시간) 파이낸셜타임스(FT)에 따르면, 기존 벤치마크 테스트에서 AI 신모델들의 정확도가 90%대를 기록하면서 더 복잡하고 정교한 평가 방식의 필요성이 대두되고 있다.


메타플랫폼의 한 관계자는 "업계의 발전 속도가 극히 빠르다"면서 "측정 능력이 포화하기 시작했으며 AI 신모델을 평가하기가 점점 어려워지고 있다"고 지적했다.


오픈AI, 마이크로소프트, 메타, 앤스로픽 등은 최근 인간을 대신해 자동으로 업무를 수행할 수 있는 'AI 에이전트' 구축 계획을 발표했다. 이러한 새로운 기술의 등장으로 평가 방식의 혁신이 시급해졌다.


이에 주요 기술기업들은 자체적인 벤치마크를 개발하고 있다. 다만 업계 일각에서는 공개적인 테스트가 없는 상황에서 각 기업의 AI 기술을 객관적으로 비교하기 어렵다는 우려가 제기되고 있다.


이런 상황에서 기존 벤치마크 중 하나인 'SWE-bench Verified'는 지난 8월 오픈AI 등의 의견을 반영해 업데이트를 진행했다. 이 테스트는 개발자 플랫폼 '깃허브' 등에서 가져온 실제 문제를 활용하고 있다.


새로운 테스트에서 오픈AI의 최신 AI 모델인 GPT-4는 41.4%의 문제를 해결했으며, 앤스로픽의 '클로드 3.5 소넷'은 49%의 정답률을 기록했다.


한편 AI 세이프티의 댄 헨드릭스는 "테스트가 공개되지 않으면 재계나 사회 전반에서 비교에 대해 말하기 어렵다"며 공개된 평가 기준의 필요성을 강조했다.


0
포토뉴스더보기
이전 기사 보기 다음 기사 보기
많이 본 뉴스더보기
  1. 이재용 '부당합병·회계부정' 무죄 확정…4년 10개월 재판 끝났다 이재용 삼성전자 회장이 삼성물산과 제일모직의 부당합병 및 삼성바이오로직스 회계부정 혐의로 재판에 넘겨진 지 4년 10개월 만에 무죄를 확정받았다.대법원 3부(주심 오석준 대법관)는 17일 자본시장법상 부정거래행위·시세조종, 업무상 배임 등 혐의로 기소된 이 회장에 대해 1·2심과 같은 무죄 판결을 내리고 검찰의 상고를 기...
  2. 온라인 플랫폼이 불러온 자영업 양극화…“성장잠재력 있는 곳에 금융 집중해야” 온라인 플랫폼의 확산이 자영업자의 양극화를 심화시키고 있다는 분석 속에, 정부의 자영업 금융지원이 성장잠재력이 큰 업체에 집중돼야 한다는 제언이 나왔다.정희완 한국은행 지역경제조사팀 과장은 17일 광주 김대중컨벤션센터에서 열린 ‘2025 BOK 지역경제 심포지엄’에서 “온라인 플랫폼 성장은 자영업 경영성과의 격차를 .
  3. 김민석 총리 "제2의 IMF급 경제위기, 범국가적 에너지 모아야" 김민석 국무총리가 16일 경주에서 열린 제48회 대한상의 하계포럼 개회식에서 현재 경제상황을 `제2의 IMF`에 비유하며 구조적·복합적 위기 극복을 위한 범국가적 에너지 결집을 강조했다.김민석 국무총리는 16일 오후 경주 라한셀렉트 호텔에서 개최된 제48회 대한상의 하계포럼 개회식에서 기조강연을 통해 현재 경제 상황에 대한 강한 ...
  4. KB부동산, LH청약전용관 서비스 선보여 KB국민은행(은행장 이환주)은 부동산 종합 플랫폼 ‘KB부동산’에서 공공 청약 정보를 통합 제공하는 ‘LH청약전용관’ 서비스를 출시했다. 이번 서비스는 지난해 12월 KB국민은행과 한국토지주택공사(LH) 간 업무협약(MOU)을 기반으로 민간 플랫폼 중에서는 최초로 LH분양주택의 청약 관련 정보를 제공하는 서비스다. ‘LH청약전용관’은 청약 ...
  5. 올해 2분기 부패·공익신고자 44명에 6억5천만 원 보상금 지급 국민권익위원회(위원장 유철환)는 올해 2분기 동안 부패 및 공익침해행위를 신고한 44명에게 총 6억 5천만 원 규모의 보상금을 지급했다고 17일 밝혔다. 이들의 신고를 통해 공공기관이 회복 결정한 수입은 약 65억 원에 달한다.분야별로는 ▴연구개발 1억 9천만 원(28.4%) ▴의료 1억 7천만 원(26.2%) ▴산업 1억 4천만 원(21.7%) 등 세 분야가 전체 보.
  6. 배우 박보검, 2025 한국 관광 명예홍보대사 위촉…‘출구 없는 매력’ 알린다 ‘출구 없는 매력의 한국 관광’을 알릴 새로운 얼굴로 배우 박보검이 나선다. 문화체육관광부와 한국관광공사는 오는 7월 29일 ‘2025 한국 관광 명예홍보대사’로 박보검을 공식 위촉하고, 글로벌 홍보 캠페인 ‘네버 엔딩 코리아(Never Ending Korea)’를 본격적으로 시작한다.문체부는 24일, 한국 관광 홍보 유튜브 채널 ‘I...
  7. 美 25% 상호관세 D-7… 정부, 막판 총력전 속 '윈-윈' 해법 찾나 도널드 트럼프 미국 대통령이 한국에 25% 상호관세를 부과하겠다고 통보한 시한이 일주일 앞으로 다가오면서, 한국 정부는 8월 1일 전 협상 타결을 목표로 막판 총력을 기울이고 있다. 트럼프 행정부도 한국과의 협상 상황을 "생산적"이라고 평가하며 계속 협상하겠다는 의지를 보여, 양국이 조만간 합의점에 근접할 수 있다는 관측이 조심스.
모바일 버전 바로가기