AI 업계에 새로운 평가 문화
페이지 정보
작성자 sans339 작성일 26-01-06 07:55 조회 4회 댓글 0건본문
콜백문자 무료
AI 업계에 새로운 평가 문화가 자리 잡고 있다. 영국 맨체스터 대학교 샘 힌드(Sam Hind) 연구원이 발표한 논문에 따르면, 구글, 오픈AI 같은 주요 기업들이 신규 AI 모델을 발표할 때 기술적 성능보다 'LM아레나' 같은 사용자 투표 플랫폼에서의 순위를 더 강조하는 현상이 나타나고 있다. 2025년 5월 구글의 데미스 하사비스가 신규 AI 모델 발표에서 'LM아레나 리더보드 1위'를 주요 성과로 내세운 것이 대표적이다. 이러한 현상이 AI 개발을 실제 문제 해결보다 '관심 끌기' 경쟁으로 왜곡하고 있다는 지적이 나온다.구글이 자랑한 'LM아레나 1위', AI 평가가 인기 투표로 바뀌었다2025년 5월 구글 행사에서 데미스 하사비스는 새 AI 모델 '제미나이 2.5 프로'를 소개하며 'LM아레나 리더보드' 모든 순위에서 1위를 차지했다고 발표했다. 이는 AI 개발이 기술 발전보다 '순위 경쟁'으로 변하고 있음을 보여준다.LM아레나는 'AI 모델을 평가하는 중립적이고 공개된 플랫폼'으로, 지금까지 300만 건 이상의 투표를 수집했다. 사용자가 같은 질문을 두 익명 AI에게 하고 어느 답변이 더 좋은지 선택하면, 투표 후 어떤 AI였는지 공개되고 순위표가 만들어진다.UC버클리가 주도한 LM아레나는 2023년 5월 시작해 2025년 4월 회사로 전환했으며, 5월에는 6억 달러(약 8,687억 원) 가치를 인정받았다. 9월에는 기업 대상 유료 평가 서비스를 시작했다. 현재 텍스트, 웹 개발, 이미지 등 8개 분야에서 AI들이 경쟁한다.기존 시험은 한계, 전문가 평가는 현실적으로 불가능LM아레나가 등장한 이유는 기존 평가 방식의 한계 때문이다. 연구진은 2023년 자체 AI 모델을 만들면서 "AI 챗봇이 발전함에 따라 현재의 공개 벤치마크로는 충분하지 않다"고 판단했다. 실제로 전문가 수준 시험 GPQA에서 AI 점수가 2023년 31%에서 2025년 87%로 급상승했지만, 연구진은 "사용자가 챗봇의 유용성을 인식하는 것과 기존 벤치마크 기준 사이에는 근본적 불일치가 있다"고 지적했다.전문가 평가도 현실적으로 어려웠다. 공동 창립자 이온 스토이카는 "AI 업계에 새로운 평가 문화가 자리 잡고 있다. 영국 맨체스터 대학교 샘 힌드(Sam Hind) 연구원이 발표한 논문에 따르면, 구글, 오픈AI 같은 주요 기업들이 신규 AI 모델을 발표할 때 기술적 성능보다 'LM아레나' 같은 사용자 투표 플랫폼에서의 순위를 더 강조하는 현상이 나타나고 있다. 2025년 5월 구글의 데미스 하사비스가 신규 AI 모델 발표에서 'LM아레나 리더보드 1위'를 주요 성과로 내세운 것이 대표적이다. 이러한 현상이 AI 개발을 실제 문제 해결보다 '관심 끌기' 경쟁으로 왜곡하고 있다는 지적이 나온다.구글이 자랑한 'LM아레나 1위', AI 평가가 인기 투표로 바뀌었다2025년 5월 구글 행사에서 데미스 하사비스는 새 AI 모델 '제미나이 2.5 프로'를 소개하며 'LM아레나 리더보드' 모든 순위에서 1위를 차지했다고 발표했다. 이는 AI 개발이 기술 발전보다 '순위 경쟁'으로 변하고 있음을 보여준다.LM아레나는 'AI 모델을 평가하는 중립적이고 공개된 플랫폼'으로, 지금까지 300만 건 이상의 투표를 수집했다. 사용자가 같은 질문을 두 익명 AI에게 하고 어느 답변이 더 좋은지 선택하면, 투표 후 어떤 AI였는지 공개되고 순위표가 만들어진다.UC버클리가 주도한 LM아레나는 2023년 5월 시작해 2025년 4월 회사로 전환했으며, 5월에는 6억 달러(약 8,687억 원) 가치를 인정받았다. 9월에는 기업 대상 유료 평가 서비스를 시작했다. 현재 텍스트, 웹 개발, 이미지 등 8개 분야에서 AI들이 경쟁한다.기존 시험은 한계, 전문가 평가는 현실적으로 불가능LM아레나가 등장한 이유는 기존 평가 방식의 한계 때문이다. 연구진은 2023년 자체 AI 모델을 만들면서 "AI 챗봇이 발전함에 따라 현재의 공개 벤치마크로는 충분하지 않다"고 판단했다. 실제로 전문가 수준 시험 GPQA에서 AI 점수가 2023년 31%에서 2025년 87%로 급상승했지만, 연구진은 "사용자가 챗봇의 유용성을 인식하는 것과 기존 벤치마크 기준 사이에는 근본적 불일치가 있다"고 지적했다.전문가 평가도 현실적으로 어려웠다. 공동 창립자 이온 스토이카는 "전문가들에게 평가를 부탁했지만 거의 모두 시간이 없다고 거절했다"고 말했다. 또 다른 창립자 아나스타시오스 앤젤로풀로스는 "세상은 전문가가 모든 것의 최종 판단자가 되는 것에 반대하는 방향으로 움직이고 있다"며 "박사 학위 없이도 가치 있는 의견을 가질 수 있다"고 강조했다. 연구진은 한때 AI로 AI를 평가하는 방식을 검토했다. 확장성과 설명 가능성이란 장점이 있었지만, 긴 답
콜백문자 무료
댓글목록
등록된 댓글이 없습니다.
