■범용 AGI 상용화 성큼
옴니모델 AI 0.232초만에 응답
농담 섞인 대화에 다양한 말투
노래 부르고 실시간 번역 가능
기존보다 성능 2배·절반 비용
올트먼“모든 이용자 무료제공
챗GPT 개발사인 오픈AI가 사람처럼 보고 듣고 말하는 ‘옴니모델’ 인공지능(AI)‘GPT-4o’를 13일 전격 공개했다. GPT-4o는 기존‘GPT-4 터보’보다 성능이 개선됐으며 50% 저렴한 비용으로 구동 가능해 효율성도 매우 높다. 구글의 연례 개발자회의(I/O)를 하루 앞두고 오픈AI·마이크로소프트(MS) 진영이 한층 업그레이드된 버전을 선보이며 초거대 AI 시장 패권 경쟁이 한층 달아오르는 양상이다.
오픈AI는 이날 온라인 신제품 발표 행사를 통해 최신 대규모언어모델(LLM) ‘GPT-4o’를 공개했다. GPT-4o의 ‘o’는 모든 것이라는 ‘옴니(omni)’를 의미한다. 언어 외 사진·음성 등을 함께 처리할 수 있는 멀티모달을 넘어섰다는 의미다.
이날 공개된 GPT-4o는 질문과 답변이 한 번씩 오가던 기존 음성 챗봇과 달리 농담 섞인 자연스러운 대화가 가능할 뿐 아니라 말투 또한 다양하다. 대답 중에 끼어들어도 대화를 계속 이어가는 능력을 갖추고 있어 인간을 뛰어넘는 범용인공지능(AGI) 개발에 한발 더 다가섰다는 평가도 나온다. 이날 오픈AI가 시연한 GPT-4o는 로봇처럼 건조한 톤은 물론 뮤지컬 배우처럼 노래하듯 말하는 모습까지 보여줬다. GPT-4o 간 대화도 가능할 뿐 아니라 노래를 주고받기도 한다. 실시간 통·번역도 가능하다. 이탈리아어를 GPT-4o가 영어로 번역해 말해주고, 영어로 대답하면 이를 다시 이탈리아어로 번역해 말하는 식이다.
비전 인식도 더욱 개선됐다. 카메라를 통해 ‘시야’를 인식해 공간의 분위기나 사람의 기분을 이해함은 물론 수식을 실시간으로 해석해 선생님처럼 풀이 과정을 안내해주기도 한다. 이날 오픈AI는 간단한 수식 풀이 과정을 GPT-4o가 도와주는 모습을 시연했다. ‘3x+1=4’라는 수식을 보여주면 “x를 구하기 위해서는 1을 한곳에 모아야 한다”고 답한다. 직접적인 풀이법을 제시하는 데서 끝나지 않고 ‘해법’을 차근차근 알려주는 것이다.
GPT-4o는 AI 비서와 남성이 사랑에 빠지는 2013년 작 영화 ‘그녀(Her)’를 연상케 한다. 샘 올트먼 오픈AI 최고경영자(CEO)는 행사 종료 이후 자신의 X(옛 트위터)에 ‘Her’라는 단어를 올렸다. 그러면서 “(새 AI 모델이) 영화에 나오는 AI처럼 느껴지고, 그것이 현실이라는 게 놀랍다”고 적었다.
GPT-4o는 기존 GPT-4 터보보다 뛰어난 성능을 자랑한다. 오픈AI는 수학·물리학·법학·윤리학 등 57개 과목을 테스트하는 다중언어작업이해(MMLU)에서 GPT-4o가 88.7%를 기록해 GPT-4 터보의 86.5%와 구글 ‘제미나이 울트라’의 83.7%를 넘어섰다고 밝혔다. 오픈AI는 “GPT-4o는 언어와 추론 및 코딩 지능에서 GPT-4 터보 수준이고 다국어와 오디오·비전에서는 새 최고 기록을 달성했다”고 전했다.
기능은 개선된 반면 AI 구조는 가벼워졌다. 언어별 토큰 사용량이 GPT-4 터보 대비 1.1~4.4배 줄었고, 앱인터페이스(API)는 기존보다 2배 빠르다. 오픈AI는 GPT-4o의 평균 응답 시간이 0.232초에 불과해 인간 평균인 0.32초보다도 빠르다고 밝혔다. 전작인 GPT-3.5와 GPT-4의 평균 응답 시간이 각각 2.8초, 5.4초였다는 점을 고려하면 혁신적인 발전 속도다. 모델 경량화는 비용 절감으로 이어진다. GPT-4o는 작동 비용도 전작 대비 50% 저렴하다는 게 회사 측 설명이다.
오픈AI는 GPT-4o를 모든 사용자에게 무료로 제공할 방침이다. 기존 무료 사용자에게 제공되던 GPT-3.5를 GPT-4o가 대체하게 되는 것이다. 올트먼 CEO는 “오픈AI의 임무는 AI 도구를 사람들의 손에 제공하는 것”이라며 “광고 없이 챗GPT에서 세계 최고 모델을 무료로 사용할 수 있게 돼 자랑스럽다”고 밝혔다. GPT-4o는 이날부터 글로벌 챗GPT 사용자들에게 순차적으로 적용된다. 지원 언어는 한국어를 포함해 50개다.
<서울경제=윤민혁 특파원 >