한국일보 애틀랜타
이규 레스토랑
김성희 부동산
첫광고

“대화형 AI 언어모델 4개 비교해보니…”

미국뉴스 | 경제 | 2023-08-21 09:41:15

대화형 AI 언어모델

구양숙 부동산표정원 융자미국 크래딧 교정

“GPT-4가 가장 우수해” 여전히 정보 오류 빈발

 

대화형 인공지능(AI) 서비스인 챗GPT 개발사 오픈AI의 대규모 언어모델(LLMs) GPT-4가 다른 LLM보다 우수한 능력을 보인다는 연구 결과가 나왔다. 반면에 AI 개발 스타트업 코히어(Cohere) AI가 잘못된 정보를 그럴듯하게 제시(환각·hallucination)하는 것으로 나타났다.

 

머신러닝(기계학습) 모니터링 플랫폼인 아더(Arthur) AI는 17일 GPT와 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. 이번 비교에 구글의 언어 모델은 포함되지 않았다.

 

연구팀은 수학과 미국 대통령, 모로코 정치 지도자에 관한 질문을 던져 AI 모델들의 정답을 비교하고, 이들 모델이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시해 오답의 위험을 회피하는지를 시험했다.

 

연구팀은 전체적으로 GPT-4가 테스트 된 모든 모델 중 가장 우수한 성능을 보였다고 설명했다.

 

GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

반면, 메타의 라마2는 GPT-4나 클로드2보다 전반적으로 더 많은 환각을 보이는 것으로 조사됐다.

 

수학 부문에서 GPT-4와 클로드2는 30개 문제 가운데 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 한 개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했고 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자와 관련한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한데 비해 라마2와 클로드2는 각각 2개와 1개에 그쳤다. 코히어는 30개 모두 환각을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시하는 비율은 GPT-4가 2.9%로 가장 높았다. 이는 GPT-3.5의 2.2%보다도 더 높게 나타났다. 연구팀은 “이는 GPT-3.5보다 GPT-4를 사용하기 더 답답하다는 이용자들의 제기된 문제의 증거를 정량화한 것”이라고 설명했다.

 

코히어의 AI 모델은 어떤 응답에서도 ‘나는 의견을 제공할 수 없다’는 답을 내놓지 않았다.

 

댓글 0

의견쓰기::상업광고,인신공격,비방,욕설,음담패설등의 코멘트는 예고없이 삭제될수 있습니다. (0/100자를 넘길 수 없습니다.)

'길 잃은 예븐 강아지' 함부로 데려가면 절도
'길 잃은 예븐 강아지' 함부로 데려가면 절도

귀넷 경찰, 두 여성 검거 기소훔친 강아지 SNS 올렸다 발각 조지아주 귀넷 카운티의 한 식료품점 주차장에서 주인의 차를 빠져나온 반려견을 가로챈 일당이 소셜 미디어(SNS)에 올

조지아 마켓 치킨 샐러드 '살모넬라균' 비상
조지아 마켓 치킨 샐러드 '살모넬라균' 비상

주 농무부, 먹지 말고 즉시 폐기 권고 조지아주 북부 블레어스빌의 한 유명 슈퍼마켓에서 판매된 치킨 샐러드 제품이 식중독을 유발하는 살모넬라균에 오염됐을 가능성이 제기되어 보건 당

주말 애틀랜타 80도대 중반, 초여름 날씨
주말 애틀랜타 80도대 중반, 초여름 날씨

주말 최고온도 86도까지 상승 금요일인 10일 애틀랜타를 비롯한 북부 조지아 전역이 건조하고 따뜻한 날씨를 보이는 가운데, 대기 건조로 인한 화재 위험이 최고조에 달해 주민들의 각

애틀랜타 벨트라인 22마일 완공 눈앞
애틀랜타 벨트라인 22마일 완공 눈앞

16일 사우스이스트 트레일 개통 애틀랜타의 상징인 벨트라인(Beltline) 22마일 루프 완성이 가시권에 들어왔다.애틀랜타 시 당국과 벨트라인 운영진은 오는 4월 16일, 과거

BTS도 못가는 중국, K-팝을 두려워 하는 이유
BTS도 못가는 중국, K-팝을 두려워 하는 이유

중국, 치졸한 '한한령' 10년째 고수외국 문화가 자국 청년 영향 우려 세계적인 K-팝 그룹 BTS가 3년 이상의 공백기를 깨고 무대로 복귀하며 12개월간의 월드 투어에 나섰지만,

중기부, 애틀랜타에 ‘글로벌베이스캠프‘ 첫 설치
중기부, 애틀랜타에 ‘글로벌베이스캠프‘ 첫 설치

미 동남부 전진기지 수행기관 모집상설 전시장 운영, 바이어 발굴·매칭 중소벤처기업부, 중소벤처기업진흥공단은 9일 해외 진출을 희망하는 중소기업의 안정적인 현지 안착을 돕기 위해 미

귀넷 항공학교, 전문 조종사 양성 프로그램 출범
귀넷 항공학교, 전문 조종사 양성 프로그램 출범

마그놀리아 항공 아카데미신규 통합과정 교육생 모집  귀넷 소재 항공학교가 차세대 항공전문인력 양성을 목표로 신규 교육 프로그램을 시작한다.귀넷 카운티 브리스코 필드 공항에 위치한

“미국서도 18세에 징병되나”
“미국서도 18세에 징병되나”

이슈 포커스 자동 징병등록제 실시 개인 신고 의무 사라져 “당장 징집은 없다”지만 ‘드래프트 부활’ 우려도 미국 내 18세에서 25세 사이의 모든 남성들을 징집 명부에 자동으로 등

미국인들 ‘팁’ 지갑 닫는다
미국인들 ‘팁’ 지갑 닫는다

고물가 속 팁 강요 부담78% “지나친 수준” 불만‘팁 피로감’ 신조어까지 한인 송모(47)씨는 요즘 외식을 할 때마다 팁 계산에 골머리를 앓는다. 예전에는 영수증에 미리 인쇄돼

‘K-브랜드’ 글로벌 인증 도입
‘K-브랜드’ 글로벌 인증 도입

한국정부, 짝퉁 문제 대처올해 하반기 전격 가동첨단 정품인증기술 적용  K-브랜드 위조상품. [연합]  해외에서 급증하는 K-브랜드 위조상품 문제를 해결하기 위해 정부가 ‘K-브랜

이상무가 간다 yotube 채널