한국일보 애틀랜타
첫광고
이규 레스토랑
엘리트 학원

“대화형 AI 언어모델 4개 비교해보니…”

미국뉴스 | | 2023-08-21 09:41:15

대화형 AI 언어모델

구양숙 부동산표정원 융자누가 스킨 케어

“GPT-4가 가장 우수해” 여전히 정보 오류 빈발

 

대화형 인공지능(AI) 서비스인 챗GPT 개발사 오픈AI의 대규모 언어모델(LLMs) GPT-4가 다른 LLM보다 우수한 능력을 보인다는 연구 결과가 나왔다. 반면에 AI 개발 스타트업 코히어(Cohere) AI가 잘못된 정보를 그럴듯하게 제시(환각·hallucination)하는 것으로 나타났다.

 

머신러닝(기계학습) 모니터링 플랫폼인 아더(Arthur) AI는 17일 GPT와 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. 이번 비교에 구글의 언어 모델은 포함되지 않았다.

 

연구팀은 수학과 미국 대통령, 모로코 정치 지도자에 관한 질문을 던져 AI 모델들의 정답을 비교하고, 이들 모델이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시해 오답의 위험을 회피하는지를 시험했다.

 

연구팀은 전체적으로 GPT-4가 테스트 된 모든 모델 중 가장 우수한 성능을 보였다고 설명했다.

 

GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

반면, 메타의 라마2는 GPT-4나 클로드2보다 전반적으로 더 많은 환각을 보이는 것으로 조사됐다.

 

수학 부문에서 GPT-4와 클로드2는 30개 문제 가운데 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 한 개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했고 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자와 관련한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한데 비해 라마2와 클로드2는 각각 2개와 1개에 그쳤다. 코히어는 30개 모두 환각을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시하는 비율은 GPT-4가 2.9%로 가장 높았다. 이는 GPT-3.5의 2.2%보다도 더 높게 나타났다. 연구팀은 “이는 GPT-3.5보다 GPT-4를 사용하기 더 답답하다는 이용자들의 제기된 문제의 증거를 정량화한 것”이라고 설명했다.

 

코히어의 AI 모델은 어떤 응답에서도 ‘나는 의견을 제공할 수 없다’는 답을 내놓지 않았다.

 

댓글 0

의견쓰기::상업광고,인신공격,비방,욕설,음담패설등의 코멘트는 예고없이 삭제될수 있습니다. (0/100자를 넘길 수 없습니다.)

“틱톡, 19일부터 미국서 기존 이용자 서비스도 완전 중단”
“틱톡, 19일부터 미국서 기존 이용자 서비스도 완전 중단”

미국 내에서 '틱톡 금지법'이 발효되는 19일부터 중국 동영상 플랫폼 틱톡이 미국 내 서비스를 완전히 중단할 계획이라고 로이터 통신이 소식통을 인용해 15일 보도했다.소식통은 연방

[한자와 명언] 收 拾 (수습)

*거둘 수(攴-6, 5급) *주울 습(手-9, 3급) ‘마침내 그 사태가 수습되었다.’ 이런 말을 들으면 오죽 좋으랴! 이 예문에 쓰인 ‘수습’은? ①修習 ②收拾 ③修拾 ④收習.

“채소 많이 섭취하면 노년기 인지 저하 속도 늦춰”
“채소 많이 섭취하면 노년기 인지 저하 속도 늦춰”

■치매 위험 줄이는 15가지 과학적 방법“ 비만은 치매 위험 요인… 규칙적 운동을대상포진 등 바이러스 예방 백신 맞아야매일 종합비타민 섭취… 청력보호도 중요” <사진=Shut

작년 12월 소비자물가 전년대비 2.9%↑…예상 부합

근원물가 상승률은 3.2%로 예상 밑돌아…인플레 정체에도 시장은 '안도' 지난해 12월 미국의 소비자물가 상승률이 2.9%로 반등하며 5개월 만에 최고 수준을 기록했다.미국의 물가

달러 가치 2년여 만에 최고… “5% 추가 상승 가능”
달러 가치 2년여 만에 최고… “5% 추가 상승 가능”

트럼프 관세·인플레 우려원 화 1,460원대 고공행진 미국 국채 금리가 고공행진을 이어가면서 시장 ‘발작’ 우려가 나오는 가운데, 달러화 가치도 2년여 만에 최고 수준으로 올라갔다

‘화재 손실… 보험업계 300억·경제손실 2,750억달러’
‘화재 손실… 보험업계 300억·경제손실 2,750억달러’

■ 웰스파고 피해현황 분석미보험 주택도 상당 추정강풍 계속돼 피해 확산고용감소 등 경제손실↑ 대형 산불로 보험 업계는 물론 지역 경제도 천문학적인 경제손실이 예상된다. 소방대원들이

연방의회서 “미주 한인의 날 축하”
연방의회서 “미주 한인의 날 축하”

한미 양국 정상 축사 보내앤디 김 연방상원의원 참석 미주 한인의 날인 지난 13일 연방하원 레이번 하우스 빌딩내 골드 룸에서 앤디 김 연방상원의원 등이 참석한 가운데 기념행사가 열

2023년 파워볼 1등 당첨자 말리부 385만불 저택 전소

파워볼 복권 추첨에서 20억 달러의 1등 잭팟에 당첨돼 돈벼락을 맞았던 남성도 이번 LA 대형산불의 화마를 피하지는 못했다. LA타임스는 지난 2023년 20억 달러가 걸렸던 파워

연준,“한동안 금리 동결 가능성 시사” 주목
연준,“한동안 금리 동결 가능성 시사” 주목

올해 기준금리 전망“인플레 여전히 위협” 제롬 파월 연준 의장. [로이터] 미 중앙은행인 연방준비제도(FRB·연준) 인사들이 한동안 금리 동결을 시사했다. 블룸버그 통신에 따르면

취임 코앞… ‘도루묵’ 된 트럼프 랠리

뉴욕증시 상승분 반납 도널드 트럼프 대통령 당선인이 지난해 11월 대선에서 승리한 이후 주식시장이 크게 상승했지만 최근 금리 인하 기대감이 낮아지면서 주가 상승분도 거의 다 날아가

이상무가 간다 yotube 채널