한국일보 애틀랜타
이규 레스토랑
김성희 부동산
첫광고

“대화형 AI 언어모델 4개 비교해보니…”

미국뉴스 | | 2023-08-21 09:41:15

대화형 AI 언어모델

구양숙 부동산표정원 융자미국 크래딧 교정

“GPT-4가 가장 우수해” 여전히 정보 오류 빈발

 

대화형 인공지능(AI) 서비스인 챗GPT 개발사 오픈AI의 대규모 언어모델(LLMs) GPT-4가 다른 LLM보다 우수한 능력을 보인다는 연구 결과가 나왔다. 반면에 AI 개발 스타트업 코히어(Cohere) AI가 잘못된 정보를 그럴듯하게 제시(환각·hallucination)하는 것으로 나타났다.

 

머신러닝(기계학습) 모니터링 플랫폼인 아더(Arthur) AI는 17일 GPT와 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. 이번 비교에 구글의 언어 모델은 포함되지 않았다.

 

연구팀은 수학과 미국 대통령, 모로코 정치 지도자에 관한 질문을 던져 AI 모델들의 정답을 비교하고, 이들 모델이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시해 오답의 위험을 회피하는지를 시험했다.

 

연구팀은 전체적으로 GPT-4가 테스트 된 모든 모델 중 가장 우수한 성능을 보였다고 설명했다.

 

GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

반면, 메타의 라마2는 GPT-4나 클로드2보다 전반적으로 더 많은 환각을 보이는 것으로 조사됐다.

 

수학 부문에서 GPT-4와 클로드2는 30개 문제 가운데 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 한 개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했고 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자와 관련한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한데 비해 라마2와 클로드2는 각각 2개와 1개에 그쳤다. 코히어는 30개 모두 환각을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시하는 비율은 GPT-4가 2.9%로 가장 높았다. 이는 GPT-3.5의 2.2%보다도 더 높게 나타났다. 연구팀은 “이는 GPT-3.5보다 GPT-4를 사용하기 더 답답하다는 이용자들의 제기된 문제의 증거를 정량화한 것”이라고 설명했다.

 

코히어의 AI 모델은 어떤 응답에서도 ‘나는 의견을 제공할 수 없다’는 답을 내놓지 않았다.

 

댓글 0

의견쓰기::상업광고,인신공격,비방,욕설,음담패설등의 코멘트는 예고없이 삭제될수 있습니다. (0/100자를 넘길 수 없습니다.)

“미국서도 18세에 징병되나”
“미국서도 18세에 징병되나”

이슈 포커스 자동 징병등록제 실시 개인 신고 의무 사라져 “당장 징집은 없다”지만 ‘드래프트 부활’ 우려도 미국 내 18세에서 25세 사이의 모든 남성들을 징집 명부에 자동으로 등

미국인들 ‘팁’ 지갑 닫는다
미국인들 ‘팁’ 지갑 닫는다

고물가 속 팁 강요 부담78% “지나친 수준” 불만‘팁 피로감’ 신조어까지 한인 송모(47)씨는 요즘 외식을 할 때마다 팁 계산에 골머리를 앓는다. 예전에는 영수증에 미리 인쇄돼

‘K-브랜드’ 글로벌 인증 도입
‘K-브랜드’ 글로벌 인증 도입

한국정부, 짝퉁 문제 대처올해 하반기 전격 가동첨단 정품인증기술 적용  K-브랜드 위조상품. [연합]  해외에서 급증하는 K-브랜드 위조상품 문제를 해결하기 위해 정부가 ‘K-브랜

“미국내 아시아계 기대수명 85.2세”
“미국내 아시아계 기대수명 85.2세”

서구인보다 7년 더 장수인종간 격차 최대 15년팬데믹 후 차이 더 커져 미국 내 한인 포함 아시아계의 기대수명이 85.2세를 기록하며 전체 인종 중 가장 높은 것으로 나타났다. 팬

에모리.조지아텍,뉴 아이비 리그에
에모리.조지아텍,뉴 아이비 리그에

포브스, 공·사립 10개씩카네기멜론대·공사 등“AI 시대 취업률” 주목    경제 전문지 포브스가 2026년 ‘뉴 아이비(New Ivies)’ 대학으로 사립대학 10곳과 공립대학

고금리 여파에… 모기지 신청건수 감소
고금리 여파에… 모기지 신청건수 감소

재융자 신청 3%나 줄어구매 신청은 소폭 상승 주택 담보대출(모기지) 신청 활동이 고금리와 경제 불확실성의 여파로 다시 한번 위축됐다. 8일 모기지은행협회(MBA)가 발표한 주간

폭스바겐, 테네시공장서 전기차 생산 중단
폭스바겐, 테네시공장서 전기차 생산 중단

보조금 폐지에 판매 급감…내연차로 전환 독일 자동차업체 폭스바겐이 미국공장에서 전기차 생산을 접고 내연차에 주력하기로 했다고 경제지 한델스블라트가 10일 보도했다.폭스바겐은 미국

현대차, 미국서 29만4천여대 리콜…안전벨트 고정장치 결함
현대차, 미국서 29만4천여대 리콜…안전벨트 고정장치 결함

아이오닉6·제네시스 G90·산타페 등 대상현대차 매장[연합뉴스 자료사진. 재판매 및 DB금지]  현대자동차 미국법인이 미국에서 안전벨트 고정 장치 결함으로 29만4천여대를 리콜(자

“AI 영상도 아동 성착취물로 간주, 규정해야”
“AI 영상도 아동 성착취물로 간주, 규정해야”

오픈AI, 주정부와 함께 ‘아동안전 청사진’ 발표유니세프도 엄벌 촉구 빅테크 상대 소송 급증 챗GPT 개발사 오픈AI가 인공지능(AI)으로 생성한 이미지도 아동 성 착취물(CSAM

미 출산율 사상 최저…"2007년부터 쭉 감소, 인구학적 미스터리"
미 출산율 사상 최저…"2007년부터 쭉 감소, 인구학적 미스터리"

<사진=Shutterstock>   미국의 지난해 출산율이 사상 최저를 기록했다.9일 일간 워싱턴포스트와 뉴욕타임스에 따르면 미국 질병통제예방센터(CDC) 산하 국립보건

이상무가 간다 yotube 채널