한국일보 애틀랜타
경동나비
엘리트 학원
첫광고

“대화형 AI 언어모델 4개 비교해보니…”

미국뉴스 | | 2023-08-21 09:41:15

대화형 AI 언어모델

구양숙 부동산표정원 융자누가 스킨 케어

“GPT-4가 가장 우수해” 여전히 정보 오류 빈발

 

대화형 인공지능(AI) 서비스인 챗GPT 개발사 오픈AI의 대규모 언어모델(LLMs) GPT-4가 다른 LLM보다 우수한 능력을 보인다는 연구 결과가 나왔다. 반면에 AI 개발 스타트업 코히어(Cohere) AI가 잘못된 정보를 그럴듯하게 제시(환각·hallucination)하는 것으로 나타났다.

 

머신러닝(기계학습) 모니터링 플랫폼인 아더(Arthur) AI는 17일 GPT와 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. 이번 비교에 구글의 언어 모델은 포함되지 않았다.

 

연구팀은 수학과 미국 대통령, 모로코 정치 지도자에 관한 질문을 던져 AI 모델들의 정답을 비교하고, 이들 모델이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시해 오답의 위험을 회피하는지를 시험했다.

 

연구팀은 전체적으로 GPT-4가 테스트 된 모든 모델 중 가장 우수한 성능을 보였다고 설명했다.

 

GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

반면, 메타의 라마2는 GPT-4나 클로드2보다 전반적으로 더 많은 환각을 보이는 것으로 조사됐다.

 

수학 부문에서 GPT-4와 클로드2는 30개 문제 가운데 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 한 개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했고 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자와 관련한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한데 비해 라마2와 클로드2는 각각 2개와 1개에 그쳤다. 코히어는 30개 모두 환각을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시하는 비율은 GPT-4가 2.9%로 가장 높았다. 이는 GPT-3.5의 2.2%보다도 더 높게 나타났다. 연구팀은 “이는 GPT-3.5보다 GPT-4를 사용하기 더 답답하다는 이용자들의 제기된 문제의 증거를 정량화한 것”이라고 설명했다.

 

코히어의 AI 모델은 어떤 응답에서도 ‘나는 의견을 제공할 수 없다’는 답을 내놓지 않았다.

 

댓글 0

의견쓰기::상업광고,인신공격,비방,욕설,음담패설등의 코멘트는 예고없이 삭제될수 있습니다. (0/100자를 넘길 수 없습니다.)

트럼프 경제 키워드‘감세 & 관세’… 각 계층 미칠 영향은?
트럼프 경제 키워드‘감세 & 관세’… 각 계층 미칠 영향은?

도널드 트럼프 전 대통령이 제47대 미국 대통령에 재당선됐다. 트럼프 당선인의 주요 경제 정책은 관세와 감세로 요약된다. 공약대로 대대적인 감세 정책을 추진할 경우 세수에 구멍이

한인 유학생 3년만에 다시 감소세
한인 유학생 3년만에 다시 감소세

한국 학생 4만3천명 선반짝 증가후 다시 감소전체 유학생은 역대 최다 인도가 중국 추월해 1위   미국 내 한국 출신 유학생수가 3년 만에 다시 감소세로 돌아선 것으로 나타났다. 

트럼프, 불법이민자 추방에 군대 동원한다
트럼프, 불법이민자 추방에 군대 동원한다

‘국가비상사태’ 선언 밝혀내년 1월20일 이후 현실화 도널드 트럼프 2기 행정부의 불법이민자 추방 작전에 군이 동원될 전망이다. 텍사스 지역 국경에서 주 방위군이 월경 이민자들을

대선 이후 주식·코인 급등…‘거품’ 위험 경고
대선 이후 주식·코인 급등…‘거품’ 위험 경고

주식펀드에 2008년 이후두 번째 많은 자금 유입   대선 이후 주식과 가상화폐가 너무 올라‘거품’ 경고가 제기되고 있다. [로이터]  투자자들이 미국 주식시장과 가상화폐 등에 몰

첫 덴마크 출신 ‘미스 유니버스’
첫 덴마크 출신 ‘미스 유니버스’

올해 미스 유니버스 대회에서 첫 덴마크 출신 우승자가 나왔다. 전 세계에서 120여 명의 미녀들이 출전한 가운데 지난 16일 멕시코시티에서 막을 내린 올해 제73회 미스 유니버스의

제조업 지수, 연말 샤핑시즌 맞아 개선 전망
제조업 지수, 연말 샤핑시즌 맞아 개선 전망

제조업 경기가 위축 국면을 이어갔다. 공급관리협회(ISM)는 지난 10월 제조업 구매관리자지수(PMI)가 46.5를 기록했다고 발표했다. 직전월 수치 47.2에 비해 악화했다. P

자산 174억달러 호프… 전국 은행 랭킹 96위 ‘우뚝’
자산 174억달러 호프… 전국 은행 랭킹 96위 ‘우뚝’

3분기 전국 은행 순위 뱅크오브호프가 전국 은행 순위에서 100대 은행에, 한미은행은 200대 은행에 각각 랭크됐다. 또 미국에서 영업하는 15개 한인은행들의 총 자산규모는 473

미 사적지 선정 후 ‘워싱턴 핫플레이스’로
미 사적지 선정 후 ‘워싱턴 핫플레이스’로

주미대한제국공사관 인기   수도 워싱턴 DC 북동쪽의 로건 서클 역사지구. 원형 교차로를 에워싸고 1875년부터 1900년대 초 사이에 지어진 빅토리아 양식 건물 135채가 밀집했

미국판 ‘기생충’… 6개월간 숨어 살아

90대 할머니 집 지하실서 ‘미국판 기생충’ 사건이 실제로 일어났다. 뉴욕포스트에 따르면 지난 8일 93세 노인 여성이 혼자 사는 집 지하실에서 6개월간 몰래 거주한 이삭 베탕쿠르

랜섬웨어 거액 사기범 한국서 체포

미국으로 송환해 기소 한국 법무부가 연방수사국(FBI)이 수사 중인 러시아·베트남 국적의 범죄인 2명을 한국 내에서 체포해 미국으로 송환했다. 연방 법무부는 한미 범죄인 인도조약과

이상무가 간다 yotube 채널