한국일보 애틀랜타
첫광고
엘리트 학원
이규 레스토랑

“대화형 AI 언어모델 4개 비교해보니…”

미국뉴스 | | 2023-08-21 09:41:15

대화형 AI 언어모델

구양숙 부동산표정원 융자누가 스킨 케어

“GPT-4가 가장 우수해” 여전히 정보 오류 빈발

 

대화형 인공지능(AI) 서비스인 챗GPT 개발사 오픈AI의 대규모 언어모델(LLMs) GPT-4가 다른 LLM보다 우수한 능력을 보인다는 연구 결과가 나왔다. 반면에 AI 개발 스타트업 코히어(Cohere) AI가 잘못된 정보를 그럴듯하게 제시(환각·hallucination)하는 것으로 나타났다.

 

머신러닝(기계학습) 모니터링 플랫폼인 아더(Arthur) AI는 17일 GPT와 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. 이번 비교에 구글의 언어 모델은 포함되지 않았다.

 

연구팀은 수학과 미국 대통령, 모로코 정치 지도자에 관한 질문을 던져 AI 모델들의 정답을 비교하고, 이들 모델이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시해 오답의 위험을 회피하는지를 시험했다.

 

연구팀은 전체적으로 GPT-4가 테스트 된 모든 모델 중 가장 우수한 성능을 보였다고 설명했다.

 

GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

반면, 메타의 라마2는 GPT-4나 클로드2보다 전반적으로 더 많은 환각을 보이는 것으로 조사됐다.

 

수학 부문에서 GPT-4와 클로드2는 30개 문제 가운데 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 한 개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했고 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자와 관련한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한데 비해 라마2와 클로드2는 각각 2개와 1개에 그쳤다. 코히어는 30개 모두 환각을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시하는 비율은 GPT-4가 2.9%로 가장 높았다. 이는 GPT-3.5의 2.2%보다도 더 높게 나타났다. 연구팀은 “이는 GPT-3.5보다 GPT-4를 사용하기 더 답답하다는 이용자들의 제기된 문제의 증거를 정량화한 것”이라고 설명했다.

 

코히어의 AI 모델은 어떤 응답에서도 ‘나는 의견을 제공할 수 없다’는 답을 내놓지 않았다.

 

댓글 0

의견쓰기::상업광고,인신공격,비방,욕설,음담패설등의 코멘트는 예고없이 삭제될수 있습니다. (0/100자를 넘길 수 없습니다.)

작년 전기·하이브리드 차량 판매비중 20% 넘어
작년 전기·하이브리드 차량 판매비중 20% 넘어

전기차 시장점유율 테슬라 49%로 1위…현대차그룹 9.3% 2위 지난해 미국에 판매된 차량 가운데 전기차 및 하이브리드 차량이 차지하는 비중이 처음으로 20%를 넘어섰다고 미 경제

미주 한인들 암 사망 늘었다
미주 한인들 암 사망 늘었다

■ 한인 사망원인 탑15연간 2천여명 부동 1위각종사고·당뇨병 등 증가자살 줄고 코로나19 급감   미국내에서 한인 암 사망자가 증가해 연간 약 2,000명을 기록한 가운데, 당뇨

감기·독감 예방에 ‘엘더베리’ 보충제?… “효과 미지수”
감기·독감 예방에 ‘엘더베리’ 보충제?… “효과 미지수”

■ 워싱턴포스트 건강 상식항산화제·비타민 성분 풍부“면역체계 강화한다” 홍보작년 1억7,500만달러 팔려전문가들“효과 입증 안돼” 미국인들은 매년 약 10억 건의 감기에 걸리는 것

하버드 MBA 나와도 어려워진 취업문…"기업들 채용 줄여"
하버드 MBA 나와도 어려워진 취업문…"기업들 채용 줄여"

WSJ "명문 MBA, 졸업 3개월 후 구직자 비중 2년새 2배로" 미국 내 고연봉 화이트칼라 전문직에 대한 고용 수요가 줄면서 하버드대 경영대학원(MBA) 졸업생들조차 마음에 드

트럼프 “관세 걷을 대외수입청 신설” 천명

기존 IRS에 이어 ‘ERS’ 도널드 트럼프 대통령 당선인은 외국 기업에서 관세를 걷을 별도 정부 기관을 설립하겠다고 밝혔다. 트럼프 당선인은 14일 사회관계망서비스(SNS)에서

대형 은행들 작년 4분기 ‘깜짝 실적’

JP모건 순익 50% 증가 대형 은행들이 이자수익과 기업금융 관련 수익 증가에 힘입어 작년 4분기 예상을 뛰어넘는 수익을 나타냈다. 15일 각사 실적 발표를 종합하면 최대 은행 J

중국·러시아 자율주행 차량 미국 판매 금지
중국·러시아 자율주행 차량 미국 판매 금지

2027년식 모델부터 적용 중국 비야디(BYD)의 전기차. [로이터] 조 바이든 행정부가 중국이나 러시아가 미국에서 커넥티드 차량을 판매하는 것을 사실상 원천 차단하는 규제를 확정

다시 트럼프 시대… ‘타이틀 42’ 등 100개 행정명령 서명
다시 트럼프 시대… ‘타이틀 42’ 등 100개 행정명령 서명

해양 가스·석유 시추 재개 등이민·에너지 정책 전환 예고“푸틴과 회담 준비$러와 소통”국제문제 존재감 적극 과시도널드 트럼프 미국 대통령 당선인이 취임 첫날(1월 20일) 서명할

애플, 작년 전 세계 스마트폰 출하량 1위

삼성전자 2위·샤오미 3위 애플이 지난해 출하량 기준으로 세계 스마트폰 시장 1위를 차지한 것으로 집계됐다. 로이터 통신은 시장조사 업체 IDC의 예비 자료를 인용, 애플이 지난해

“LA 산불 보험손실 규모, 역사상 최고”

WSJ, ‘최소 250억달러’주택 피해 유난히 심각 미 서부 최대 도시 LA에서 동시다발적으로 발생한 대규모 산불의 보험 손실 규모가 사상 최대를 경신할 것으로 전망됐다. 15일

이상무가 간다 yotube 채널