한국일보 애틀랜타
이규 레스토랑
김성희 부동산
첫광고

“대화형 AI 언어모델 4개 비교해보니…”

미국뉴스 | | 2023-08-21 09:41:15

대화형 AI 언어모델

구양숙 부동산표정원 융자미국 크래딧 교정

“GPT-4가 가장 우수해” 여전히 정보 오류 빈발

 

대화형 인공지능(AI) 서비스인 챗GPT 개발사 오픈AI의 대규모 언어모델(LLMs) GPT-4가 다른 LLM보다 우수한 능력을 보인다는 연구 결과가 나왔다. 반면에 AI 개발 스타트업 코히어(Cohere) AI가 잘못된 정보를 그럴듯하게 제시(환각·hallucination)하는 것으로 나타났다.

 

머신러닝(기계학습) 모니터링 플랫폼인 아더(Arthur) AI는 17일 GPT와 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. 이번 비교에 구글의 언어 모델은 포함되지 않았다.

 

연구팀은 수학과 미국 대통령, 모로코 정치 지도자에 관한 질문을 던져 AI 모델들의 정답을 비교하고, 이들 모델이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시해 오답의 위험을 회피하는지를 시험했다.

 

연구팀은 전체적으로 GPT-4가 테스트 된 모든 모델 중 가장 우수한 성능을 보였다고 설명했다.

 

GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

반면, 메타의 라마2는 GPT-4나 클로드2보다 전반적으로 더 많은 환각을 보이는 것으로 조사됐다.

 

수학 부문에서 GPT-4와 클로드2는 30개 문제 가운데 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 한 개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했고 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자와 관련한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한데 비해 라마2와 클로드2는 각각 2개와 1개에 그쳤다. 코히어는 30개 모두 환각을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시하는 비율은 GPT-4가 2.9%로 가장 높았다. 이는 GPT-3.5의 2.2%보다도 더 높게 나타났다. 연구팀은 “이는 GPT-3.5보다 GPT-4를 사용하기 더 답답하다는 이용자들의 제기된 문제의 증거를 정량화한 것”이라고 설명했다.

 

코히어의 AI 모델은 어떤 응답에서도 ‘나는 의견을 제공할 수 없다’는 답을 내놓지 않았다.

 

댓글 0

의견쓰기::상업광고,인신공격,비방,욕설,음담패설등의 코멘트는 예고없이 삭제될수 있습니다. (0/100자를 넘길 수 없습니다.)

‘ICE총격’에 주말 미 전역 시위…간밤 29명 체포·경관 1명 부상
‘ICE총격’에 주말 미 전역 시위…간밤 29명 체포·경관 1명 부상

월즈 미네소타 주지사 평화시위 당부… “트럼프에 미끼 주면 안돼”   뉴욕 맨해튼에서 10일 열린 이민세관단속국(ICE) 항의 시위에서 한 여성이 ‘ICE 영구 퇴출’을 요구하는

미, 식이지침 포함된 김치… ‘마이크로바이옴’ 건강에 무슨 역할?
미, 식이지침 포함된 김치… ‘마이크로바이옴’ 건강에 무슨 역할?

“항염·항비만에 항암 유산균까지 포함…미생물 다양성 유지되도록 도와”   10일(한국시간) 부산 부산진구 삼광사 식당에서 열린 ‘제8회 천태종 삼광사와 천태종복지재단 부산지부가 함

[신년 기획 - 연초 시작하면 좋은 투자·저축계획] “401(k)(직장퇴직연금)·IRA(개인은퇴계좌) 재점검… 꼭 가입하고 분담금 늘려야”
[신년 기획 - 연초 시작하면 좋은 투자·저축계획] “401(k)(직장퇴직연금)·IRA(개인은퇴계좌) 재점검… 꼭 가입하고 분담금 늘려야”

물가 맞춰 자동이체로 월 금액 인상 필수고용주가 매칭 제공하면 반드시 활용 이득미국인 노후준비 절반 이하, 일찍 시작해야 새해를 맞아 재정 목표를 세우는 사람들에게 2026년은 은

올해 새해 결심은 ‘주택 관리’… 방치하면 더 큰 수리로
올해 새해 결심은 ‘주택 관리’… 방치하면 더 큰 수리로

인스펙터가 우려하는 관리 유형문제 생기면 그때 가서 하지내 손재주만 믿고 하는 DIY 전기, 배관 및 건물 구조 업그레이드 등은 집주인 함부로 손대면 안 되는 공사 항목이다. [로

올해 내 집 마련하려면… 철저한 대출 상품 비교부터
올해 내 집 마련하려면… 철저한 대출 상품 비교부터

‘같은 날·같은 조건’으로 견적비용 협상 가능한 항목만 비교‘ 손 익 분기점·세부 조건’확인 올해는 다행히 주택 구입비 부담이 작년보다 완화될 전망이다. 가격 상승세가 크게 둔화하

소비자들 지갑 열까?… 올해 소비 전망 대체로 ‘양호’
소비자들 지갑 열까?… 올해 소비 전망 대체로 ‘양호’

고소득층… 다운그레이드 구매AI 활용한 가성비 지출 트렌드계층간 소비 양극화 현상 뚜렷‘ 선구매, 후결제’당분간 지속 작년말 소비자들은 경제 불확실성에도 불구하고 지갑을 여는 데

지표 보면 경제 알 수 있다… 경기 향방 가늠 10대 지표
지표 보면 경제 알 수 있다… 경기 향방 가늠 10대 지표

인플레… 둔화세 지속 불확실주택시장… 올해도 약세 전망유가… 계절 변동 외 소폭 하락S&P 500… 2년간 13~15%↑ 소비자 지갑에 직접적인 영향을 주는 개솔린 가격은

스마트폰·SNS 조기 노출… 청소년의 뇌가 위험하다
스마트폰·SNS 조기 노출… 청소년의 뇌가 위험하다

■ 워싱턴포스트 특약 건강·의학 리포트과학이 밝힌 조기 스마트폰 사용의 위험성청소년들 수면·비만·우울·집중력 저하 등‘언제·어떻게 시작’관건… 부모 모범 보여야 스마트폰과 소셜미디

급조된 노력으론 명문대 힘들어… ‘새해부터 준비할 일’
급조된 노력으론 명문대 힘들어… ‘새해부터 준비할 일’

명문대 입시 성공을 위해 연초부터 체계적인 준비가 필요하다. 성과 기반 여름 프로그램 지원, 클럽 활동 내 실질적 리더십 발휘, 전공 외 2차적 관심사 발굴, 그리고 학생 주도의 창의적인 열정 프로젝트가 합격 가능성을 높이는 핵심 요소로 꼽힌다.

재정보조만으로 부족한 대학 학비… 장학금 신청으로 해결
재정보조만으로 부족한 대학 학비… 장학금 신청으로 해결

다양한 민간 재단 장학금‘신청 자격·금액’ 천차만별신청 시‘학생·부모’신중민감 정보 요구 사기 주의 정부와 대학 재정보조만으로 대학 학비를 충당하기 힘들기 때문에 장학금 신청을 고

이상무가 간다 yotube 채널