한국일보 애틀랜타
첫광고
김성희 부동산
이규 레스토랑

“대화형 AI 언어모델 4개 비교해보니…”

미국뉴스 | | 2023-08-21 09:41:15

대화형 AI 언어모델

권순상 노흥성 부동산 470-218-6136표정원 융자미국 크래딧 교정

“GPT-4가 가장 우수해” 여전히 정보 오류 빈발

 

대화형 인공지능(AI) 서비스인 챗GPT 개발사 오픈AI의 대규모 언어모델(LLMs) GPT-4가 다른 LLM보다 우수한 능력을 보인다는 연구 결과가 나왔다. 반면에 AI 개발 스타트업 코히어(Cohere) AI가 잘못된 정보를 그럴듯하게 제시(환각·hallucination)하는 것으로 나타났다.

 

머신러닝(기계학습) 모니터링 플랫폼인 아더(Arthur) AI는 17일 GPT와 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. 이번 비교에 구글의 언어 모델은 포함되지 않았다.

 

연구팀은 수학과 미국 대통령, 모로코 정치 지도자에 관한 질문을 던져 AI 모델들의 정답을 비교하고, 이들 모델이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시해 오답의 위험을 회피하는지를 시험했다.

 

연구팀은 전체적으로 GPT-4가 테스트 된 모든 모델 중 가장 우수한 성능을 보였다고 설명했다.

 

GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

반면, 메타의 라마2는 GPT-4나 클로드2보다 전반적으로 더 많은 환각을 보이는 것으로 조사됐다.

 

수학 부문에서 GPT-4와 클로드2는 30개 문제 가운데 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 한 개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했고 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자와 관련한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한데 비해 라마2와 클로드2는 각각 2개와 1개에 그쳤다. 코히어는 30개 모두 환각을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시하는 비율은 GPT-4가 2.9%로 가장 높았다. 이는 GPT-3.5의 2.2%보다도 더 높게 나타났다. 연구팀은 “이는 GPT-3.5보다 GPT-4를 사용하기 더 답답하다는 이용자들의 제기된 문제의 증거를 정량화한 것”이라고 설명했다.

 

코히어의 AI 모델은 어떤 응답에서도 ‘나는 의견을 제공할 수 없다’는 답을 내놓지 않았다.

 

댓글 0

의견쓰기::상업광고,인신공격,비방,욕설,음담패설등의 코멘트는 예고없이 삭제될수 있습니다. (0/100자를 넘길 수 없습니다.)

조슈아 "세븐틴도 불확실함 겪어…함께라면 더 멀리 갈 수 있다"
조슈아 "세븐틴도 불확실함 겪어…함께라면 더 멀리 갈 수 있다"

그룹 세븐틴 대표해 글로벌 청년 지원 프로그램 '고잉 투게더' 기념식 참석"청년들, 이미 세상을 바꿀 해답 쥐고 있어…믿어줄 누군가 필요할 뿐"그룹 세븐틴 조슈아의 유네스코 기념식

제조업 일자리 감소… 팬데믹 이후 최대
제조업 일자리 감소… 팬데믹 이후 최대

미 전국 제조업 일자리가 빠른 속도로 감소하고 있다는 설문 기반 경제지표가 나왔다. 24일 S&P 글로벌에 따르면 제조업 구매관리자지수(PMI)는 지난 5월 51.6에서 6

“발표 직전에야 관세율 정한 트럼프… 장관들도 못 믿어”
“발표 직전에야 관세율 정한 트럼프… 장관들도 못 믿어”

백악관 기자 ‘관세 정책 민낯’ 공개USTR 자료에“헛소리 숫자”고집에 백악관 내부도 혼란한·일, 측근에 접근해 소통“ 국제 정세 불확실성 가중”  도널드 트럼프 대통령. [로이터

연방의회, 트럼프 대통령 전쟁권에 ‘역사적 제동’
연방의회, 트럼프 대통령 전쟁권에 ‘역사적 제동’

대이란 추가 군사행동 제한상·하원 모두 결의안 통과50여년 만에 첫 사례 기록공화당 내 균열·반전 여론대이란 협상 트럼프에 부담 도널드 트럼프(오른쪽) 대통령이 24일 공화당 의원

NYT “테일러 스위프트 뉴욕서 결혼식 올릴듯”
NYT “테일러 스위프트 뉴욕서 결혼식 올릴듯”

세계적인 팝 가수 테일러 스위프트(36·사진·로이터)와 NFL 스타 트래비스 켈시(36)의 ‘세기의 결혼식’이 오는 7월3일 뉴욕 매디슨 스퀘어가든 경기장에서 열릴 것으로 추정되는

환율 1,540원대 돌파…금융위기 이후 ‘최고’

미국 달러화 가치 강세와 한국 증시 외국인 주식 순매도가 이어지면서 원·달러 환율이 글로벌 금융위기 이후 처음으로 1,540원대로 마감했다. 25일(한국시간) 새벽 2시 서울외환시

순자산 3,000만달러 넘는 부자 급증

전세계 14% 증가해 56만명 전 세계에서 순자산이 3,000만달러를 넘는 부자들이 급증하고 있다. 이런 추세도 인공지능(AI) 산업 팽창과 연관이 있는 것으로 보인다. 자산정보

텍사스, 500대 기업 보유 순위 1위 등극

캘리포니아 제치고 ‘탑’기업들 ‘엑소더스’ 가속고비용·친노동·규제 요인 ‘억만장자세’ 추진도 악재 미국 500대 기업 보유 순위에서 텍사스주가 캘리포니아주를 제치고 50개 주 중

시민권 신청 수수료 대폭 오른다… 최고 80%↑
시민권 신청 수수료 대폭 오른다… 최고 80%↑

종이신청 1,300달러로저소득층 감면도 폐지 시민권 취득을 준비하는 한인 영주권자들의 경제적 부담이 크게 늘어날 전망이다. 트럼프 행정부가 시민권 신청 수수료를 최대 80% 가까이

‘신속 추방’ 전국 확대 허용
‘신속 추방’ 전국 확대 허용

■ 이민자 추방 강화DC 연방 항소법원 판결이민법원 심리 없이 가능 연방 항소법원이 도널드 트럼프 행정부의 ‘신속 추방(expedited removal)’ 정책을 전국적으로 다시

이상무가 간다 yotube 채널