본문 바로가기
카테고리 없음

앤트로픽, '클로드 3.5 소네트' 출시... 'GPT-4o' 제치고 최강 모델 탈환

by digitaltutor.Katie 2024. 6. 23.
반응형

앤트로픽, '클로드 3.5 소네트' 출시... 'GPT-4o' 제치고 최강 모델 탈환

앤트로픽이 강력한 성능을 가진 새로운 AI 모델 ‘클로드 3.5 소네트(Claude 3.5 Sonnet)’를 공개했습니다. 이 모델은 벤치마크에서 오픈 AI가 지난 5월 공개한 최신 모델 'GPT-4o'를 능가한다는 주장으로 주목받고 있습니다. 한 달 만에 '현존 최고 성능' 모델 타이틀을 되찾은 셈입니다.

클로드 3.5 소네트: 중간급 모델의 혁신

앤트로픽은 20일(현지시간) 블로그를 통해 클로드 3.5 모델 제품군 중 첫 번째로 소네트를 출시한다고 발표했습니다. 소네트는 앤트로픽의 제품군 중 중간급 모델로, 가장 강력한 모델인 클로드 3.5 '오퍼스(Opus)', 경량 모델 클로드 3.5 '하이쿠(Haiku)'도 순차적으로 출시할 예정입니다. 현재 소네트는 웹과 iOS 환경에서 클로드 사용자들이 이미 이용할 수 있으며, 개발자들도 활용이 가능합니다.

비용 효율성과 성능의 극대화

클로드 3.5 소네트는 지난 3월 출시한 최고 모델인 클로드 3 오퍼스 대비 2배 속도로 작동하며, 비용은 클로드 3 오퍼스의 5분의 1 수준으로 저렴해졌습니다. 앤트로픽은 "뉘앙스, 유머, 복잡한 지침을 파악하는 능력이 현저히 향상됐다"라며 "자연스럽고 공감할 수 있는 어조로 고품질 콘텐츠를 작성하는 데 탁월하다"라고 소개했습니다.

코딩 AI 에이전트 수준의 기능

특히 코딩 능력이 뛰어나 정교한 추론 및 문제 해결 기능을 통해 독립적으로 코드를 작성, 편집 및 실행할 수 있는 '코딩 AI 에이전트' 수준으로 활용할 수 있습니다. 모델과 함께 '아티팩트(Artifacts)'라는 기능도 선보였으며, 이를 통해 클로드가 생성한 결과물을 사용자가 실시간으로 확인하면서 편집, 구축할 수 있습니다. 웹에서 클로드가 생성한 콘텐츠를 프로젝트와 작업 절차에 원활하게 통합할 수 있도록 지원하는 일종의 작업 공간입니다.

멀티모달 모델의 새로운 기준

클로드 3.5 소네트는 이미지 인식 능력을 갖춘 멀티모달 모델로, 이미지 인식 능력을 평가하는 표준 비전 벤치마크에서도 전 세대 모델 '클로드 3 오퍼스'를 능가했습니다. 앤트로픽은 “불완전한 이미지에서 텍스트를 정확하게 전사(transcription)할 수 있다”라며 “텍스트보다 이미지, 그래픽, 일러스트레이션에서 더 많은 정보를 얻을 수 있는 소매, 물류, 금융 서비스의 핵심 기능”이라고 설명했습니다.

안전성과 개인정보 보호

앤트로픽은 모델의 안전성도 강조했습니다. “영국 인공 지능 안전 연구소(UK AISI)에 모델을 제출, 테스트를 완료했으며 미국 인공지능 안전 연구소(US AISI)와도 결과를 공유했다”라고 밝혔습니다. 또한 “개인정보 보호는 가장 중요한 원칙 중 하나다. 사용자가 명시적으로 허용하지 않는 한 사용자가 제출한 데이터로 모델을 학습하지 않는다”라고 전했습니다.

벤치마크 결과: GPT-4o를 능가

벤치마크 8개 중 7개, 비전 벤치마크 5개 중 4개 분야에서 'GPT-4o'나 '제미나이 1.5 프로', '라마 3 400B' 등 첨단 모델을 능가했습니다. 대학원 수준의 추론 능력(GPQA)은 59.4%로 GPT-4o(53.6%)를 크게 앞섰고, 코딩 능력(HumanEval) 역시 92.0%로 GPT-4o(90.2%) 대비 1.8% 포인트 높았습니다. 또한 클로드 3.5 소네트는 중간 크기의 모델이지만, 전 세대 최고 모델인 클로드 3 오퍼스의 성능을 모두 앞질렀습니다.

기업 중심의 기능 강화

멀티모달 과제 수행에서도 차트 이해도와 문서 이해도 부문에서 각각 90.80%, 95.2%의 점수를 받아, 85.7%, 92.8%를 기록한 GPT-4o를 앞섰습니다. 다니엘라 아모데이 앤트로픽 공동 창립자는 “클로드 3.5 소네트는 현재 시장에서 가장 지능적이며, 저렴한 모델”이라고 강조했습니다.

한편, 이미지 생성 기능은 제외되었습니다. 이는 "비즈니스를 위한 제품을 만드는 것이 핵심으로, 매력적이지만 기업에게 별 필요가 없는 기능은 우선 순위에서 제외했다"라는 설명입니다.

반응형