프론티어매스로 본 AI의 한계와 가능성: GPT-4o와 클로드도 넘지 못한 수학의 벽

최근 AI 연구가 지속적으로 발전하면서 인공지능의 한계를 시험할 수 있는 새로운 평가 기준이 등장하고 있습니다. 이번에 공개된 '프티어매스(FrontierMath)'는 AI 시스템의 고차원적 추론 능력을 측정하는 벤치마크로, 특히 수학적 사고와 창의력을 동시에 요구합니다. 흥미롭게도 이 벤치마크에서는 GPT-4o와 클로드 같은 최신 AI 모델들조차 전체 문제의 2%도 해결하지 못했다는 결과가 나왔습니다. 이는 기존 AI 시스템들이 해결했던 문제들과 비교했을 때 상당히 도전적인 수준의 난이도임을 의미합니다.

수학 문제는 AI의 한계를 시험하기 좋은 도구로 꼽히는데, 이는 수학이 본질적으로 논리적이고 정밀한 사고를 필요로 하기 때문입니다. 단순히 답을 생성하는 것이 아니라, 문제의 구조를 이해하고 다단계의 논리를 통해 올바른 해답에 도달해야만 하기 때문에 수학 문제는 언어나 이미지 인식과 달리 더 높은 추론 능력을 요구합니다. 그래서 수학적 사고는 AI의 '진정한 이해력'을 평가할 수 있는 하나의 척도라고도 볼 수 있습니다. 프론티어매스가 이러한 역할을 하며 AI 시스템의 실제적인 사고력, 추론력을 평가하는 벤치마크로 자리 잡고 있는 것이죠.

기존의 수학 평가 벤치마크는 주로 학습 데이터에 포함된 문제들과 유사한 문제들로 구성된 GSM8K와 MATH 같은 데이터셋을 사용해왔습니다. 때문에 최신 AI 시스템들은 이러한 벤치마크에서는 높은 성능을 보였으나, 일부에서는 데이터 오염으로 인해 실제 문제 해결 능력보다는 암기와 패턴 인식으로 결과를 얻었다는 비판을 받아왔습니다. 반면 프론티어매스는 완전히 새로운 문제들로 구성되어 있어, 이러한 데이터 오염 문제가 거의 없다고 평가됩니다. 프론티어매스 문제들은 기존 AI 모델들이 학습한 적 없는 내용들이며, 단순 암기나 패턴 인식으로는 접근조차 어려운 수준입니다.

특히 프론티어매스는 수학적으로도 높은 수준의 주제들을 다루고 있어 인간 수학자들에게조차 어려운 도전 과제로 평가됩니다. 계산적 수 이론, 추상 대수기하학 등 고차원적인 주제들로 구성된 문제들이 포함되어 있으며, 이 문제들은 종종 수 시간에서 며칠에 걸쳐서 풀어야 할 정도로 복잡합니다. 또한 문제는 '추측 불가(guessproof)' 방식으로 설계되어, 수학적 작업을 거치지 않으면 해결이 거의 불가능한 점도 특징입니다. 해결책이 대개 큰 숫자나 복잡한 수학적 객체들로 이루어져 있어, 적절한 추론 없이 단순히 '찍기'로는 맞출 가능성이 1% 미만에 불과합니다. 이러한 특성들은 AI의 진정한 이해력과 사고력을 평가하기에 최적화된 요소들이라 할 수 있습니다.

프론티어매스의 문제 개발에는 필즈상 수상자인 테렌스 타오와 티모시 가워스, 리처드 보처즈와 같은 세계적인 수학자들이 참여해 그 신뢰도를 높였습니다. 이들은 문제들이 단순한 기계적 접근을 넘어 진정한 수학적 이해를 필요로 하도록 설계되었음을 강조했습니다. AI가 이 문제들을 풀기 위해서는 사람처럼 논리적인 사고 과정을 거쳐야만 합니다. 이런 점에서 프론티어매스는 AI의 진보 여부를 판단할 수 있는 매우 유효한 지표로 평가됩니다.

현재의 GPT-4o, 제미나이 1.5 프로, 클로드 3.5 소네트 등 주요 AI 시스템들이 이 벤치마크에서 2% 이상의 문제를 해결하지 못한 것으로 나타났습니다. 이는 AI가 수학적인 추론력과 창의적인 문제 해결 능력 면에서 아직 많은 발전이 필요하다는 사실을 의미합니다. 하지만 만약 AI가 이러한 프론티어매스 문제를 효과적으로 풀 수 있는 단계에 도달한다면, 이는 AI의 추론 능력이 기존의 한계를 넘어서며 인간과 비슷한 이해력을 지닌 새로운 지능 형태로 발전했다는 중요한 신호가 될 것입니다.

이와 같은 AI의 발전 가능성에 대해 매튜 바넷 AI 연구원은 "AI가 프론티어매스를 완전히 해결할 수 있는 날이 온다면, 우리는 인간과는 전혀 다른 종류의 지능을 가진 존재들과 함께 살게 될 것"이라고 언급했습니다. 이는 단순히 인간의 행동을 모방하는 단계를 넘어서는 것으로, AI가 인간처럼 깊이 있는 사고와 문제 해결 능력을 갖추게 됨을 의미합니다. 프론티어매스가 AI의 진정한 이해력을 평가하는 중요한 기준으로 자리 잡은 지금, 이 벤치마크에서의 성과는 향후 AI의 가능성을 가늠할 중요한 요소가 될 것입니다.

AI의 지속적인 발전을 통해 우리는 새로운 가능성을 마주하게 될 것입니다. 특히, 수학적 사고력과 창의적 문제 해결 능력에서 진전을 이루는 AI의 모습은 다양한 분야에서 혁신을 일으킬 잠재력을 갖고 있습니다. AI가 인간과 유사한 지적 능력을 갖추는 그 날을 기대하며, 우리는 앞으로도 AI 연구의 진전을 관심 깊게 지켜봐야 할 것입니다.

KATIEVOX : 혁신과 영감이 만나는 곳

프론티어매스로 본 AI의 한계와 가능성: GPT-4o와 클로드도 넘지 못한 수학의 벽

티스토리툴바