오픈AI, 생각하는 AI 'o1' 공개... 생성형 AI의 판도 바꿀까?

챗GPT로 생성형 AI 시대를 연 오픈AI가 또 한 번의 혁신을 선보였다. 코드명 '스트로베리'(Strawberry)로 알려진 새로운 생성형 AI 모델 '오픈AI 오원'('OpenAI o1')이 그 주인공이다.

12일(현지시간) 테크크런치에 따르면 '오픈AI 오원'은 단순히 새로운 모델이 아니라, 모델들의 집합체, 즉 '모델 패밀리'다. 그중 '오원-프리뷰'(o1-preview)와 오원-미니(o1-mini)는 코드 생성에 특화된 모델로, 더 작고 효율적인 것이 특징이다.

현재 챗GPT 플러스 또는 팀 사용자는 챗GPT 클라이언트에서 o1을 사용할 수 있으며, 엔터프라이즈 및 교육 사용자는 다음 주 초부터 이용 가능하다.

o1, 아직은 초기 단계... 하지만 잠재력은 무궁무진

o1은 아직 초기 단계에 머물러 있다. 이전 모델인 GPT-4o와 달리 웹 검색이나 파일 분석 기능은 없으며, 이미지 분석 기능도 현재 비활성화된 상태다. 또한 속도 제한도 있어 o1-프리뷰는 주당 30개, o1-미니는 주당 50개 메시지로 제한된다.

테크크런치에 따르면 가격 또한 부담스럽다. API에서 o1-프리뷰는 입력 토큰 100만 개당 15달러, 출력 토큰 100만 개당 60달러로, GPT-4o에 비해 입력은 3배, 출력은 4배 비싸다. (토큰은 약 75만개의 단어에 해당하는 원시 데이터 단위)

오픈AI는 챗GPT 무료 사용자에게도 o1-미니 액세스를 제공할 계획이지만, 구체적인 시기는 아직 정해지지 않았다.

o1의 핵심, '추론의 사슬'

o1의 가장 큰 강점은 '추론의 사슬'이라는 독특한 방식을 통해 사실 확인 능력을 갖췄다는 점이다. 질문의 모든 부분을 꼼꼼히 분석하고 시간을 들여 답변을 생성하기 때문에 기존 생성 AI 모델들이 자주 겪는 추론 함정을 피할 수 있다. 오픈AI는 o1이 질문에 답하기 전에 '생각'하는 능력을 갖췄다고 설명한다.

이러한 '생각' 능력은 o1이 작업을 전체적으로 추론하고, 장기적인 계획을 세워 일련의 작업을 수행하도록 돕는다. 따라서 o1은 변호사의 이메일에서 특권 메일을 찾거나 제품 마케팅 전략을 수립하는 등 복잡하고 다단계의 작업에 능숙하다.

테크크런치에 따르면 오픈AI 연구 과학자 노엄 브라운은 o1이 강화 학습을 통해 훈련되며, 정답을 맞히면 보상을, 틀리면 벌칙을 주는 방식으로 '생각' 능력을 키웠다고 설명했다. 또한 새로운 최적화 알고리즘과 추론 작업에 특화된 교육 데이터 세트를 활용했다고 덧붙였다.

o1, 벤치마킹에서 뛰어난 성능 입증

테크크런치는 아직 o1을 직접 테스트하지 못했지만, 액세스 권한이 있었던 톰슨 로이터 부사장 파블로 아레돈도는 o1이 법률 브리핑 분석 및 LSAT 논리 게임 문제 해결 등에서 기존 모델보다 뛰어나다고 평가했다.

오픈AI 자체 벤치마킹 결과도 놀랍다. o1은 국제 수학 올림피아드 예선 시험 문제의 83%를 정확하게 풀었으며, 온라인 프로그래밍 챌린지 코드포스(Codeforces) 라운드에서는 참가자의 89번째 백분위에 도달했다. 이는 GPT-4o나 딥마인드의 알파코드 2보다 뛰어난 성적이다.

오픈AI는 o1이 데이터 분석, 과학 및 코딩 문제에서 특히 강점을 보이며, 다국어 기술, 특히 아랍어와 한국어에서도 GPT-4o보다 향상되었다고 밝혔다. 워튼 경영학 교수 이선 몰릭 또한 o1이 어려운 크로스워드 퍼즐을 푸는 데 능숙했다고 평가했다.

o1, 아직 완벽하지 않아... 하지만 미래는 밝다

물론 o1에도 단점은 있다. 쿼리에 따라 다른 모델보다 느릴 수 있으며, 일부 질문에 답하는 데 10초 이상 걸리기도 한다. 또한 생성형 AI 모델의 특성상 예측 불가능한 오류나 한계가 있을 수 있다. 브라운은 o1이 때때로 틱택토 게임에서 실수한다는 점을 인정했으며, OpenAI 기술 논문에 따르면 o1이 GPT-4o보다 환각 경향이 더 강하고 질문에 대한 답이 없을 때 인정하는 빈도가 낮다는 피드백도 있었다.

시간이 지나면서 o1의 다양한 문제점과 한계가 더 명확해질 것이다. 하지만 o1은 분명 생성형 AI의 새로운 가능성을 보여주는 모델이다. 오픈AI는 추론 능력을 더욱 강화하기 위해 몇 시간, 며칠 또는 몇 주 동안 추론하는 o1 모델을 실험하고 있으며, 더 저렴하고 널리 사용 가능한 모델을 제공하기 위해 노력하고 있다.

치열한 경쟁 속 오픈AI의 도전

오픈AI는 모델의 사실성을 개선하기 위해 추론 방법을 연구하는 유일한 기업이 아니다. 구글 딥마인드도 최근 모델에 추가적인 조정 없이도 성능을 크게 향상시킬 수 있는 연구 결과를 발표했다.

경쟁이 치열해지면서 오픈AI는 챗GPT에서 o1의 원시 "생각의 사슬"을 공개하지 않기로 결정했다. 이는 부분적으로 "경쟁 우위"를 유지하기 위한 전략이다.

오픈AI는 o1로 가장 먼저 시장에 진출했지만, 경쟁사들이 곧 비슷한 모델을 출시할 것으로 예상된다. 따라서 오픈AI의 진짜 시험은 o1을 더 저렴하게 널리 보급하고, 빠르게 업그레이드 버전을 제공하는 것이다. o1이 생성형 AI 시장의 판도를 어떻게 바꿀지, 오픈AI의 다음 행보에 귀추가 주목된다.

김규환 글로벌에픽 기자 globalepic7@kakao.com

항목	현재가	전일대비
코스피	2,404.15	▼31.78
코스닥	668.31	▼16.05
코스피200	318.33	▼4.05