OpenAI o1: 복잡한 추론을 위한 새로운 언어 모델 도입

OpenAI o1: 복잡한 추론을 위한 새로운 언어 모델 도입

OpenAI가 새로운 대형 언어 모델 o1을 선보였다. 이 모델은 강화 학습을 통해 복잡한 추론을 수행할 수 있도록 훈련되었으며, 최종 답변을 생성하기 전에 내부적으로 깊이 있는 사고 과정을 거친다. 이를 통해 AI의 추론 능력이 한층 더 향상되었다.

OpenAI의 o1은 경쟁 프로그래밍 질문(Codeforces)에서 상위 89%의 성과를 기록했으며, 미국 수학 올림피아드(AIME) 예선에서는 미국 상위 500명 학생과 비슷한 수준의 결과를 보였다.

또한, 물리, 생물학, 화학 문제를 다루는 GPQA 벤치마크에서는 인간 박사 수준의 정확도를 뛰어넘는 성과를 거두었다. 현재 모델의 사용 편의성을 개선하기 위한 작업이 진행 중이지만, OpenAI는 초기 버전인 o1-preview를 ChatGPT와 신뢰할 수 있는 API 사용자들에게 공개했다.


💡
pass@1 accuracy는 인공지능 모델이 주어진 문제에서 첫 번째로 생성한 답변이 정답일 확률을 나타낸다. 예를 들어, 모델이 100개의 문제를 풀었을 때 첫 번째 답변이 80문제에서 정답이라면, pass@1 accuracy는 80%가 된다.

강화 학습과 추론 능력

대규모 강화 학습 알고리즘은 모델이 사고 과정을 통해 생산적으로 생각할 수 있도록 훈련한다. o1은 반복적인 훈련을 통해 꾸준히 성능이 향상되었으며, 더 많은 계산 자원을 사용해 생각하는 시간이 길어질수록 더욱 높은 성과를 보였다. 이 접근 방식의 확장 가능성은 기존의 대형 언어 모델 사전 학습 방식과 크게 달라, 이에 대한 연구가 계속 진행되고 있다.

o1은 어려운 추론 테스트에서 GPT-4o보다 성능이 많이 좋아졌다. 실선 막대는 pass@1 정확도를 보여주고, 음영 영역은 64개 샘플을 이용한 다수결 결과를 나타냈다.

성능 평가 결과

o1의 성능을 확인하기 위해 인간 시험과 다양한 머신러닝 벤치마크에서 모델을 평가했다. 그 결과, 대부분의 추론 중심 작업에서 GPT-4o를 크게 앞서는 성과를 보였다.

특히 AIME 시험에서는 GPT-4o가 평균 12%의 문제를 해결한 데 비해, o1은 74%를 해결했고, 학습된 스코어링 기능을 적용하자 성능이 93%까지 향상되었다. 또한, GPQA-diamond라는 어려운 지능 벤치마크에서도 인간 박사 전문가들을 뛰어넘는 성과를 보여주었다.

o1은 GPT-4o에 비해 다양한 벤치마크에서 성능이 향상되었으며, MMLU의 57개 하위 카테고리 중 54개에서 개선되었다. 그중 7개를 예시로 제시했다.

연쇄적 사고(Chain of Thought)

o1은 어려운 문제에 답하기 전에 연쇄적 사고 과정을 거친다. 이를 통해 모델은 복잡한 문제를 단순한 단계로 나누어 해결하고, 잘못된 접근을 인식하고 수정하는 능력을 배운다. 이 과정은 모델의 추론 능력을 크게 향상시키며, 문제 해결에 있어 보다 효율적인 접근 방식을 사용하게 한다.

코딩 능력 향상

o1을 기반으로 프로그래밍 능력을 더욱 향상시키기 위해 훈련한 모델은 2024년 국제 정보 올림피아드(IOI)에서 49%의 성과를 기록했다. 모델은 경쟁 프로그래밍 대회(Codeforces)에서도 인간 경쟁자들보다 우수한 성과를 보이며 코딩 실력을 입증했다.

안전성 강화

연쇄적 사고를 통해 모델의 안전성과 정렬 능력도 향상되었다. 모델이 사고하는 과정을 관찰함으로써 인간의 가치와 원칙을 학습할 수 있었으며, 이를 통해 o1-preview는 주요 안전성 평가에서 GPT-4o보다 훨씬 뛰어난 성과를 기록했다.

결론

o1은 AI 추론의 새로운 가능성을 열어준다. 향후 더 개선된 모델을 공개할 계획이며, 이 새로운 추론 능력이 과학, 코딩, 수학 등 다양한 분야에서 AI의 활용 가능성을 크게 확대할 것으로 기대된다. 사용자가 이 모델을 통해 일상 업무에서 어떤 변화를 경험하게 될지 기대된다.

Read more

AI로 하루 5시간 업무시간 단축하는 법. 사용성연구소 대표 이승필(AI 팟캐스트 #49)

AI로 하루 5시간 업무시간 단축하는 법. 사용성연구소 대표 이승필(AI 팟캐스트 #49)

최근 AI 기술이 직장인들의 업무 방식을 혁신적으로 변화시키고 있다. 특히 AI 기반 업무 도구들은 효율성과 생산성을 높이는 데 중요한 역할을 하고 있다. 이에 대한 깊이 있는 논의를 위해 인기 유튜버 ‘평범한 사업가’가 진행하는 팟캐스트 ‘평범한 사람들’에서 웍스AI의 이승필 AX 총괄 이사를 초대해 AI가 업무 환경을 어떻게 변화시키고 있는지

By 이승필
웍스AI Generative AI Trend 컨퍼런스

웍스AI Generative AI Trend 컨퍼런스

이승필 대표, 웍스AI AI 트렌드 컨퍼런스 강연 웍스AI가 주최한 AI 트렌드 컨퍼런스에서 이승필 대표(사용성연구소 대표, AX 사업총괄 이사)가 강연을 진행했다. 이번 강연에서는 구글 AI 기술의 최신 동향과 기업 활용 방안을 중심으로, 제미나이 2.0, 프로젝트 아스트라, AI 기반 자동화 도구, 텍스트-이미지 및 텍스트-비디오 모델 등 최신 AI 기술의

By 이승필
삼프로TV [AX College 7화]

삼프로TV [AX College 7화]

2024년 11월 12일, 삼프로TV의 특별 방송에 사용성 연구소 이승필 대표가 출연하여 생성형 AI의 발전과 이를 기업 환경에 도입하는 방법에 대해 심도 깊은 논의를 나누었습니다. 이번 방송에서는 생성형 AI가 업무 효율성을 얼마나 극대화할 수 있는지, 그리고 조직 내에서의 AI 활용 전략에 대한 구체적인 사례들이 소개되었습니다. 방송 주요 내용 1. 생성형 AI의

By 이승필
한국전자통신산업진흥회, 글로벌 수출지원  생성형 AI 교육

한국전자통신산업진흥회, 글로벌 수출지원 생성형 AI 교육

2024년 11월 26일(화), 한국전자통신산업진흥회에서 생성형 AI와 유통 데이터 활용을 통한 글로벌 수출지원 교육이 성공적으로 진행되었습니다. 이번 8시간 교육은 국내 기업들의 해외 수출 역량 강화를 위해 기획되었으며, AI 기술을 활용해 글로벌 시장에서의 경쟁력을 높이는 구체적인 방법론을 다뤘습니다. 프로그램 개요 * 일정: 2024년 11월 26일(화) * 시간: 8시간 * 대상: 유통업계 관계자 및

By 이승필
Footer Example