News

클로드 3.5 Sonet vs GPT 4o 실무 대결

이승필

30 Jun 2024 — 12 min read

한여름의 무더위 속에서 인공지능 기술 발전의 열기 또한 그 어느 때보다 뜨겁다. 대규모 언어 모델(LLM) 시장에서는 주요 기업들의 치열한 경쟁이 계속되고 있으며, 그 중심에 Anthropic의 Claude 3.5 Sonnet과 OpenAI의 GPT-4o가 있다.

이 두 모델은 최근 업데이트를 거치며 그 성능을 끊임없이 향상시켜 왔다.

Claude 3.5 Sonnet이라는 인공지능 모델이 여러 분야에서 탁월한 성능을 보여주고 있다. 구체적으로 살펴보면, 대학 수준의 다양한 지식(MMLU로 측정), 대학원생 수준의 전문적 추론 능력(GPQA로 측정), 그리고 컴퓨터 프로그래밍 능력(HumanEval로 측정) 등의 영역에서 새로운 업계 최고 기록을 수립하였다.

Anthropic사의 발표에 따르면, Claude 3.5 Sonnet은 거의 모든 벤치마크 테스트에서 OpenAI의 GPT-4와 Google의 Gemini 1.5 Pro와 같은 다른 유명 AI 모델들을 능가하는 성과를 보여주었다고 한다.

본 포스트에서는 Claude 3.5 Sonnet과 GPT-4o의 최신 버전을 대상으로 상세한 성능 비교 분석을 진행한다.

1. 이메일 작성

#역할
당신은 비즈니스 이메일을 전문적으로 다시 작성하는 전문가입니다. 주어진 원본 이메일을 보다 전문적이고 비즈니스 태도에 맞게 다시 작성해야 합니다.

#지침
이 이메일을 다음 지침에 따라 다시 작성해 주세요:
1. 전문적이고 공손한 톤을 유지하세요.
2. 비즈니스 환경에 적합한 격식있는 언어를 사용하세요.
3. 보다 세련되고 전문적인 방식으로 표현하세요.
4. 적절한 비즈니스 용어와 표현을 사용하여 전문성을 높이세요.
5. 문장 구조를 개선하고 필요한 경우 단락을 재구성하세요.
6. 모호하거나 부적절한 표현은 제거하고 명확하고 직접적인 언어를 사용하세요.
7. 이메일의 시작과 끝에 적절한 인사말을 포함하세요.

#원본
이메일 제목: 내일 미팅 ㄱㄱ
김부식 부장님 안녕하세요 ㅋㅋ
이성팔 사원입니다.
내일 미팅 시간 10시로 잡음.
참석자는 6명임. (마케팅 부서 2명, PM 2명, 나 부장님)
PPT 첨부파일 보셈 ㅋ
그럼 내일 10시에 보자 ㅋㅋㅋ

종합적으로, 클로드 3.5 Sonet의 output이 정보를 더 명확하고 구조화된 방식으로 전달하면서도 추가적인 소통 가능성을 열어두고 있어 더 효과적인 업무 커뮤니케이션으로 판단된다.

2. 작문 능력

아래의 세 가지 키워드로 200자 내외의 스탠드업 코미디를 구성해 보세요. 블랙 코미디를 하세요.
[키워드]: LLM, 생성형AI, 인간

객관적 평가이긴 하나, 클로드의 유머 감각이 월등히 뛰어난 듯하다. 블랙코미디를 요청하자 상당히 어두운 이야기가 도출되었다. 반면 GPT4의 결과물은 다소 평이한 편이었다.

3. 문서 핵심내용 요약

다음 보고서의 내용을 체계적으로 요약하고 분석해주세요:
1. 보고서의 목차를 검토하고, 주요 섹션들을 나열해주세요.
2. 각 주요 섹션에 대해:
a) 핵심 내용을 5개의 간결한 불렛포인트로 요약해주세요.
3. 전체 보고서를 종합적으로 분석하여:
a) 가장 중요한 3가지 발견 사항이나 결론을 제시해주세요.
b) 이 보고서를 바탕으로 취해야 할 3-5가지 구체적인 행동 계획을 제안해주세요.
요약은 명확하고 간결하게 작성하되, 보고서의 핵심 메시지와 중요한 세부사항을 놓치지 않도록 해주세요.

GPT4o가 요청 프롬프트에 더욱 충실하게 응답한 것으로 평가된다. 구조가 명확하며, 모든 섹션을 포괄하고, 요약이 간결하면서도 핵심 내용을 잘 담고 있다.

클로드 3.5 Sonet 또한 좋은 요약을 제공하였으나, 형식 준수와 포괄성 면에서 GPT4o에 비해 약간 부족한 점이 있다. 따라서 요청에 더 부합하는 것은 GPT4o라고 할 수 있을 것 같다.

4. 번역

다음 한국어 텍스트를 영어로 번역해주세요. 번역 시 비즈니스 및 전문 용어를 적절히 사용하고, 공식적이고 전문적인 톤을 유지해주세요. 원문의 의미를 정확히 전달하면서도 자연스러운 영어 표현을 사용해주세요. 필요한 경우, 업계 특화 용어나 관용구를 적절히 활용해주세요.
---
안녕하세요, 김병철 대리님.
저는 사용성연구소의 대표 이승필입니다. 먼저, 바쁘신 와중에도 이 이메일을 읽어주셔서 감사합니다.
다름이 아니라, 저희 연구소와 귀사의 잠재적인 협력 방안을 논의하고자 이메일을 드립니다. 저희 연구소는 사용자 경험 및 인터페이스 개선 분야에서 다양한 프로젝트를 성공적으로 수행해 왔습니다. 이를 통해 귀사와의 협력이 양사에 큰 시너지 효과를 가져올 것이라 확신합니다.
이에 따라, 가능하시다면 가까운 시일 내에 회의를 통해 구체적인 협력 방안을 논의할 수 있는 자리를 마련하고자 합니다. 회의 일정은 [제안하는 날짜 및 시간]으로 제안드리며, 다른 일정이 더 편리하시다면 조율 가능합니다. 회의 장소는 귀사 방문 또는 온라인 회의 중 편하신 방식을 선택해 주시면 감사하겠습니다.
저희의 제안에 긍정적인 검토를 부탁드리며, 회의 일정을 조율할 수 있도록 회신 주시면 감사하겠습니다.
감사합니다.
사용성연구소
대표 이승필 드림
[이메일 주소]
[전화번호]

두 번역 모두 형식적이고 비즈니스 커뮤니케이션에 적합하지만, 미세한 차이로 클로드 3.5 Sonet이 더 세련되고 원어민스러웠다. 결론적으로, 클로드 3.5 Sonet이 영어 원어민의 표현과 비즈니스 이메일 작성을 조금 더 잘해주었다. 아래는 그 예시들이다.

자기소개

클로드 3.5 Sonet이 더 간결하고 자연스럽다. 불필요한 단어를 줄여 더 간결하게 자기소개를 한다. 더욱 원어민같이 자연스럽다.

My name is Lee Seung-pil, and I am the CEO of the Usability Research Institute.

I am Seung-pil Lee, CEO of the Usability Research Institute.

감사 인사

"I would like to express my gratitude"라는 표현을 사용해 더 공손하고 형식적인 느낌을 준다. "First and foremost"는 다소 과장된 표현으로 들릴 수 있다.

First and foremost, thank you for taking the time to read this email despite your busy schedule.

First, I would like to express my gratitude for taking the time to read this email despite your busy schedule.

5. 데이터 분석

주어진 데이터를 분석하여 다음 사항들을 상세히 설명해주세요:
1. 데이터의 주요 특징과 패턴을 요약해주세요.
2. 데이터를 바탕으로 3가지 주요 인사이트를 도출해주세요.
3. 각 인사이트에 대해 구체적인 액션 플랜을 1-2개씩 제안해주세요.
분석 결과는 명확하고 구조화된 형식으로 제시해주세요.

현재 클로드 3.5 Sonnet은 엑셀 파일 업로드 기능을 제공하지 않아, 공정한 비교를 위해 두 모델 모두 CSV 파일을 사용했다.

클로드 3.5 Sonnet도 데이터 시각화 요청에 응답할 수 있지만, 아직 프롬프트가 제대로 작동하지 않는 경우가 많다. 반면 GPT-4o는 최근 Data Analysis 기능이 업데이트되어 데이터 분석 능력이 크게 향상되었다.

두 모델 모두 분석을 훌륭히 수행했지만, GPT-4o가 더 뛰어난 성능을 보였다. GPT-4o는 데이터를 더 명확하고 구조화된 형식으로 분석했으며, 더 구체적이고 실현 가능한 인사이트와 실행 계획을 제공했다.

결론적으로, 데이터 분석과 인사이트 제공 측면에서 GPT-4o가 클로드 3.5 Sonnet보다 우수한 성능을 보여주었다.

6. 엑셀 함수 추천

엑셀 함수를 알려주세요.
1. 12/1/20, 12/9/20 합계 판매량 계산
2. 12//20, 12/9/20 합계 공급가액

OCR 기능을 활용해 함수에 대해 GPT-4o와 클로드 3.5 Sonnet 두 모델에 동일한 요청을 했다. GPT-4는 일반적으로 함수를 잘 설명하지만, 이번 사례에서는 예외적으로 제공된 함수가 작동하지 않았다. 반면, 클로드 3.5 Sonnet이 작성한 함수는 정확히 의도한 대로 작동했다.