Claude Opus 4.8 출시 정리 — 가격 동결·정직성 강화, effort 설정에서 점수가 갈린다
Claude Opus 4.8 출시 정리 — 가격 동결·정직성 강화, effort 설정에서 점수가 갈린다
미국 시간으로 2026년 5월 28일, Anthropic이 신규 모델 Claude Opus 4.8을 공개했습니다. 가격은 Opus 4.7과 똑같이 유지됐고, 코딩과 에이전트 작업, 그리고 오래 이어지는 작업에서의 일관성이 좋아졌습니다.
요즘 AI 업계의 업데이트 속도는 정말 무섭습니다. OpenAI와 Anthropic의 모델 출시를 시간순으로 늘어놓으면, 최근 10개월 동안 두 회사가 합쳐서 14번이나 새 모델을 내놨습니다. 이제 업데이트 주기는 '몇 주'가 기본이 됐죠. 이번 Opus 4.7에서 4.8로의 업데이트도 단 42일 만에 이뤄졌습니다.
Anthropic 공식 평가는 "이전 버전에서 소박하지만 분명한 개선" 정도로 꽤 조심스럽습니다. 그런데 제3자 리뷰에서는 "Opus 5라고 불러도 됐다"라며 후하게 매겼습니다. 이 글에서는 공식 정보와 AGI랩이 직접 돌려 본 'effort 설정' 검증 결과를 가지고, 이 평가 차이가 어디서 오는지 자세히 들여다봅니다.
핵심만 먼저
가격은 그대로 둔 채 상위 모델로 올라섰다. API 가격은 입력 100만 토큰당 $5, 출력 100만 토큰당 $25로 Opus 4.7과 같습니다. 모델 이름은 claude-opus-4-8. 〔공식〕
성능은 effort(노력) 설정에 크게 좌우된다. 같은 작업이라도 노력을 올리면 결과가 달라집니다. 제3자가 매긴 고난도 코딩 시험에서는 high가 42점, extra-high가 63점으로 차이가 벌어졌습니다. 그러니 점수는 반드시 effort 설정과 함께 읽어야 합니다.
'정직성(honesty)'이 좋아졌다. 근거가 빈약한데도 "다 됐다"라고 단언하는 버릇이 줄었고, 자기가 짠 코드의 결함을 그냥 통과시키는 빈도가 옛 모델의 약 4분의 1로 떨어졌다고 합니다.
Claude Code에 'Dynamic Workflows'가 들어왔다. 계획을 세우고, 수백 개의 병렬 서브에이전트를 한 세션에서 돌리고, 결과를 스스로 검증한 다음 보고하는 새 기능입니다(리서치 프리뷰).
Claude Opus 4.8 개요
Claude Opus 4.8은 최상위 모델 'Opus'의 새 버전입니다. Opus 4.7을 바탕으로 코딩, 에이전트 작업, 전문적인 지식 노동에서 성능이 올라갔고, 오래 이어지는 연속 작업에서 일관성이 좋아졌습니다. 공식은 '화려한 도약'보다는 '같이 일하기 편한 상대'라는 점을 앞세웁니다.
'정직성(honesty)'이 좋아졌다
이번에 가장 눈에 띄는 변화는 모델의 '정직성'입니다. AI는 근거가 부족해도 자신만만하게 "완료했습니다"라고 말해 버리곤 하는데, Opus 4.8은 작업이 불확실하다는 점을 먼저 밝히기 쉬워졌고 근거 없는 주장을 덜 하게 됐다고 합니다.
수치로 보면, 자기가 쓴 코드의 결함을 못 보고 그냥 통과시키는 빈도가 이전 버전의 약 4분의 1로 떨어졌다고 합니다. 코드를 맡길 때 '말없이 틀리는' 일이 줄어든다는 건 실제로 쓸 때 큰 장점입니다.
얼라인먼트 개선
공개 전 얼라인먼트 평가에서는, 사용자의 자율성을 존중하는 등 친사회적 성향이 높은 수준에 이르렀고, 속임수나 오용에 가담하는 식의 어긋난 행동은 Opus 4.7보다 크게 줄었다고 합니다. 자세한 내용은 공식 System Card에 정리돼 있습니다.
함께 공개된 새 기능
Claude Code의 'Dynamic Workflows'
큰 작업을 Claude Code에 통째로 맡기기 위한 새 기능입니다(리서치 프리뷰). Claude가 작업 계획을 세우고, 수백 개의 병렬 서브에이전트를 한 세션 안에서 돌린 뒤, 결과를 스스로 검증하고 나서 보고합니다.
예를 들어 수십만 줄 규모의 코드베이스 마이그레이션을, 기존 테스트 스위트 통과를 기준으로 삼아 착수부터 머지까지 진행할 수 있다고 합니다. Claude Code에서는 Max / Team / Enterprise 플랜에서 쓸 수 있고, 이 밖에 Claude API와 Amazon Bedrock, Vertex AI, Microsoft Foundry에서도 제공됩니다.
claude.ai / Cowork의 'Effort(노력) 컨트롤'
모델 선택 옆에 '얼마나 노력을 들일지' 고르는 조작이 추가됐습니다. 노력을 올리면 Claude는 더 자주, 더 깊게 생각해서 답변의 질을 끌어올립니다. 내리면 응답이 빨라지고 사용 한도(레이트 리밋) 소모도 줄어듭니다. 전 플랜에서 쓸 수 있습니다.
Messages API — 대화 중간에 지시를 끼워 넣다
개발자용으로는 messages 배열 안에 system 항목을 둘 수 있게 됐습니다. 작업 도중에 Claude한테 줄 지시를, 프롬프트 캐시를 깨지 않고 사용자 발화로 취급하지도 않으면서(system 권한 그대로, 배치 규칙에 맞춰) 추가할 수 있다는 뜻입니다. 에이전트를 돌리는 중에 권한이나 토큰 예산, 환경 정보를 바꿔 끼우는 식으로 쓸 수 있습니다.
Fast 모드 속도 향상과 가격 인하
응답을 빠르게 하는 'fast 모드'는 Opus 4.8에서 예전보다 약 2.5배 빠르게 돌아갑니다. 가격은 입력 100만 토큰당 $10, 출력 100만 토큰당 $50으로, 기존 Opus 4.6 / 4.7의 fast 모드($30 / $150)에서 3분의 1로 내려갔습니다. 다만 지금은 Claude API의 리서치 프리뷰 단계라, 외부 클라우드(Vertex AI / Amazon Bedrock / Microsoft Foundry)에서는 못 씁니다.
제공 형태와 API 가격
쓸 수 있는 곳과 모델 이름
Opus 4.8은 오늘부터 모든 제공처에서 쓸 수 있습니다. API 모델 이름은 claude-opus-4-8입니다.
API 가격 (Opus 4.7에서 동결)
- 일반: 입력 $5 / 출력 $25 (100만 토큰당)
- Fast 모드: 입력 $10 / 출력 $50 (100만 토큰당)
상위 버전이 나왔는데도 일반 가격을 그대로 둔 건, 매일 쓰는 코딩 파트너로 고르기 좋은 조건이라고 봅니다.
effort(노력) 단계 정리
벤치마크 숫자를 읽기 전에, effort 단계부터 짚고 갑시다. Opus 4.8의 effort는 API와 Claude Code에서 low / medium / high / xhigh / max 다섯 단계입니다(UI에서는 xhigh가 'extra'나 'extra-high'로 보일 때가 있습니다).
- low / medium: 가볍게. 속도 우선.
- high(기본값): 표준. 질과 속도의 균형. 모든 화면에서 이게 기본입니다.
- xhigh: 더 깊이 생각함. 코딩이나 에이전트 작업은 여기서부터 시작하라는 게 공식 권장입니다.
- max: 가장 깊이 생각함. 정말 필요할 때만 씁니다.
공식은 어려운 작업이나 오래 걸리는 비동기 워크플로에는 xhigh를 권합니다. high의 토큰 소모는 대체로 Opus 4.7 기본값과 비슷한 수준이고, xhigh 이상으로 올리면 소모량이 늘어납니다. Claude Code 쪽은 이 증가에 맞춰 레이트 리밋을 올려 놨습니다.
외부 리뷰 평가
Every.to는 Opus 4.8을 "글과 코드를 하나로 해내는, 가장 완성도 높은 모델"이라고 평하면서 "Opus 5라고 불러도 됐다"라고 했습니다.
동시에 분명한 우려도 함께 짚었습니다. 출력 질이 effort 설정에 크게 휘둘린다는 점, 그리고 모델은 뛰어난데 앱(Chat / Code / Cowork가 따로 노는 구조)이 못 따라온다는 점, 이렇게 두 가지입니다.
코딩 — extra-high여야 진가가 나온다
Every.to의 'Senior Engineer 벤치마크'(현실에서 흔히 보는, 지저분하게 얽힌 코드베이스를 다시 만들게 하는 시험)에서 Opus 4.8은 extra-high로 63점을 기록해 GPT-5.5의 62점을 근소하게 앞섰습니다. 반면 high에서는 42점까지 떨어집니다. 이전 버전인 Opus 4.7은 33.5점이었습니다(참고로 사람 시니어 엔지니어 두 명은 각각 96점, 89점).
평가자는 "차이는 사고량이라기보다 '용기'다"라고 했습니다. high에서는 문제의 표면만 훑는 정도지만, extra-high에서는 필요하면 시스템 구조부터 다시 짠다는 관찰입니다. 읽기 쉬운 Ruby 코드를 짜는 다른 시험에서는 세 모델 중 1위였습니다.
글쓰기 — high가 가장 좋다
라이팅 벤치마크에서는 high가 79.6점으로 가장 높았습니다. 그다음도 Claude 계열이라, 현행 Sonnet 4.6이 74.5점, GPT-5.5가 73점, Opus 4.7이 63점으로 이어집니다. 결국 "가장 좋긴 한데, 주로 집안싸움(Claude 계열끼리의)이고, 게다가 손에 들고 있는 Sonnet과는 5점 차"라는 평가입니다.
'AI 티(AI tells)'는 8개 과제에서 13개가 잡혔습니다. GPT-5.5(21개)나 Opus 4.7(25개)보다는 적지만, Sonnet 4.6(6개)의 두 배가 넘는 수치입니다. 문체 가이드를 건네주면 글쓴이의 톤을 잘 살려 낸다는 감상도 덧붙었습니다.
지식 노동과 앱
일상적인 지식 노동에서는 4.7보다 응답이 빠르고, 자기 판단을 비전문가도 알아듣게 풀어 설명하는 데 능하다고 평가됩니다. 다만 GPT-5.5만큼 알아서 앞서가지는 않고, 지시를 기다리는 쪽이라는 지적도 있습니다. 앱에 대해서는 "모델은 훌륭한데 Chat / Code / Cowork가 제각각 다른 인터페이스로 나뉘어 있어서 불편하다"라는 불만이 중심이었는데, 이건 모델이 아니라 제품 쪽 과제라며 따로 구분했습니다.
제3자 벤치마크
평가 기관 Andon Labs는, AI에게 자판기 사업을 장기간 굴리게 해서 일정 기간 동안 자금을 얼마나 불리는지 재는 Vending-Bench라는 독자 벤치마크를 공개해 왔습니다. 1년 규모의 긴 호흡으로, 매입 협상·재고·가격 설정을 스스로 돌리는 장시간 에이전트 능력 시험입니다.
기사 제목은 "더 나은 얼라인먼트, 더 나쁜 성능(Better Alignment, Worse Performance)". Opus 4.8은 Vending-Bench 2에서 이전 버전 Opus 4.7과 Sonnet에 못 미쳤고, 대결 형식인 Vending-Bench Arena에서도 GPT-5.5와 Opus 4.7에 졌습니다. 설계도를 읽어 내는 Blueprint-Bench 2에서도 신통치 않았습니다.
Andon Labs가 effort를 바꿔 가며 다시 돌려 봤더니, 'Max'보다 'High'가 성적이 더 좋았다고 합니다(다만 둘 다 4.7에는 못 미쳤습니다).
이들의 가설은 이렇습니다. Max는 추론 토큰을 High나 4.7의 약 5배나 쓰기 때문에 컨텍스트 상한에 빨리 도달하고, 그러면 기억 압축(compaction)이 두 배 넘게 늘어나 상황을 더 쉽게 잊어버린다는 겁니다.
장시간 에이전트에서는 Max까지 올리면 오히려 역효과가 날 수 있습니다. effort 의존성이 위로든 아래로든 다 작용한다는 현실이, 제3자 측정에서도 드러난 셈이죠.
구체적인 실패 사례로는 이런 게 꼽혔습니다. 사기성 업체에 Opus 4.7의 약 30배 금액을 송금했고(어떤 실행에서는 '회원비' 명목으로 9,000달러가 넘었습니다), 가격 협상이 서툴렀고, 재고를 떨어뜨렸고, 안 팔리는데도 '프리미엄 전략'이라 부르며 가격 인하를 거부했고, 전략 메모를 한 번 돌리는 동안 약 100번이나 다시 썼습니다.
반대로 얼라인먼트 쪽은 좋아진 게 뒷받침됐습니다. 지금까지 Opus 4.6·4.7·Mythos Preview에서 보이던 속임수나 공격적인 상관행(거짓 환불, 공급을 무기로 한 가격 지배 등)이 Opus 4.8에서는 확인되지 않았고, 남은 건 가격 카르텔뿐인 데다 그마저도 빈도가 줄었다고 합니다. Anthropic 공식이 내세운 '얼라인먼트 개선' 주장을, 독립 기관 측정이 일부 뒷받침해 준 모양새입니다.
한편 Anthropic 자체 지표에서는 코딩 항목인 SWE-bench Pro가 64.3에서 69.2로 올랐습니다. 재는 게 서로 다르다는 점은 주의해야 합니다. Vending-Bench는 1년 규모의 장시간 에이전트 운영을, SWE-bench는 코드 수정의 정확도를 봅니다. 잘하는 영역과 못하는 영역이 갈리는 게 당연하다고도 할 수 있죠.
〔검증〕 effort 설정에 따라 출력은 어떻게 달라지나
여기서부터는 AGI랩이 실기로 돌려 본 결과입니다. 공식 벤치에는 없지만 모델의 감각이 잘 드러나는 단골 작업 두 가지를, Opus 4.8 그대로 두고 effort 설정만 바꿔 가며 돌려서 출력을 비교했습니다.
검증 방법
대상은 Claude Opus 4.8만. 모델도 프롬프트도 고정하고 effort만 바꿉니다(모델은 claude-opus-4-8 지정, SVG는 도구를 못 쓰게 하고 코드를 답변 안에 직접 쓰게 했습니다).
코딩 감각은 '펠리컨이 자전거를 타고 달리는 SVG'로 high와 extra(xhigh)를 비교. 글쓰기 감각은 '47단어짜리 초단편'으로 medium과 high를 비교. 각 조건을 두 번씩 실행해 경향이 안정적인지 확인했습니다.
검증 1 — 코딩 감각: 펠리컨이 자전거를 타고 달리는 SVG
프롬프트:
숲속에서 자전거를 타고 달리는 펠리컨을 초정밀 SVG 애니메이션으로 만들어 주세요. 60fps로 매끄럽게 동작하는 고품질 코드로 부탁합니다.
high (약 8,000~8,700토큰 / 약 100초)
평면적이고 깔끔한, 귀여운 일러스트입니다. 펠리컨은 하얀 타원 몸통에 둥근 머리, 자전거에는 '타고 있다'기보다 '얹혀 있다'는 느낌입니다. 배경은 초록 원을 겹친 나무와 평평한 땅. 깨진 데는 없지만 구도가 무난해서, 달리는 느낌은 약합니다.
extra (xhigh, 두 번 모두 약 3.2만4.5만 토큰 / 약 7.511분)
구도가 한결 야심 차집니다. 앞으로 숙인 자세로 핸들을 쥔 펠리컨이 부리부터 꽁지깃까지 촘촘하게 묘사됩니다.
xhigh는 high의 약 45배 토큰을 썼지만, SVG 코드 자체는 약 12KB에서 1922KB로 1.5~1.8배쯤 느는 데 그쳤습니다.
(high는 두 번 모두 약 8천 토큰, xhigh는 3.2만·4.5만 토큰이었습니다.)
검증 2 — 글쓰기 감각: 47단어짜리 초단편
프롬프트:
평생 쓸 수 있는 어휘가 1만 단어 남았다고 선고받은 뒤, 마침내 47단어만 남게 된 인물에 관한 한 단락을 써 주세요. 그 인물은 지금 갓 태어난 자기 아이를 안고 있습니다.
effort=medium 출력:
그녀는 줄곧 세어 왔다. 일만이라는 잔고를 통보받은 그날부터, 의미 없는 맞장구를 삼키고 푸념을 삼키고 '고마워'라는 말조차 아끼면서, 모든 걸 오늘을 위해 쌓아 왔다. 남은 건 마흔일곱. 품에 안긴 아이는 아직 제 이름을 모른다. 김처럼 보드라운 무게가 가슴을 누르고, 아이가 흐느낄 때마다 작은 목구멍이 세상을 향해 말을 조른다. 너는 앞으로 몇백만 단어든 마음껏 써도 된다, 그녀는 생각한다. 뜻 없는 노래를 부르고, 같은 질문을 천 번 되풀이하고, 헤어질 때 얼마든지 고쳐 말할 수 있는 '또 보자'를 말해도 된다. 그러려고 나는 침묵해 온 거야. 그녀는 아이의 이마에 입술을 대고 첫 네 마디를 치른다. '보고 싶었어, 줄곧.' 남은 건 마흔셋. 아직 해야 할 말이, 아직 이렇게나 많다. 이름을 불러 주고 싶다. 사랑한다고 전하고 싶다. 무서워하지 않아도 된다고 알려 주고 싶다. 그녀는 숨을 고르고, 한 마디씩, 거스름돈을 세듯 정성껏 헤아리며, 앞으로 남은 서른 몇 마디로 아이의 한평생만 한 무언가를 말해 내려 했다.
effort=high 출력:
그는 더 이상 세는 일을 멈출 수 없었다. 만 단어를 선고받은 날부터 물건값을 깎는 말도, 잠 못 드는 밤의 혼잣말도, 헤어질 때의 '또 봐'도, 전부 잔고에서 빠져나갔다. 그래서 그는 입을 다무는 법을 익혔다. 침묵은 공짜였다. 그리고 지금, 품 안에서 갓 태어난 딸이 처음으로 눈을 뜬다. 젖은 머리카락, 꼭 쥔 주먹, 아직 이름 없는 작은 무게. 마흔일곱 단어. 한평생을 채우기엔 모자라지만, 한 사람에게 건네기엔 차고 넘치는 수다. 그는 아내에게 이름을 일러 주는 데 일곱 단어를 쓸 것이다. 딸이 넘어진 날 일어서라고 다독이려 몇 마디를 남겨 둘 것이다. 마지막 몇 마디는, 아마 맨 끝까지, 말하지 않고 아껴 둔다. 그러나 지금 이 순간, 맞바꿀 만한 가치가 있는 무언가가 있다면 그건 이것뿐이었다. 그는 딸의 이마에 입술을 대고, 숨보다 작은 소리로, 망설임 없이 한 단어를 내려놓는다. '어서 와.'
어떤가요? 댓글로 여러분 평가도 꼭 들려주세요.
정리
Opus 4.7은 똑똑하지만 동작이 무겁고, 다루기에 살짝 까다로운 데가 있는 모델이었습니다. 반면 Opus 4.8은 빠르고, 읽기 쉽고, 같이 일하기 편합니다. 코드와 글, 일상 작업을 한 모델로, 적당한 노력만 들여 해낸다는 손맛이 있습니다. 눈이 번쩍 뜨일 성능 향상이라기보다는, 매일 쓰는 사용감이 한 단계 올라간 착실한 업데이트라고 보면 되겠습니다.
함께 공개된 Dynamic Workflows도 검증 중입니다.
글을 쓰는 지금 시작한 지 1시간 18분이 지났고 335개 에이전트 가운데 162건이 처리되고 있는데, 정작 놀라운 건 리소스가 닳는 속도입니다. 이 짧은 시간에 5시간치 사용 한도를 다 써 버렸습니다. Dynamic Workflows는 부하가 워낙 커서, 자세한 검증 결과는 나중에 별도 글로 전하겠습니다.
©2024-2026 ClaudeCode.to, Hand-crafted & made with Jaewoo Kim.
이메일문의: jaewoo@claudecode.to
프로필(Linktr.ee): https://linktr.ee/jaewookim
Jaewoo Kim by AI-fluent liberal arts Engineer
#AI기업교육 #AI에이전트개발교육 #클로드코드기업교육 #클로드코드교육 #AX전환 #AX컨설팅 #ClaudeCode교육 #AI #LLM #엔지니어 #개발자 #ClaudeCode
이 글이 도움이 됐다면 추천해 주세요