OpenAI가 2025년에 공개한 gpt-oss 시리즈(20B, 120B)는 GPT-2 이후 6년 만에 다시 선보인 완전 공개 가중치(오픈웨이트) LLM입니다. 본문에서는 gpt-oss의 핵심 구조를 GPT-2, Qwen3와 비교하며 변화의 맥락을 짚고, 최신 옵티마이제이션, 효율성 개선, 다양한 벤치마킹 결과를 분석합니다. 지금의 LLM 발전사가 어떻게 이어져 왔는지, 그리고 오픈웨이트 모델이 가지는 의미를 세밀하게 이해할 수 있습니다.


1. gpt-oss의 공개: 2019년 GPT-2 이후 첫 대규모 오픈웨이트 LLM

OpenAI가 이번 주, 가중치를 공개한 두 가지 대형 언어모델 gpt-oss-20bgpt-oss-120b를 릴리즈했습니다. 이는 무려 2019년 GPT-2 이후 최초의 완전 오픈웨이트 대규모 LLM입니다. 눈에 띄는 점은 효율적인 최적화 덕분에 개인용 GPU나 단일 H100 카드 하나로도 실행이 가능하다는 것인데요, 이는 추후 자세히 다룹니다.

"gpt-oss 모델은 각각 고급 프리트레이닝과 포스트트레이닝 기술로 학습되었습니다."

gpt-oss-20b는 RTX 50xx급 GPU(16GB VRAM), 120b는 80GB H100에서도 구동이 가능하며, 본격적인 분석에 앞서 모델 구조와 공개 범위, 실제 활용 방법까지 친절하게 설명합니다.


2. GPT-2와의 비교: LLM 구조 진화의 큰 흐름

GPT-2(2019)는 트랜스포머 아키텍처 기반의 디코더-only LLM입니다. gpt-oss 역시 뿌리는 같습니다. 하지만 여러 부분에서 발전이 있었습니다.

대표적인 아키텍처 차이와 그 배경을 살펴볼게요:

2-1. 드롭아웃(Dropout)의 감소

GPT-2 시절엔 과적합을 막기 위해 널리 사용되던 드롭아웃이지만, 최근 LLM은 엄청나게 방대한 데이터셋을 1에폭으로 학습하기 때문에 드롭아웃의 효과가 거의 없습니다.

"드롭아웃은 LLM엔 좋지 않습니다. 최근 실험에서도 다운스트림 성능이 오히려 떨어진다고 확인되었습니다."

2-2. 위치 임베딩: 절댓값에서 RoPE로

초기엔 절대 위치 임베딩을 썼으나, 최근엔 RoPE (Rotary Position Embedding) 방식이 표준이 되었습니다. RoPE는 쿼리-키 벡터를 토큰별로 회전시켜 위치를 코드화합니다.

2-3. 액티베이션 함수: GELU에서 Swish/SwiGLU로

처음엔 GELU가 쓰였으나 Swish, SwiGLU 등 계산량이 적고 (실제로는 더 적은 파라미터로 동일 효과) 성능도 비슷한 신형 함수로 교체되었습니다.

"SwiGLU 같은 GLU 계열은 단순히 더 많은 파라미터를 쓰는 것처럼 보이지만, 실제론 적은 파라미터로도 더 좋은 성능을 냅니다."


3. 주요 혁신 기술: Mixture-of-Experts, GQA, Sliding-Window Attention

3-1. Mixture-of-Experts(MoE)

전통적 피드포워드 레이어 대신 여러 전문가 모듈을 둬 일부만 활성화(라우팅)하는 MoE가 도입되었습니다. 덕분에 전체 파라미터 수는 늘어나지만, 실제 계산엔 일부만 쓰기 때문에 효율성은 챙기고, 학습 용량은 대폭 커집니다.

"흥미롭게도 대부분의 MoE 모델에서 전문가(Expert) 가중치가 전체 모델 파라미터의 90% 이상을 차지합니다."

3-2. GQA(Grouped Query Attention)

GQA는 여러 쿼리 헤드가 키/밸류를 공유해 메모리 사용량 및 계산량을 줄이는 효율적 어텐션 방식입니다.

3-3. Sliding-Window Attention

Mistral 등에서 대중화된 슬라이딩 윈도우 어텐션은 매 두 번째 레이어마다 문맥을 128토큰 범위로 제한, 계산량을 획기적으로 줄입니다.

"gpt-oss는 모든 레이어에서 슬라이딩 윈도우를 쓰지 않고, 2개 중 1개, 즉 번갈아 제한 어텐션으로 효율을 극대화합니다."

3-4. RMSNorm 도입

모든 레이어 정규화 과정에서, LayerNorm보다 연산량이 적고 GPU 효율이 좋은 RMSNorm을 채택해, 최근 LLM에서 표준처럼 쓰이고 있습니다.


4. gpt-oss vs Qwen3: 깊고 얇음 vs 얕고 넓음의 대결

2025년 5월에 출시된 Qwen3와의 비교를 통해 최근 LLM 아키텍처 트렌드를 구체적으로 살펴볼 수 있습니다.

  • Qwen3는 48개 블록의 깊은 구조, gpt-oss는 24개 블록의 넓은 구조(임베딩 2880 vs 2048, 전문가 크기도 큼)를 가집니다.
  • 전문가 수에서는 Qwen3가 훨씬 많지만 각 전문가는 gpt-oss가 큽니다.

"깊은 모델은 더 유연하지만, 훈련이 어렵고(그래디언트 폭주/소실), 넓은 모델은 병렬화가 효율적이라 추론 속도가 빠릅니다."

실제로 Gemma2 논문 실험에 따르면, 동일 파라미터 기준으론 '더 넓은' 구조가 미세하게 더 좋은 점수를 기록했다고 합니다.

또한 최근 LLM 트렌드는 전문가를 늘리고 각 전문가 크기는 줄이는 방식(DeepSeekMoE 참고)이 대세임을 보여주죠.


5. 세밀한 개선: 어텐션 bias, sink, 라이선스/공개 정책 등

흥미로운 소소한 디테일들도 다루고 있습니다.

  • gpt-oss에서는 Attention bias(키, 밸류 프로젝션에 bias)를 GPT-2 이후 오랜만에 도입했으나, 최근 논문은 효과가 거의 없음을 보여줍니다.
  • Attention Sink는 긴 맥락에서 특정 정보 보존을 위해 활용하는데, 실제 입력 토큰이 아니라 헤드별로 학습된 bias logit을 attention score에 더하는 방식으로 적용되었습니다.

한편, gpt-oss와 Qwen3는 모두 Apache 2.0 라이선스로 (정식 오픈소스는 아니고 오픈웨이트) 사용제약이 없습니다.

"strict한 의미에서 gpt-oss는 오픈웨이트 모델입니다. 즉, 가중치와 추론 코드는 공개되어 있지만, 학습 코드·데이터셋은 공개되지 않았습니다."


6. 훈련과 활용: 고난이도 추론과 MXFP4 최적화

6-1. 훈련 정보 및 구성

gpt-oss 시리즈는 엄청난 계산량(H100기준 210만 GPU-시간)과 최신 원천 데이터(주로 영어, STEM, 코딩, 일반상식)로 학습되었습니다.

"gpt-oss의 훈련량은 DeepSeek V3와 비슷한 수준이나, 정확한 학습 데이터 규모는 비공개입니다."

6-2. Reasoning 스케일 조정

특히 흥미로운 점은 추론 시 "Reasoning effort: low/medium/high" 명령어를 넣어 답변의 길이, 정확도를 직접 조절할 수 있다는 것입니다.

"간단한 지식질문, 오타 수정 등에는 reasoning effort를 낮춰 리소스를 절감할 수 있습니다."

참고로 Qwen3도 이와 유사한 토글이 있었으나 최근 성능 저하 문제로 각 기능을 분리했습니다.

6-3. MXFP4 최적화

초대형 gpt-oss-120b 모델마저도 MXFP4 양자화 최적화 덕분에 단일 80GB H100에서 구동 가능합니다.

  • 20B 모델은 최신 RTX 50시리즈 16GB만으로 충분하며, MXFP4 미지원 하드웨어는 메모리 사용량이 큰 폭으로 증가합니다.
  • 실제로 Mac mini, ollama 환경에서도 20B 모델이 13.5GB 수준에서 쾌적하게 동작합니다.

7. 성능과 한계: 벤치마크, 사용성, 미래 전망

7-1. 벤치마크와 실제 체감

아직 gpt-oss의 서드파티 벤치마크 결과는 많지 않으나, 자체 발표 및 실제 체험 의견을 보면 상당한 경쟁력(특히 reasoning tasks!)을 보여줍니다.

"몇몇 사용자 평대로, gpt-oss는 헛소리(hallucination) 경향이 다소 있으나, 이는 추론 위주 집중 학습이 기초 지식 기억 일부를 희생해서일 가능성이 높습니다."

오픈웨이트 LLM 트렌드는 외부 툴 연동(검색, 계산 등)과의 접점이 커지면서, 앞으로 '사실 암기보다 추론능력' 우선의 흐름이 가속화될 수 있습니다.

7-2. OpenAI, GPT-5 및 비교

gpt-oss 직후, OpenAI는 GPT-5 발표도 이어갑니다. 특히 흥미로운 것은, 이번 오픈웨이트 공개모델이 자사 고성능 상용모델과도 벤치마크상 근접한 성능을 보인다는 점입니다.

"과장됐다는 평가도 있었지만, 이번 오픈웨이트 모델 릴리즈는 실제로도 충분히 강력하며, 오픈 모델과 상용 모델 간 격차가 크게 줄었음을 보여줍니다."


마치며

GPT-2에서 gpt-oss, 그리고 Qwen3, 최신 GPT-5까지의 아키텍처 발전사는 트랜스포머 기반 LLM이라는 본질을 지키면서, 효율성과 추론능력, 실제 활용도 차원에서 세밀하게 최적화되어온 과정을 보여줍니다. 오픈웨이트 LLM의 시대에는 누구나 고성능 모델을 로컬·클라우드 어디서나 자유롭게 실험하고, 연구 및 응용 개발에 나설 수 있게 되었습니다.
앞으로의 발전도 기대해볼 만하겠죠? 🎉

"지금은 오픈웨이트·로컬 모델로 작업하기에 정말 좋은 시대입니다."


본 문서가 도움되셨다면, 독립 연구를 위한 다양한 지원(저서 구매, 영상 강의, 구독 등)도 확인해보시면 좋겠습니다! 😊

함께 읽으면 좋은 글

HarvestAI · 데이터와 판단한국어

AI 시대의 아비트리지: 봇이 30일 만에 43만 8천 달러를 벌다.

이 영상은 AI 시대에 접어들면서 우리 경제의 근간을 이루는 '아비트리지(차익거래)'의 개념이 어떻게 변화하고 있는지 설명합니다. AI는 기존의 비효율성(아비트리지 기회)을 빠르게 제거하고 새로운 기회를 창출하며, 이는 모든 산업과 직업에 엄청난 영향을 미치고 있습니다. 영상은 특히 폴리마...

2026년 4월 8일더 읽기
Harvest창업 · AI한국어

Anthropic의 10억 달러에서 190억 달러 성장 비결: Claude가 역사상 가장 빠르게 성장한 AI 제품이 된 방법

이 영상은 Anthropic의 성장 책임자 아몰 아바사레가 회사의 경이로운 성장 비결과 AI 시대의 성장 전략에 대해 이야기하는 내용을 담고 있습니다. Anthropic이 14개월 만에 연 매출 10억 달러에서 190억 달러로 성장한 배경에는 AI 모델의 빠른 발전, B2B 및 코딩 분야에...

2026년 4월 5일더 읽기
Harvest엔지니어링 리더십 · AI한국어

Claude Code 내부 아키텍처 분석

이 글은 Claude Code의 내부 소스 코드가 npm source map 유출로 인해 공개된 사건을 다루며, 이를 통해 드러난 Claude Code의 복잡하고 정교한 아키텍처를 상세히 분석합니다. Anthropic이 '오픈소스'라고 불렀던 것과는 달리, 핵심 엔진은 상용 비공개 코드였으...

2026년 4월 1일더 읽기