토큰이 뭔데, 컨텍스트가 뭔데

Part I — The Language of AI

AI가 글을 읽는 방법

사람은 글을 단어 단위로 읽는다. "안녕하세요"는 한 단어다. 하지만 AI는 다르다. AI에게 "안녕하세요"는 2~3개의 조각이다. 이 조각 하나하나를 토큰이라 부른다.

translate

토큰 (Token)

AI가 글을 읽고 쓰는 최소 단위. 사람에게 글자가 있다면, AI에게는 토큰이 있다. 영어 단어 "hello"는 1토큰이지만, 한국어 "안녕하세요"는 2~3토큰으로 쪼개진다.

왜 한국어가 더 많은 토큰을 쓰는가. AI의 사전(vocabulary)은 영어 중심으로 만들어졌기 때문이다. 영어 단어는 통째로 사전에 올라가 있지만, 한글은 자음과 모음의 조합이 워낙 다양해서 더 잘게 쪼개야 표현할 수 있다. 같은 내용을 전달해도 한국어는 영어보다 토큰을 1.5~2배 더 소비한다.

이게 왜 중요한가. AI 서비스의 요금은 대부분 토큰 단위로 매겨진다. 1,000토큰에 얼마, 하는 식이다. 한국어 사용자는 같은 양의 정보를 처리해도 영어 사용자보다 비용이 더 든다. 그래서 AI 모델이 한국어 토큰을 얼마나 효율적으로 처리하는지가 실질적인 성능 지표가 된다.

Example 01

"Hello, world"

영어. 2토큰. 가장 효율적인 언어 중 하나. AI의 사전이 영어 중심으로 설계되었기 때문이다.

Example 02

"안녕하세요, 세계"

한국어. 4~5토큰. 같은 의미인데 토큰을 2배 이상 소비한다. 비용과 속도 모두 영향을 받는다.

Example 03

A4 1페이지

한국어 기준 약 500~600토큰. 영어 기준 약 300~400토큰. 긴 문서를 처리할수록 격차가 벌어진다.

Part II — Memory

AI의 기억력

AI에게 긴 이야기를 하다 보면 앞에서 한 말을 잊어버리는 경험을 해본 적이 있을 것이다. "아까 제가 말한 프로젝트 이름이 뭐였죠?" 하고 물으면 엉뚱한 답이 돌아온다. 이유가 있다. AI에게는 한 번에 기억할 수 있는 분량의 한계가 있기 때문이다.

translate

컨텍스트 윈도우 (Context Window)

AI가 한 번에 읽고 기억할 수 있는 최대 분량. 사람의 단기 기억에 해당한다. 컨텍스트 윈도우 밖으로 밀려난 내용은 AI가 기억하지 못한다. 단위는 토큰이다.

초기 ChatGPT(GPT-3.5)의 컨텍스트 윈도우는 4,096토큰이었다. A4로 약 7~8페이지. 긴 보고서를 통째로 넣을 수 없었다. 2024년에 나온 모델들은 128K(약 A4 250페이지)까지 늘었고, 2026년 현재 최신 모델들은 256K(약 A4 500페이지)를 기본으로 제공한다.

숫자가 커지면 무엇이 달라지는가. 문서 전체를 한 번에 넣고 질문할 수 있다. 100페이지짜리 계약서를 읽고 특정 조항을 찾아달라고 할 수 있다. 지난 한 달의 대화 기록을 기억한 채로 이어서 대화할 수 있다. 프로젝트의 소스 코드 전체를 넣고 버그를 찾아달라고 할 수 있다.

Model	Context	Equivalent	What It Means
GPT-3.5 (2022)	4K	A4 7~8페이지	짧은 대화만 가능
GPT-4 (2023)	128K	A4 250페이지	논문 1편을 통째로
Claude 4 (2025)	200K	A4 400페이지	보고서 묶음 처리 가능
Qwen3.5 (2026)	256K~1M	A4 500~2,000페이지	소설 한 권을 통째로 기억

컨텍스트가 넓다는 것은 AI의 기억력이 좋다는 뜻이 아니다.
한 번에 볼 수 있는 책상이 넓다는 뜻이다.

Qwen3.5는 기본 256K 토큰, YaRN이라는 기술을 적용하면 1M(100만) 토큰까지 확장된다. 한국어 기준 A4 약 2,000페이지. 200페이지짜리 소설 10권을 동시에 펼쳐놓고 작업하는 셈이다. 이 정도면 기업의 사내 매뉴얼 전체를 한 번에 넣고 질문할 수 있다.

Part III — The Architecture

무서워하지 마: 파라미터와 MoE

AI 뉴스를 보면 "397B 파라미터"라는 표현이 등장한다. B는 Billion, 즉 10억이다. 397B면 3,970억 개. 이 숫자가 클수록 AI가 학습한 지식의 양이 많다고 보면 된다. 하지만 숫자가 크다고 무조건 좋은 것은 아니다.

translate

파라미터 (Parameter)

AI의 뇌에 있는 연결 고리의 수. 사람의 뇌에 시냅스가 있다면, AI에는 파라미터가 있다. 파라미터가 많을수록 복잡한 패턴을 학습할 수 있지만, 그만큼 더 큰 컴퓨터가 필요하다.

여기서 문제가 생긴다. 파라미터가 3,970억 개면 이걸 돌리는 데 수천만 원짜리 GPU가 필요하다. 일반인이 접근할 수 없는 규모다. 그래서 Qwen3.5는 전혀 다른 방식을 쓴다.

translate

MoE (Mixture of Experts, 전문가 혼합 모델)

종합병원에 512명의 전문의가 있다고 상상하자. 환자가 오면 512명 전원이 달려드는 게 아니라, 증상에 맞는 11명만 진료한다. 나머지 501명은 대기실에 있다. 병원 전체의 실력은 512명분이지만, 한 번에 쓰는 자원은 11명분이다. 이것이 MoE다.

Total Parameters

397B

3,970억 개. 모델이 학습한 전체 지식의 규모. 1조(1T) 파라미터급 모델과 동등한 성능을 낸다.

Active Parameters

17B

전체의 4.2%. 질문 하나에 실제로 동원되는 연산량. GPU 비용이 이것에 비례한다.

Total Experts

512

모델 안에 탑재된 전문가의 수. 수학, 코딩, 번역, 대화 등 각자 전문 분야가 다르다.

Active Experts

10+1

질문마다 라우팅 전문가 10명 + 공유 전문가 1명이 투입된다. 나머지 501명은 쉰다.

결과적으로 Qwen3.5는 1조 파라미터급 모델의 성능을 내면서, 실제 연산량은 170억 파라미터 수준이다. 같은 성능에 GPU 비용은 훨씬 적게 든다. 이것이 MoE 아키텍처의 핵심이다. "적은 돈으로 비싼 병원 수준의 진료를 받는 방법"이라고 이해하면 된다.

여기에 한 가지 기술이 더해진다. Multi-Token Prediction(MTP). 보통 AI는 한 번에 토큰 하나씩 생성한다. 한 글자 쓰고, 다음 글자 예측하고, 또 쓰고. MTP는 한 번에 여러 토큰을 동시에 예측한다. 답변 생성 속도가 체감될 정도로 빨라진다. Qwen3.5가 256K 컨텍스트에서 이전 모델 대비 19배 빠른 처리 속도를 기록한 배경이다.

Part IV — Why Qwen3.5

그래서 이게 왜 화제인가

2026년 2월 16일, 알리바바 클라우드가 Qwen3.5를 공개했다. AI 커뮤니티가 반응한 이유는 단순하다. 무료인데 유료급이다.

Reason 01

무료인데 유료급

오픈 웨이트(가중치 공개) 모델이다. 다운로드해서 자유롭게 쓸 수 있다. 상업적 사용도 가능하다. 성능은 GPT-5, Claude 4급에 근접한다.

Reason 02

256K 기본 컨텍스트

A4 500페이지를 한 번에 기억한다. 확장하면 1M 토큰(A4 2,000페이지). 오픈소스 모델 중 최대급이다.

Reason 03

사진도 영상도 이해

텍스트만 아니라 이미지, 비디오까지 네이티브로 이해한다. 스크린샷을 보여주고 "이 화면에서 뭘 해야 해?"라고 물을 수 있다.

벤치마크 숫자는 비전문가에게 의미가 없다. 대신 이렇게 번역할 수 있다.

Category	Score	Translation
지식 (MMLU-Pro)	87.8	대학원 수준 시험에서 상위 12% 성적
수학 (AIME26)	91.3	수학 올림피아드급 문제를 10개 중 9개 풂
코딩 (LiveCodeBench)	83.6	실시간 코딩 테스트에서 상위권. 무료 모델 중 최강
에이전트 (BFCL-V4)	72.9	도구를 호출하고 판단하는 능력. 자동화의 핵심
멀티모달 (MMMU)	85.0	이미지 속 텍스트, 표, 그래프를 읽고 해석하는 능력

한 가지 더. Qwen3.5는 201개 언어를 지원한다. 이전 버전(119개)에서 대폭 확대되었고, 한국어에 대한 추론 능력이 별도로 강화되었다. 한국어 30,000개의 수학/과학/코딩 추론 데이터로 추가 학습한 연구 결과도 있다. 한국어 음성 인식(TTS)에서는 10개 언어 중 최저 오류율을 기록했다.

핵심은 하나다.
돈을 내지 않아도 쓸 수 있는 AI가
돈을 내야 쓸 수 있는 AI와 비슷해졌다.

물론 한계도 있다. 복잡한 대규모 코드 리팩토링이나, 최상위 수준의 추론 과제에서는 Claude Opus나 GPT-5 계열이 여전히 우위를 점한다. Qwen3.5는 "모든 분야에서 1등"이 아니라, "무료 모델 중 거의 모든 분야에서 1등"이다. 이 차이를 이해하는 것이 중요하다.

이 시리즈에서 다룰 것

개인 PC에서 AI를 돌릴 수 있는지, 어떤 장비가 필요한지의 현실적 진단
코딩에 쓸 만한지, 일상 대화에 쓸 만한지의 용도별 비교
사이드 프로젝트에 AI를 붙이는 구체적 방법과 로드맵
중소기업이 오픈소스 AI를 도입하는 3가지 경로와 비용
사내 문서를 학습시킨 RAG 챗봇을 구축하는 현실적 시나리오

AI가 글을 읽는 방법

"Hello, world"

"안녕하세요, 세계"

A4 1페이지

AI의 기억력

무서워하지 마: 파라미터와 MoE

그래서 이게 왜 화제인가

무료인데 유료급

256K 기본 컨텍스트

사진도 영상도 이해

AI를 이해하는 데필요한 것은 코딩이 아니다.번역이다.

AI를 이해하는 데
필요한 것은 코딩이 아니다.
번역이다.