토큰이 뭔데,
컨텍스트가 뭔데
AI 대화에서 매번 등장하는 용어들을 일상 비유로 해체한다. Qwen3.5가 왜 화제인지 이해하기 위한 최소한의 배경지식.
AI가 글을 읽는 방법
사람은 글을 단어 단위로 읽는다. "안녕하세요"는 한 단어다. 하지만 AI는 다르다. AI에게 "안녕하세요"는 2~3개의 조각이다. 이 조각 하나하나를 토큰이라 부른다.
왜 한국어가 더 많은 토큰을 쓰는가. AI의 사전(vocabulary)은 영어 중심으로 만들어졌기 때문이다. 영어 단어는 통째로 사전에 올라가 있지만, 한글은 자음과 모음의 조합이 워낙 다양해서 더 잘게 쪼개야 표현할 수 있다. 같은 내용을 전달해도 한국어는 영어보다 토큰을 1.5~2배 더 소비한다.
이게 왜 중요한가. AI 서비스의 요금은 대부분 토큰 단위로 매겨진다. 1,000토큰에 얼마, 하는 식이다. 한국어 사용자는 같은 양의 정보를 처리해도 영어 사용자보다 비용이 더 든다. 그래서 AI 모델이 한국어 토큰을 얼마나 효율적으로 처리하는지가 실질적인 성능 지표가 된다.
"Hello, world"
영어. 2토큰. 가장 효율적인 언어 중 하나. AI의 사전이 영어 중심으로 설계되었기 때문이다.
"안녕하세요, 세계"
한국어. 4~5토큰. 같은 의미인데 토큰을 2배 이상 소비한다. 비용과 속도 모두 영향을 받는다.
A4 1페이지
한국어 기준 약 500~600토큰. 영어 기준 약 300~400토큰. 긴 문서를 처리할수록 격차가 벌어진다.
AI의 기억력
AI에게 긴 이야기를 하다 보면 앞에서 한 말을 잊어버리는 경험을 해본 적이 있을 것이다. "아까 제가 말한 프로젝트 이름이 뭐였죠?" 하고 물으면 엉뚱한 답이 돌아온다. 이유가 있다. AI에게는 한 번에 기억할 수 있는 분량의 한계가 있기 때문이다.
초기 ChatGPT(GPT-3.5)의 컨텍스트 윈도우는 4,096토큰이었다. A4로 약 7~8페이지. 긴 보고서를 통째로 넣을 수 없었다. 2024년에 나온 모델들은 128K(약 A4 250페이지)까지 늘었고, 2026년 현재 최신 모델들은 256K(약 A4 500페이지)를 기본으로 제공한다.
숫자가 커지면 무엇이 달라지는가. 문서 전체를 한 번에 넣고 질문할 수 있다. 100페이지짜리 계약서를 읽고 특정 조항을 찾아달라고 할 수 있다. 지난 한 달의 대화 기록을 기억한 채로 이어서 대화할 수 있다. 프로젝트의 소스 코드 전체를 넣고 버그를 찾아달라고 할 수 있다.
| Model | Context | Equivalent | What It Means |
|---|---|---|---|
| GPT-3.5 (2022) | 4K | A4 7~8페이지 | 짧은 대화만 가능 |
| GPT-4 (2023) | 128K | A4 250페이지 | 논문 1편을 통째로 |
| Claude 4 (2025) | 200K | A4 400페이지 | 보고서 묶음 처리 가능 |
| Qwen3.5 (2026) | 256K~1M | A4 500~2,000페이지 | 소설 한 권을 통째로 기억 |
컨텍스트가 넓다는 것은 AI의 기억력이 좋다는 뜻이 아니다.
한 번에 볼 수 있는 책상이 넓다는 뜻이다.
Qwen3.5는 기본 256K 토큰, YaRN이라는 기술을 적용하면 1M(100만) 토큰까지 확장된다. 한국어 기준 A4 약 2,000페이지. 200페이지짜리 소설 10권을 동시에 펼쳐놓고 작업하는 셈이다. 이 정도면 기업의 사내 매뉴얼 전체를 한 번에 넣고 질문할 수 있다.
무서워하지 마: 파라미터와 MoE
AI 뉴스를 보면 "397B 파라미터"라는 표현이 등장한다. B는 Billion, 즉 10억이다. 397B면 3,970억 개. 이 숫자가 클수록 AI가 학습한 지식의 양이 많다고 보면 된다. 하지만 숫자가 크다고 무조건 좋은 것은 아니다.
여기서 문제가 생긴다. 파라미터가 3,970억 개면 이걸 돌리는 데 수천만 원짜리 GPU가 필요하다. 일반인이 접근할 수 없는 규모다. 그래서 Qwen3.5는 전혀 다른 방식을 쓴다.
결과적으로 Qwen3.5는 1조 파라미터급 모델의 성능을 내면서, 실제 연산량은 170억 파라미터 수준이다. 같은 성능에 GPU 비용은 훨씬 적게 든다. 이것이 MoE 아키텍처의 핵심이다. "적은 돈으로 비싼 병원 수준의 진료를 받는 방법"이라고 이해하면 된다.
여기에 한 가지 기술이 더해진다. Multi-Token Prediction(MTP). 보통 AI는 한 번에 토큰 하나씩 생성한다. 한 글자 쓰고, 다음 글자 예측하고, 또 쓰고. MTP는 한 번에 여러 토큰을 동시에 예측한다. 답변 생성 속도가 체감될 정도로 빨라진다. Qwen3.5가 256K 컨텍스트에서 이전 모델 대비 19배 빠른 처리 속도를 기록한 배경이다.
그래서 이게 왜 화제인가
2026년 2월 16일, 알리바바 클라우드가 Qwen3.5를 공개했다. AI 커뮤니티가 반응한 이유는 단순하다. 무료인데 유료급이다.
무료인데 유료급
오픈 웨이트(가중치 공개) 모델이다. 다운로드해서 자유롭게 쓸 수 있다. 상업적 사용도 가능하다. 성능은 GPT-5, Claude 4급에 근접한다.
256K 기본 컨텍스트
A4 500페이지를 한 번에 기억한다. 확장하면 1M 토큰(A4 2,000페이지). 오픈소스 모델 중 최대급이다.
사진도 영상도 이해
텍스트만 아니라 이미지, 비디오까지 네이티브로 이해한다. 스크린샷을 보여주고 "이 화면에서 뭘 해야 해?"라고 물을 수 있다.
벤치마크 숫자는 비전문가에게 의미가 없다. 대신 이렇게 번역할 수 있다.
| Category | Score | Translation |
|---|---|---|
| 지식 (MMLU-Pro) | 87.8 | 대학원 수준 시험에서 상위 12% 성적 |
| 수학 (AIME26) | 91.3 | 수학 올림피아드급 문제를 10개 중 9개 풂 |
| 코딩 (LiveCodeBench) | 83.6 | 실시간 코딩 테스트에서 상위권. 무료 모델 중 최강 |
| 에이전트 (BFCL-V4) | 72.9 | 도구를 호출하고 판단하는 능력. 자동화의 핵심 |
| 멀티모달 (MMMU) | 85.0 | 이미지 속 텍스트, 표, 그래프를 읽고 해석하는 능력 |
한 가지 더. Qwen3.5는 201개 언어를 지원한다. 이전 버전(119개)에서 대폭 확대되었고, 한국어에 대한 추론 능력이 별도로 강화되었다. 한국어 30,000개의 수학/과학/코딩 추론 데이터로 추가 학습한 연구 결과도 있다. 한국어 음성 인식(TTS)에서는 10개 언어 중 최저 오류율을 기록했다.
핵심은 하나다.
돈을 내지 않아도 쓸 수 있는 AI가
돈을 내야 쓸 수 있는 AI와 비슷해졌다.
물론 한계도 있다. 복잡한 대규모 코드 리팩토링이나, 최상위 수준의 추론 과제에서는 Claude Opus나 GPT-5 계열이 여전히 우위를 점한다. Qwen3.5는 "모든 분야에서 1등"이 아니라, "무료 모델 중 거의 모든 분야에서 1등"이다. 이 차이를 이해하는 것이 중요하다.
- 개인 PC에서 AI를 돌릴 수 있는지, 어떤 장비가 필요한지의 현실적 진단
- 코딩에 쓸 만한지, 일상 대화에 쓸 만한지의 용도별 비교
- 사이드 프로젝트에 AI를 붙이는 구체적 방법과 로드맵
- 중소기업이 오픈소스 AI를 도입하는 3가지 경로와 비용
- 사내 문서를 학습시킨 RAG 챗봇을 구축하는 현실적 시나리오
AI를 이해하는 데
필요한 것은 코딩이 아니다.
번역이다.
토큰, 컨텍스트, MoE. 용어가 벽이 되면 기술은 성에 갇힌다. 벽을 허무는 것은 쉬운 말이다.