내 노트북으로
AI를 돌린다고?
397B 풀 모델은 꿈이다. 하지만 8B는 현실이다. 개인 PC에서 AI를 실행하는 방법과, 그래도 API가 나은 순간을 구분하는 가이드.
397B는 꿈이고, 8B가 현실이다
1편에서 Qwen3.5의 스펙을 살펴봤다. 397B 파라미터, 256K 컨텍스트, 201개 언어 지원. 인상적인 숫자다. 하지만 한 가지를 짚고 넘어가야 한다. 이 모델을 내 컴퓨터에서 돌릴 수 있는가?
결론부터. 397B 풀 모델을 개인 PC에서 실행하는 것은 사실상 불가능하다. 이 모델을 8-bit 양자화로 돌리려면 VRAM(GPU 전용 메모리)이 512GB 필요하다. NVIDIA A100 GPU 7장 가격이다. 장당 수백만 원. 합치면 수천만 원이다.
하지만 Qwen3.5만 있는 것이 아니다. Qwen3 패밀리에는 크기가 다른 여러 모델이 있다. 같은 아키텍처를 공유하되, 파라미터 수를 줄인 경량 모델들이다. 이것들은 개인 PC에서 돌아간다.
핵심은 이것이다. 397B 풀 모델과 8B 모델은 같은 모델이 아니다. 8B는 397B에서 지식을 뽑아서 작게 만든 별개의 모델이다. 당연히 성능 차이가 있다. 하지만 8B도 2년 전의 GPT-3.5보다 대부분의 작업에서 낫다. 무료로, 인터넷 없이, 내 컴퓨터에서 돌아간다는 사실이 핵심이다.
Ollama 5분 세팅
로컬 AI를 실행하는 가장 쉬운 방법은 Ollama다. 설치부터 대화까지 5분이면 된다. Windows, macOS, Linux 모두 지원한다.
설치 과정은 3단계다.
$ curl -fsSL https://ollama.com/install.sh | sh
# Windows는 ollama.com에서 설치 파일을 다운로드한다
# 2. Qwen3 8B 모델 다운로드 + 실행 (약 4.7GB)
$ ollama run qwen3:8b
# 3. 대화 시작 — 바로 쓸 수 있다
>>> 한국어로 간단한 파이썬 함수 하나 만들어줘
이것이 전부다. 첫 실행 시 모델 파일을 다운로드하는 데 수 분이 걸리고, 이후에는 즉시 실행된다. RTX 4060 기준으로 초당 약 42토큰이 생성된다. 체감상 ChatGPT 무료 버전보다 빠르다.
더 큰 모델을 쓰고 싶다면 숫자만 바꾸면 된다.
$ ollama run qwen3:14b
# 32B 모델 — RTX 4090(24GB) 이상 권장
$ ollama run qwen3:32b
# 비전(이미지 이해) 모델 — 사진을 보여주고 질문 가능
$ ollama run qwen3-vl
Ollama가 편리한 이유는 또 있다. 로컬 API 서버가 자동으로 실행된다. 모델을 한 번 띄워놓으면 다른 프로그램에서 HTTP 요청으로 접근할 수 있다. 나중에 사이드 프로젝트에 AI를 붙일 때 이 점이 중요해진다.
API로 쓰는 게 나을 때
로컬 AI는 프라이버시와 비용 면에서 강점이 있다. 하지만 모든 상황에서 로컬이 정답은 아니다. 로컬 8B 모델과 클라우드 API의 397B 풀 모델은 성능 차이가 분명히 존재한다.
모델 크기의 벽
8B 모델은 간단한 작업에 좋지만, 복잡한 추론이나 긴 문서 분석에서는 한계가 드러난다. 397B 풀 모델과의 품질 차이는 체감된다.
컨텍스트의 한계
로컬 8B 모델의 실질적 컨텍스트는 8K~32K 수준이다. 풀 모델의 256K와는 비교가 안 된다. 긴 문서 처리에 제약이 있다.
멀티모달 제한
이미지/비디오 이해 능력은 큰 모델에서 훨씬 강하다. 로컬 비전 모델은 존재하지만, 정확도와 속도 모두 클라우드에 뒤진다.
그렇다면 API는 얼마나 드는가. Qwen3.5는 알리바바 클라우드(ModelStudio)에서 API로 제공된다. OpenAI 호환 형식이라 기존 코드를 거의 수정하지 않고 쓸 수 있다.
| Method | Cost | Performance | Best For |
|---|---|---|---|
| Ollama 8B (로컬) | 0원 (전기세만) | 간단한 대화, 요약, 기초 코딩 | 학습, 실험, 프라이버시 |
| Ollama 32B (로컬) | 0원 (RTX 4090 필요) | 중급 추론, 문서 분석 | 개인 프로젝트, 코드 리뷰 |
| Qwen3.5-Plus API | 월 수만~수십만 원 | 풀 모델 397B, 1M 컨텍스트 | 프로덕션, 긴 문서, 고품질 필요 시 |
| Claude / GPT API | 월 수만~수백만 원 | 프론티어급 (최상위 성능) | 최고 품질이 필수인 업무 |
Qwen3.5 API의 가장 큰 장점은 비용이다. 전작 대비 60% 저렴하고, 동일 예산으로 처리할 수 있는 양이 8배 늘었다. OpenAI나 Anthropic API와 비교하면 토큰당 단가가 상당히 낮다. 성능은 프론티어 모델에 약간 밀리지만, 대부분의 실무 작업에는 충분하다.
로컬은 프라이버시와 자유를 준다.
API는 성능과 편리함을 준다.
정답은 둘 중 하나가 아니라 상황이다.
그래서 나는 뭘 선택해야 하는데
상황별로 가장 현실적인 선택지를 정리한다. 자신의 목적과 장비를 아래에 대입해보면 된다.
한 가지 전략이 더 있다. 하이브리드다. 평소에는 로컬 모델로 빠르게 처리하고, 중요한 작업에만 API를 호출한다. 대부분의 일상 작업(요약, 번역, 간단한 질문)은 로컬 8B로 충분하다. API 비용을 90% 이상 절약하면서도, 필요할 때는 풀 모델의 성능을 쓸 수 있다.
| Step | Action | Time |
|---|---|---|
| 1 | ollama.com에서 Ollama 설치 | 2분 |
| 2 | ollama run qwen3:8b 실행 (첫 다운로드 포함) | 3~5분 |
| 3 | 한국어로 아무 질문이나 해본다 | 즉시 |
| 4 | 만족스러우면 14B/32B로 업그레이드 시도 | 5분 |
| 5 | 로컬이 부족한 작업이 생기면 API 키 발급 | 필요할 때 |
- 내 GPU의 VRAM 크기를 확인한다. 작업관리자(Windows) 또는 nvidia-smi(터미널)로 확인 가능하다
- VRAM이 부족하면 모델이 일반 RAM으로 넘친다. 이 경우 속도가 극단적으로 느려진다
- Apple Silicon Mac은 통합 메모리를 쓰므로 시스템 메모리가 곧 VRAM이다. 메모리가 클수록 유리하다
- GPU가 전혀 없는 PC에서도 Ollama는 실행된다. 단, CPU 모드는 매우 느리다 (초당 2~5토큰)
- 첫 실행 시 모델 파일을 다운로드한다. 8B 기준 약 4.7GB. 인터넷이 필요한 것은 이때뿐이다
AI를 내 손에 넣는 데
필요한 것은 수천만 원이 아니다.
명령어 한 줄이다.
ollama run qwen3:8b. 이 한 줄이 무료 AI 시대의 입장권이다. 나머지는 직접 써보면서 알게 된다.