Series 36 · 02 of 05

내 노트북으로
AI를 돌린다고?

397B 풀 모델은 꿈이다. 하지만 8B는 현실이다. 개인 PC에서 AI를 실행하는 방법과, 그래도 API가 나은 순간을 구분하는 가이드.

Part I — Reality Check

397B는 꿈이고, 8B가 현실이다

1편에서 Qwen3.5의 스펙을 살펴봤다. 397B 파라미터, 256K 컨텍스트, 201개 언어 지원. 인상적인 숫자다. 하지만 한 가지를 짚고 넘어가야 한다. 이 모델을 내 컴퓨터에서 돌릴 수 있는가?

결론부터. 397B 풀 모델을 개인 PC에서 실행하는 것은 사실상 불가능하다. 이 모델을 8-bit 양자화로 돌리려면 VRAM(GPU 전용 메모리)이 512GB 필요하다. NVIDIA A100 GPU 7장 가격이다. 장당 수백만 원. 합치면 수천만 원이다.

translate
VRAM (Video RAM)
GPU 전용 메모리. 일반 RAM과 다르다. AI 모델은 실행 중 VRAM 안에 올라가 있어야 한다. VRAM이 부족하면 모델이 일반 RAM으로 넘치는데(offloading), 이 경우 속도가 5~30배 느려진다. 게이밍 그래픽카드의 VRAM은 보통 8~24GB다.

하지만 Qwen3.5만 있는 것이 아니다. Qwen3 패밀리에는 크기가 다른 여러 모델이 있다. 같은 아키텍처를 공유하되, 파라미터 수를 줄인 경량 모델들이다. 이것들은 개인 PC에서 돌아간다.

Entry
RTX 4060
8GB VRAM
Qwen3-8B 실행 가능. Q4 양자화 기준 초당 42토큰. 일상 대화, 간단한 코딩 보조에 충분한 수준이다.
Mid-range
RTX 4070
12GB VRAM
Qwen3-14B 실행 가능. 8B보다 추론 능력이 한 단계 높다. 문서 요약, 번역, 중간 난이도 코딩에 적합하다.
High-end
RTX 4090
24GB VRAM
Qwen3-32B 실행 가능. 개인 PC에서 돌릴 수 있는 최대급. 복잡한 추론, 긴 문서 처리에 눈에 띄는 품질 차이가 있다.
Apple
M3/M4 Mac
통합 메모리 24~192GB
Apple Silicon은 CPU와 GPU가 메모리를 공유한다. M4 Pro(48GB)면 32B까지 가능. M3 Ultra(192GB)면 MoE 오프로딩으로 72B급까지 시도할 수 있다.
translate
양자화 (Quantization)
모델의 용량을 압축하는 기술. 원본 모델이 100GB라면, 4-bit 양자화를 적용하면 약 25~30GB로 줄어든다. 사진의 화질을 낮추면 파일 크기가 줄어드는 것과 같다. 품질은 약간 떨어지지만, 일반 사용에서는 거의 체감되지 않는다. Q4_K_M이 속도/품질/메모리의 균형점으로 가장 널리 쓰인다.

핵심은 이것이다. 397B 풀 모델과 8B 모델은 같은 모델이 아니다. 8B는 397B에서 지식을 뽑아서 작게 만든 별개의 모델이다. 당연히 성능 차이가 있다. 하지만 8B도 2년 전의 GPT-3.5보다 대부분의 작업에서 낫다. 무료로, 인터넷 없이, 내 컴퓨터에서 돌아간다는 사실이 핵심이다.

Part II — 5 Minutes Setup

Ollama 5분 세팅

로컬 AI를 실행하는 가장 쉬운 방법은 Ollama다. 설치부터 대화까지 5분이면 된다. Windows, macOS, Linux 모두 지원한다.

translate
Ollama
AI 모델을 내 컴퓨터에서 실행하게 해주는 무료 프로그램. Docker가 컨테이너를 실행하듯, Ollama는 AI 모델을 실행한다. 명령어 한 줄이면 모델 다운로드부터 실행까지 끝난다.

설치 과정은 3단계다.

# 1. Ollama 설치 (macOS/Linux)
$ curl -fsSL https://ollama.com/install.sh | sh

# Windows는 ollama.com에서 설치 파일을 다운로드한다

# 2. Qwen3 8B 모델 다운로드 + 실행 (약 4.7GB)
$ ollama run qwen3:8b

# 3. 대화 시작 — 바로 쓸 수 있다
>>> 한국어로 간단한 파이썬 함수 하나 만들어줘

이것이 전부다. 첫 실행 시 모델 파일을 다운로드하는 데 수 분이 걸리고, 이후에는 즉시 실행된다. RTX 4060 기준으로 초당 약 42토큰이 생성된다. 체감상 ChatGPT 무료 버전보다 빠르다.

더 큰 모델을 쓰고 싶다면 숫자만 바꾸면 된다.

# 14B 모델 — RTX 4070(12GB) 이상 권장
$ ollama run qwen3:14b

# 32B 모델 — RTX 4090(24GB) 이상 권장
$ ollama run qwen3:32b

# 비전(이미지 이해) 모델 — 사진을 보여주고 질문 가능
$ ollama run qwen3-vl

Ollama가 편리한 이유는 또 있다. 로컬 API 서버가 자동으로 실행된다. 모델을 한 번 띄워놓으면 다른 프로그램에서 HTTP 요청으로 접근할 수 있다. 나중에 사이드 프로젝트에 AI를 붙일 때 이 점이 중요해진다.

key point
Ollama로 실행한 모델은 인터넷에 연결되지 않는다. 내가 입력한 모든 데이터는 내 컴퓨터 안에 머문다. 회사 문서, 개인 일기, 코드 리뷰 — 어떤 데이터를 넣어도 외부로 나가지 않는다. 이것이 로컬 AI의 가장 큰 장점이다.
Part III — When API Wins

API로 쓰는 게 나을 때

로컬 AI는 프라이버시와 비용 면에서 강점이 있다. 하지만 모든 상황에서 로컬이 정답은 아니다. 로컬 8B 모델과 클라우드 API의 397B 풀 모델은 성능 차이가 분명히 존재한다.

Limit 01

모델 크기의 벽

8B 모델은 간단한 작업에 좋지만, 복잡한 추론이나 긴 문서 분석에서는 한계가 드러난다. 397B 풀 모델과의 품질 차이는 체감된다.

Limit 02

컨텍스트의 한계

로컬 8B 모델의 실질적 컨텍스트는 8K~32K 수준이다. 풀 모델의 256K와는 비교가 안 된다. 긴 문서 처리에 제약이 있다.

Limit 03

멀티모달 제한

이미지/비디오 이해 능력은 큰 모델에서 훨씬 강하다. 로컬 비전 모델은 존재하지만, 정확도와 속도 모두 클라우드에 뒤진다.

그렇다면 API는 얼마나 드는가. Qwen3.5는 알리바바 클라우드(ModelStudio)에서 API로 제공된다. OpenAI 호환 형식이라 기존 코드를 거의 수정하지 않고 쓸 수 있다.

Method Cost Performance Best For
Ollama 8B (로컬) 0원 (전기세만) 간단한 대화, 요약, 기초 코딩 학습, 실험, 프라이버시
Ollama 32B (로컬) 0원 (RTX 4090 필요) 중급 추론, 문서 분석 개인 프로젝트, 코드 리뷰
Qwen3.5-Plus API 월 수만~수십만 원 풀 모델 397B, 1M 컨텍스트 프로덕션, 긴 문서, 고품질 필요 시
Claude / GPT API 월 수만~수백만 원 프론티어급 (최상위 성능) 최고 품질이 필수인 업무

Qwen3.5 API의 가장 큰 장점은 비용이다. 전작 대비 60% 저렴하고, 동일 예산으로 처리할 수 있는 양이 8배 늘었다. OpenAI나 Anthropic API와 비교하면 토큰당 단가가 상당히 낮다. 성능은 프론티어 모델에 약간 밀리지만, 대부분의 실무 작업에는 충분하다.

로컬은 프라이버시와 자유를 준다.
API는 성능과 편리함을 준다.
정답은 둘 중 하나가 아니라 상황이다.

Part IV — Decision

그래서 나는 뭘 선택해야 하는데

상황별로 가장 현실적인 선택지를 정리한다. 자신의 목적과 장비를 아래에 대입해보면 된다.

Case A
AI가 뭔지 궁금해서 한번 써보고 싶다
GPU 없는 노트북이어도 된다. CPU만으로도 Qwen3-1.7B는 돌아간다. 느리지만 작동한다. GPU가 있다면 8B를 추천한다.
Ollama + Qwen3 1.7B or 8B
Case B
사이드 프로젝트에 AI를 붙이고 싶다
로컬 14B로 프로토타입을 만들고, 품질이 부족하면 API로 전환한다. 개발 중에는 로컬(무료), 배포 시에는 API(유료)로 갈아타는 전략이 효율적이다.
Local 14B → API fallback
Case C
회사 문서를 AI로 검색하고 싶다
데이터가 외부로 나가면 안 되는 환경이다. 로컬 32B + RAG 구성이 가장 안전하다. 문서 양이 많으면 API와 조합할 수도 있지만, 보안 정책을 먼저 확인해야 한다.
Local 32B + RAG
Case D
최고 품질의 결과물이 필요하다
프레젠테이션용 보고서, 고객 대면 문서, 복잡한 코드 생성. 이런 경우에는 로컬 모델로는 부족하다. Qwen3.5-Plus API나 Claude/GPT API를 쓰는 것이 맞다.
Qwen3.5-Plus or Claude / GPT API

한 가지 전략이 더 있다. 하이브리드다. 평소에는 로컬 모델로 빠르게 처리하고, 중요한 작업에만 API를 호출한다. 대부분의 일상 작업(요약, 번역, 간단한 질문)은 로컬 8B로 충분하다. API 비용을 90% 이상 절약하면서도, 필요할 때는 풀 모델의 성능을 쓸 수 있다.

Step Action Time
1 ollama.com에서 Ollama 설치 2분
2 ollama run qwen3:8b 실행 (첫 다운로드 포함) 3~5분
3 한국어로 아무 질문이나 해본다 즉시
4 만족스러우면 14B/32B로 업그레이드 시도 5분
5 로컬이 부족한 작업이 생기면 API 키 발급 필요할 때
로컬 실행 전 반드시 확인할 것
  • 내 GPU의 VRAM 크기를 확인한다. 작업관리자(Windows) 또는 nvidia-smi(터미널)로 확인 가능하다
  • VRAM이 부족하면 모델이 일반 RAM으로 넘친다. 이 경우 속도가 극단적으로 느려진다
  • Apple Silicon Mac은 통합 메모리를 쓰므로 시스템 메모리가 곧 VRAM이다. 메모리가 클수록 유리하다
  • GPU가 전혀 없는 PC에서도 Ollama는 실행된다. 단, CPU 모드는 매우 느리다 (초당 2~5토큰)
  • 첫 실행 시 모델 파일을 다운로드한다. 8B 기준 약 4.7GB. 인터넷이 필요한 것은 이때뿐이다

AI를 내 손에 넣는 데
필요한 것은 수천만 원이 아니다.
명령어 한 줄이다.

ollama run qwen3:8b. 이 한 줄이 무료 AI 시대의 입장권이다. 나머지는 직접 써보면서 알게 된다.