Series 36 · 03 of 05

코딩에 쓸 만한가,
대화에 쓸 만한가

Qwen3.5의 코딩, 대화, 에이전트 능력을 각각 해부한다. 무료 모델 중 최강이라는 말 뒤에 숨은 실체와 한계.

Part I — Coding

무료치고 놀랍고, 유료에겐 부족하고

AI 코딩 능력을 평가하는 벤치마크는 여러 가지가 있다. 그중 가장 실전에 가까운 것이 LiveCodeBenchSWE-bench다. LiveCodeBench는 실시간 코딩 대회 문제를 풀게 하고, SWE-bench는 실제 오픈소스 프로젝트의 버그를 수정하게 한다.

Qwen3.5
83.6
GPT-5.2
~88
Claude Opus
~90

LiveCodeBench v6에서 Qwen3.5는 83.6점을 기록했다. 무료(오픈 웨이트) 모델 중에서는 압도적 1위다. 하지만 유료 프론티어 모델(Claude Opus, GPT-5.2)에는 약간 밀린다. SWE-bench Verified에서도 비슷한 양상이다. Qwen3.5는 76.4, Claude Opus 4.6은 80% 이상이다.

이것을 실전으로 번역하면 이렇게 된다.

Strong

간단한 스크립트

파이썬 함수, 데이터 처리, 웹 페이지 생성, API 호출 코드. 이 수준의 작업에서는 유료 모델과 차이를 느끼기 어렵다.

Adequate

중간 난이도 개발

CRUD 앱, 간단한 백엔드, 테스트 코드 작성. 대부분 잘 해내지만, 가끔 엣지 케이스를 놓치거나 비효율적인 패턴을 쓴다.

Weak

대규모 리팩토링

수천 줄 코드베이스의 구조 변경, 복잡한 동시성 처리, 아키텍처 설계. 여기서는 Claude/GPT가 확실히 앞선다.

Qwen 생태계에는 Qwen Code라는 전용 코딩 에이전트도 있다. 터미널에서 동작하는 오픈소스 AI 코딩 도구로, 코드베이스를 탐색하고, 파일을 수정하고, 명령을 실행한다. Claude Code와 비슷한 컨셉이지만 무료다.

translate
Qwen Code
터미널에서 동작하는 무료 AI 코딩 비서. 코드를 읽고, 수정하고, 명령을 실행한다. Qwen3-Coder 모델에 최적화되어 있다. Claude Code의 오픈소스 대안으로 볼 수 있다.

코딩 AI의 판단 기준은 단순하다.
무료로 충분한가, 유료가 필요한가.
Qwen3.5는 놀라울 만큼 많은 작업에서 "충분"하다.

Part II — Conversation

201개 언어를 이해하는 대화 상대

코딩은 벤치마크로 측정하기 쉽다. 맞거나 틀리거나. 하지만 대화 능력은 다르다. "자연스러운가", "맥락을 잘 이해하는가", "한국어가 어색하지 않은가" 같은 주관적 요소가 크다.

Qwen3.5가 대화에서 강점을 보이는 이유는 두 가지다. 첫째, 201개 언어를 지원한다. 이전 버전(Qwen3)의 119개에서 대폭 확대되었다. 단순히 언어 수가 늘어난 것이 아니라, 각 언어의 추론 능력이 함께 강화되었다.

둘째, 한국어에 대한 별도 강화가 이루어졌다. 한국어 30,000개의 수학, 과학, 코딩 추론 예제로 추가 학습한 연구 결과가 있다. 이 연구에서는 Qwen3-14B 모델이 한국어로 "생각하는" 능력을 강화 학습(Reinforcement Learning)으로 끌어올렸다.

Category Qwen3.5 Translation
다국어 지원 201개 언어/방언 한국어, 일본어, 중국어, 영어 포함. 마이너 언어도 상당수 커버
한국어 추론 별도 강화 30K 한국어 추론 데이터로 추가 학습. 수학/과학 문제를 한국어로 풀 수 있다
한국어 TTS 최저 오류율 10개 언어 중 한국어 WER(단어 오류율)이 가장 낮았다
지식 (MMLU-Pro) 87.8 범용 지식 테스트에서 상위권. 일상 질문부터 전문 지식까지

실전에서 체감하는 대화 품질은 어떠한가. 일상 대화, 요약, 번역 작업에서 Qwen3.5는 유료 모델과 구분하기 어려운 수준을 보인다. 특히 한국어 요약과 한영/영한 번역에서 자연스럽다는 평가가 많다.

다만, 미묘한 뉘앙스가 중요한 작업에서는 차이가 드러난다. 문학적 표현, 유머, 문화적 맥락을 반영한 답변에서는 Claude 계열이 여전히 강세다. Qwen3.5는 "정보를 정확하게 전달하는" 대화에 강하고, "감성적으로 공감하는" 대화에서는 프론티어 모델에 약간 뒤진다.

Strong

요약과 번역

긴 문서를 핵심만 추리거나, 한영/영한 번역을 하는 작업. 201개 언어 학습의 이점이 직접적으로 드러난다.

Strong

질의응답

사실 관계 질문, 개념 설명, 비교 분석. MMLU-Pro 87.8의 범용 지식이 뒷받침한다.

Adequate

창작과 공감

소설 쓰기, 감성적 대화, 문화 맥락 반영. 가능하지만, 이 영역에서는 Claude가 한 수 위다.

Part III — Agent

진짜 강점은 여기다

코딩과 대화는 대부분의 AI 모델이 하는 일이다. Qwen3.5가 다른 모델과 확실히 구분되는 영역은 에이전트 기능이다.

translate
에이전트 (Agent)
AI가 단순히 답변만 하는 것이 아니라, 스스로 도구를 사용해서 작업을 수행하는 것. 파일을 읽고, 웹을 검색하고, 코드를 실행하고, 데이터베이스를 조회한다. 사람이 "이것 좀 알아봐줘"라고 하면, AI가 직접 여러 단계를 거쳐 결과를 가져오는 방식이다.

Qwen3.5는 에이전트 벤치마크 BFCL-V4에서 72.9점을 기록했다. 이 점수가 의미하는 것은, 주어진 도구들 중에서 상황에 맞는 도구를 골라 올바른 순서로 호출하는 능력이 높다는 것이다. 또 다른 에이전트 벤치마크 TAU2-Bench에서는 86.7점으로, 이는 실제 업무 환경에서의 자율 판단 능력을 측정한 결과다.

왜 에이전트가 중요한가. 대화형 AI는 질문하면 답한다. 에이전트형 AI는 목표를 주면 알아서 수행한다. 차이는 크다.

01
사용자가 목표를 준다
"이번 달 매출 보고서를 정리해서 요약해줘"
02
AI가 필요한 도구를 판단한다
파일 시스템에서 매출 데이터 파일을 찾아야 한다 → 파일 읽기 도구 호출
03
도구를 호출하고 결과를 받는다
sales_2026_02.csv를 읽어서 데이터 확인. 추가로 전월 데이터도 필요 → 한 번 더 호출
04
결과를 종합하여 답변한다
전월 대비 증감, 주요 항목, 특이사항을 정리한 요약 보고서를 생성한다

이것을 가능하게 하는 핵심 기술이 MCP(Model Context Protocol)다.

translate
MCP (Model Context Protocol)
AI가 외부 도구와 대화하는 표준 규격. USB가 어떤 기기든 연결할 수 있게 해주듯, MCP는 AI가 어떤 도구든(파일, DB, 웹, API) 연결할 수 있게 해준다. Qwen3.5는 MCP를 네이티브로 지원한다.

Qwen3.5가 MCP를 네이티브로 지원한다는 것은, 별도의 복잡한 설정 없이도 파일 시스템 접근, 데이터베이스 쿼리, 외부 API 호출이 가능하다는 뜻이다. 여기에 Qwen-Agent라는 오픈소스 프레임워크가 있어서, 이 모든 것을 코드 몇 줄로 조립할 수 있다.

대화형 AI는 비서다. 물어보면 답한다.
에이전트형 AI는 직원이다. 시키면 해낸다.
Qwen3.5의 진짜 가치는 후자에 있다.

오픈소스 모델 중에서 에이전트 기능이 이 정도로 완성된 것은 드물다. Claude나 GPT도 에이전트 기능을 제공하지만, 유료 API를 써야 한다. Qwen3.5는 무료 모델 + 무료 프레임워크(Qwen-Agent) + 표준 프로토콜(MCP)의 조합으로 에이전트를 구축할 수 있다. 4편에서 이것을 사이드 프로젝트에 실제로 적용하는 방법을 다룬다.

Part IV — The Matrix

이 작업엔 이 모델

3개 영역을 종합하면, Qwen3.5의 위치는 명확하다. 무료 모델 중에서는 거의 모든 영역에서 1위이고, 유료 프론티어 모델과는 영역에 따라 격차가 있다. 이것을 작업 유형별로 정리하면 다음과 같다.

Task 01
간단한 코딩
Qwen3.5 (free)
스크립트, 웹 페이지, API 호출 코드. 유료 모델과 차이 체감 어렵다. 비용 0원.
Task 02
대규모 코드 리팩토링
Claude / GPT (paid)
수천 줄 코드베이스 구조 변경. 컨텍스트 이해력과 일관성에서 유료 모델이 확실히 앞선다.
Task 03
문서 요약 / 번역
Qwen3.5 (free)
201개 언어 지원. 한영/영한 번역과 요약에서 유료급 품질. 256K 컨텍스트로 긴 문서도 가능.
Task 04
창작 / 감성 대화
Claude (paid)
소설, 감성적 공감, 문화 맥락이 중요한 작업. Claude의 강점 영역.
Task 05
에이전트 / 자동화
Qwen3.5 (free)
MCP 네이티브 + Qwen-Agent 프레임워크. 무료 에이전트 구축에서 독보적 생태계.
Task 06
이미지 / 영상 분석
Qwen3.5 (free) or GPT (paid)
MMMU 85.0. 무료 모델 중 최강. 단, 최고 정확도가 필요하면 유료가 안전하다.
Task 07
사내 문서 검색 (RAG)
Qwen3.5 (free)
로컬 실행 = 데이터 유출 없음. 256K 컨텍스트 + RAG 조합. 5편에서 상세 다룬다.
Task 08
최고 품질이 필수인 업무
Claude Opus / GPT-5 (paid)
계약서 검토, 고객 대면 문서, 중대한 의사결정 보조. 실수 비용이 클 때는 최고를 쓴다.

패턴이 보인다. 예산이 0원이거나, 프라이버시가 중요하거나, 에이전트를 만들고 싶다면 Qwen3.5가 현재 최선의 선택이다. 최고 품질이 필수이거나, 복잡한 추론이 필요하거나, 창작 작업이라면 유료 프론티어 모델이 여전히 우위다.

그리고 현실적으로 가장 합리적인 전략은 둘 다 쓰는 것이다. 일상적인 80%의 작업에 Qwen3.5(무료)를 쓰고, 나머지 20%의 중요한 작업에만 Claude/GPT(유료)를 쓴다. API 비용을 80% 이상 절약하면서도 결과물 품질은 유지할 수 있다.

벤치마크를 읽을 때 주의할 점
  • 벤치마크 점수는 특정 테스트 조건에서의 결과다. 내 작업과 다를 수 있다
  • 점수 차이 5점 미만은 실전에서 체감하기 어렵다. 83 vs 88은 숫자보다 크지 않다
  • 모델은 빠르게 업데이트된다. 이 글의 숫자도 수개월 안에 바뀔 수 있다
  • 가장 정확한 평가는 자기 작업에 직접 넣어보는 것이다. 무료 모델이니 시도에 비용이 없다
  • 로컬 소형 모델(8B/14B)과 클라우드 풀 모델(397B)의 성능은 다르다. 같은 Qwen이라도 모델 크기에 따라 체감이 다르다

AI 선택의 기준은
"어느 것이 최고인가"가 아니다.
"내 작업에 무엇이 맞는가"다.

무료와 유료, 로컬과 클라우드. 정답은 하나가 아니라 조합이다. 다음 편에서 이 조합을 실제 프로젝트에 적용하는 방법을 다룬다.