코딩에 쓸 만한가,
대화에 쓸 만한가
Qwen3.5의 코딩, 대화, 에이전트 능력을 각각 해부한다. 무료 모델 중 최강이라는 말 뒤에 숨은 실체와 한계.
무료치고 놀랍고, 유료에겐 부족하고
AI 코딩 능력을 평가하는 벤치마크는 여러 가지가 있다. 그중 가장 실전에 가까운 것이 LiveCodeBench와 SWE-bench다. LiveCodeBench는 실시간 코딩 대회 문제를 풀게 하고, SWE-bench는 실제 오픈소스 프로젝트의 버그를 수정하게 한다.
LiveCodeBench v6에서 Qwen3.5는 83.6점을 기록했다. 무료(오픈 웨이트) 모델 중에서는 압도적 1위다. 하지만 유료 프론티어 모델(Claude Opus, GPT-5.2)에는 약간 밀린다. SWE-bench Verified에서도 비슷한 양상이다. Qwen3.5는 76.4, Claude Opus 4.6은 80% 이상이다.
이것을 실전으로 번역하면 이렇게 된다.
간단한 스크립트
파이썬 함수, 데이터 처리, 웹 페이지 생성, API 호출 코드. 이 수준의 작업에서는 유료 모델과 차이를 느끼기 어렵다.
중간 난이도 개발
CRUD 앱, 간단한 백엔드, 테스트 코드 작성. 대부분 잘 해내지만, 가끔 엣지 케이스를 놓치거나 비효율적인 패턴을 쓴다.
대규모 리팩토링
수천 줄 코드베이스의 구조 변경, 복잡한 동시성 처리, 아키텍처 설계. 여기서는 Claude/GPT가 확실히 앞선다.
Qwen 생태계에는 Qwen Code라는 전용 코딩 에이전트도 있다. 터미널에서 동작하는 오픈소스 AI 코딩 도구로, 코드베이스를 탐색하고, 파일을 수정하고, 명령을 실행한다. Claude Code와 비슷한 컨셉이지만 무료다.
코딩 AI의 판단 기준은 단순하다.
무료로 충분한가, 유료가 필요한가.
Qwen3.5는 놀라울 만큼 많은 작업에서 "충분"하다.
201개 언어를 이해하는 대화 상대
코딩은 벤치마크로 측정하기 쉽다. 맞거나 틀리거나. 하지만 대화 능력은 다르다. "자연스러운가", "맥락을 잘 이해하는가", "한국어가 어색하지 않은가" 같은 주관적 요소가 크다.
Qwen3.5가 대화에서 강점을 보이는 이유는 두 가지다. 첫째, 201개 언어를 지원한다. 이전 버전(Qwen3)의 119개에서 대폭 확대되었다. 단순히 언어 수가 늘어난 것이 아니라, 각 언어의 추론 능력이 함께 강화되었다.
둘째, 한국어에 대한 별도 강화가 이루어졌다. 한국어 30,000개의 수학, 과학, 코딩 추론 예제로 추가 학습한 연구 결과가 있다. 이 연구에서는 Qwen3-14B 모델이 한국어로 "생각하는" 능력을 강화 학습(Reinforcement Learning)으로 끌어올렸다.
| Category | Qwen3.5 | Translation |
|---|---|---|
| 다국어 지원 | 201개 언어/방언 | 한국어, 일본어, 중국어, 영어 포함. 마이너 언어도 상당수 커버 |
| 한국어 추론 | 별도 강화 | 30K 한국어 추론 데이터로 추가 학습. 수학/과학 문제를 한국어로 풀 수 있다 |
| 한국어 TTS | 최저 오류율 | 10개 언어 중 한국어 WER(단어 오류율)이 가장 낮았다 |
| 지식 (MMLU-Pro) | 87.8 | 범용 지식 테스트에서 상위권. 일상 질문부터 전문 지식까지 |
실전에서 체감하는 대화 품질은 어떠한가. 일상 대화, 요약, 번역 작업에서 Qwen3.5는 유료 모델과 구분하기 어려운 수준을 보인다. 특히 한국어 요약과 한영/영한 번역에서 자연스럽다는 평가가 많다.
다만, 미묘한 뉘앙스가 중요한 작업에서는 차이가 드러난다. 문학적 표현, 유머, 문화적 맥락을 반영한 답변에서는 Claude 계열이 여전히 강세다. Qwen3.5는 "정보를 정확하게 전달하는" 대화에 강하고, "감성적으로 공감하는" 대화에서는 프론티어 모델에 약간 뒤진다.
요약과 번역
긴 문서를 핵심만 추리거나, 한영/영한 번역을 하는 작업. 201개 언어 학습의 이점이 직접적으로 드러난다.
질의응답
사실 관계 질문, 개념 설명, 비교 분석. MMLU-Pro 87.8의 범용 지식이 뒷받침한다.
창작과 공감
소설 쓰기, 감성적 대화, 문화 맥락 반영. 가능하지만, 이 영역에서는 Claude가 한 수 위다.
진짜 강점은 여기다
코딩과 대화는 대부분의 AI 모델이 하는 일이다. Qwen3.5가 다른 모델과 확실히 구분되는 영역은 에이전트 기능이다.
Qwen3.5는 에이전트 벤치마크 BFCL-V4에서 72.9점을 기록했다. 이 점수가 의미하는 것은, 주어진 도구들 중에서 상황에 맞는 도구를 골라 올바른 순서로 호출하는 능력이 높다는 것이다. 또 다른 에이전트 벤치마크 TAU2-Bench에서는 86.7점으로, 이는 실제 업무 환경에서의 자율 판단 능력을 측정한 결과다.
왜 에이전트가 중요한가. 대화형 AI는 질문하면 답한다. 에이전트형 AI는 목표를 주면 알아서 수행한다. 차이는 크다.
이것을 가능하게 하는 핵심 기술이 MCP(Model Context Protocol)다.
Qwen3.5가 MCP를 네이티브로 지원한다는 것은, 별도의 복잡한 설정 없이도 파일 시스템 접근, 데이터베이스 쿼리, 외부 API 호출이 가능하다는 뜻이다. 여기에 Qwen-Agent라는 오픈소스 프레임워크가 있어서, 이 모든 것을 코드 몇 줄로 조립할 수 있다.
대화형 AI는 비서다. 물어보면 답한다.
에이전트형 AI는 직원이다. 시키면 해낸다.
Qwen3.5의 진짜 가치는 후자에 있다.
오픈소스 모델 중에서 에이전트 기능이 이 정도로 완성된 것은 드물다. Claude나 GPT도 에이전트 기능을 제공하지만, 유료 API를 써야 한다. Qwen3.5는 무료 모델 + 무료 프레임워크(Qwen-Agent) + 표준 프로토콜(MCP)의 조합으로 에이전트를 구축할 수 있다. 4편에서 이것을 사이드 프로젝트에 실제로 적용하는 방법을 다룬다.
이 작업엔 이 모델
3개 영역을 종합하면, Qwen3.5의 위치는 명확하다. 무료 모델 중에서는 거의 모든 영역에서 1위이고, 유료 프론티어 모델과는 영역에 따라 격차가 있다. 이것을 작업 유형별로 정리하면 다음과 같다.
패턴이 보인다. 예산이 0원이거나, 프라이버시가 중요하거나, 에이전트를 만들고 싶다면 Qwen3.5가 현재 최선의 선택이다. 최고 품질이 필수이거나, 복잡한 추론이 필요하거나, 창작 작업이라면 유료 프론티어 모델이 여전히 우위다.
그리고 현실적으로 가장 합리적인 전략은 둘 다 쓰는 것이다. 일상적인 80%의 작업에 Qwen3.5(무료)를 쓰고, 나머지 20%의 중요한 작업에만 Claude/GPT(유료)를 쓴다. API 비용을 80% 이상 절약하면서도 결과물 품질은 유지할 수 있다.
- 벤치마크 점수는 특정 테스트 조건에서의 결과다. 내 작업과 다를 수 있다
- 점수 차이 5점 미만은 실전에서 체감하기 어렵다. 83 vs 88은 숫자보다 크지 않다
- 모델은 빠르게 업데이트된다. 이 글의 숫자도 수개월 안에 바뀔 수 있다
- 가장 정확한 평가는 자기 작업에 직접 넣어보는 것이다. 무료 모델이니 시도에 비용이 없다
- 로컬 소형 모델(8B/14B)과 클라우드 풀 모델(397B)의 성능은 다르다. 같은 Qwen이라도 모델 크기에 따라 체감이 다르다
AI 선택의 기준은
"어느 것이 최고인가"가 아니다.
"내 작업에 무엇이 맞는가"다.
무료와 유료, 로컬과 클라우드. 정답은 하나가 아니라 조합이다. 다음 편에서 이 조합을 실제 프로젝트에 적용하는 방법을 다룬다.