Series 23 — AI Server Setup

56일

서버가 오기 전 8주, 준비가 곧 생산이다.

Part I — The Most Dangerous Sentence

가장 비싼 한 마디

"서버 오면 시작하지 뭐."

이 문장이 프로젝트를 죽인다. 서버가 도착하면 어떤 일이 벌어지는지 보자. 하드웨어 세팅에 3일, OS와 드라이버 설치에 2일, CUDA 환경 구성에 2일, 네트워크 설정에 1일. 여기까지가 최소 2주다. 그리고 나서 물어야 한다. "뭘 만들지?" "데이터는 어디 있지?" "누가 쓸 건데?"

서버를 샀으니까 뭔가 만들어야 한다는 압박이 온다. 급하게 회사 소개 챗봇을 만든다. 데모를 돌려본다. 경영진에게 보여준다. 반응이 미지근하다. "이거 ChatGPT랑 뭐가 다른데?" 답변할 수 없다.

GPU 서버의 실패 패턴은 하드웨어 문제가 아니다. 준비 부재다. 어떤 데이터를 넣을지, 누구를 위해 만들지, 성공 기준이 뭔지 — 이 질문에 답이 없으면 서버는 서버실의 가구가 된다.

"서버 오면 시작한다"는
가장 비싼 한 마디다.

8주는 공백이 아니다. 8주는 리허설이다. 서버 없이 할 수 있는 것이 생각보다 많다. 그리고 그 준비가 서버 도착 후 첫 달의 성과를 결정한다.

Part II — Touch the Data

데이터를 만져라

1편에서 말했다. 데이터가 없으면 GPU 서버는 빈 오븐이라고. 8주 후 서버가 도착했을 때, 오븐에 넣을 재료가 준비되어 있어야 한다. 지금부터 데이터를 만져야 한다.

01

문서 인벤토리

회사 안에 어떤 문서가 어디에 있는지 목록을 만든다. 사내 위키, 공유 드라이브, 이메일 첨부 파일, 개인 PC. 흩어진 문서를 찾는 것만으로 1주가 걸린다.

02

데이터 정제 연습

HWP를 TXT로 변환하고, PDF에서 텍스트를 추출하고, 엑셀의 양식을 구조화한다. 정제 파이프라인은 GPU 없이 만들 수 있다. 지금 연습한다.

03

Ollama로 프로토타입

개인 PC에 Ollama를 설치하면 로컬 LLM을 돌릴 수 있다. 7B 모델이면 16GB RAM으로 충분하다. GPU 서버 없이도 RAG 파이프라인을 미리 실험할 수 있다.

문서 인벤토리를 해보면 놀랄 것이다. 내부 문서가 얼마나 정리 안 되어 있는지. HWP 파일명이 "최종_진짜최종_v3_수정(2).hwp"인 문서가 10개가 넘는다. 같은 내용의 버전이 3개 폴더에 흩어져 있다. 어떤 문서가 최신인지 아무도 모른다.

이게 현실이다. 그리고 이 현실을 파악하는 것 자체가 성과다. 서버 도착 후 "데이터 정제에 3주 걸립니다"라고 말하면 아무도 기다려주지 않는다. 지금 파악해두면 서버 도착 첫 주에 바로 데이터를 넣을 수 있다.

데이터 정제 연습도 GPU가 필요 없다. Python 스크립트 하나면 된다. hwp5txt로 HWP를 텍스트로 변환하고, PyPDF2로 PDF를 읽고, pandas로 엑셀을 구조화한다. 이 파이프라인을 지금 만들어두면 서버 도착 후 그대로 쓸 수 있다.

Ollama 프로토타입은 더 직접적이다. 개인 PC에서 Llama 3.2 3B 모델을 돌려보라. 정제한 문서를 벡터 DB에 넣고 질문을 던져보라. 답변이 엉망일 것이다. 그게 정상이다. 엉망인 답변을 보면서 "어떤 데이터가 더 필요한지"를 알게 된다. 서버에서 70B 모델을 돌려도 데이터가 엉망이면 결과도 엉망이다. 지금 3B 모델로 데이터 품질을 검증하는 것이 8주 후의 시행착오를 줄인다.

Part III — Write the PRD

기획서를 써라

2편에서 10가지 실험을 나열했다. 그 중 3개를 골라라. 그리고 기획서(PRD)를 써라.

PRD가 없는 프로젝트가 어떻게 되는지는 이미 알고 있다. "일단 만들어보자"로 시작해서, 기능이 늘어나고, 방향이 바뀌고, 3주 후에 "이거 처음에 뭘 만들려던 거였지?"가 된다. 기획 없이 시작한 프로젝트는 기술 데모로 끝난다.

거창할 필요 없다. A4 한 장이면 된다. 핵심은 이 6가지 질문에 답하는 것이다.

PRD 체크리스트 — A4 한 장
  1. 문제 — 지금 누가 어떤 반복 작업을 하고 있는가? 그 작업에 매주 몇 시간을 쓰는가?
  2. 사용자 — 이 도구를 쓸 사람은 누구인가? 개발자인가, 비개발자인가? 몇 명이 쓰는가?
  3. 입력과 출력 — 무엇을 넣으면 무엇이 나오는가? 구체적으로. "문서를 넣으면 요약이 나온다"가 아니라 "HWP 과제 보고서를 넣으면 정산 항목 리스트가 나온다"
  4. 성공 기준 — 뭘 달성하면 "이거 된다"고 할 수 있는가? 정확도 80%? 처리 시간 5분 이하? 주당 절약 시간 2시간?
  5. 제한사항 — 폐쇄망에서 돌아가야 하는가? 개인정보가 포함되는가? 동시 접속 몇 명까지 지원해야 하는가?
  6. 일정 — 서버 도착 후 몇 주 안에 첫 번째 버전을 낼 것인가? 데모 가능 시점은?

이 6가지에 답할 수 있으면 서버 도착 후 즉시 개발을 시작할 수 있다. 답할 수 없으면 서버가 와도 "뭐부터 하지?"에서 2주를 더 쓴다.

팁 하나. 사용자를 먼저 정해라. "회사 전체"가 사용자인 프로젝트는 없다. 영업팀 김 과장이 매주 금요일 3시간씩 제안서 쓰는 그 작업. 사업팀 박 대리가 매일 아침 나라장터 공고를 훑는 그 30분. 한 사람의 구체적인 반복 업무를 해결하는 것이 시작이다.

Part IV — Ask Everyone

모든 부서에 물어라

개발팀만 준비하면 될까? 아니다. 서버의 가치는 비개발 부서에서 나온다.

개발팀은 자동화할 작업을 스스로 찾을 수 있다. 코드 리뷰, 테스트 생성, 문서화. 하지만 진짜 임팩트가 큰 프로젝트는 개발팀 밖에 있다. 영업팀이 매주 쓰는 제안서, 사업팀이 매일 확인하는 정부 공고, 연구원이 분기마다 작성하는 정산서. 이 반복 업무들이 AI로 해결되면 서버의 ROI가 바로 증명된다.

각 부서에 이 질문 하나만 던져라.

"매주 반복하는 작업 중
가장 지겨운 것이 무엇인가?"

영업팀
"제안서 초안 쓰는 데 하루가 걸려요"
과거 제안서 + 고객 요구사항을 넣으면 초안이 나오는 도구. 하루가 2시간이 된다.
사업팀
"나라장터 공고를 매일 눈으로 훑어요"
키워드 필터링 + 적격 판단까지 자동화. 매일 30분이 슬랙 알림 한 줄이 된다.
연구원
"정산 항목 분류에 3일 걸려요"
영수증과 정산 기준을 매칭하는 검증기. 3일이 3시간이 된다.
기획팀
"경쟁사 뉴스를 매일 검색해요"
RSS + LLM 요약으로 일일 리포트 자동 생성. 검색 시간이 0이 된다.

네 부서에서 나온 네 개의 아이디어. 전부 개발팀이 혼자 생각해낼 수 있는 것이 아니다. 그 업무를 매일 하는 사람만이 진짜 문제를 안다.

아이디어를 모으는 방법은 간단하다. 슬랙에 채널 하나 만들어라. #ai-server-ideas 같은 이름이면 된다. "매주 반복하는 지겨운 작업을 적어주세요. AI로 자동화할 수 있는지 개발팀이 검토합니다." 한 줄이면 된다. 2주면 10개 이상의 아이디어가 모인다.

이 과정 자체에 가치가 있다. 아이디어가 채택되든 안 되든, 전 직원이 "이 서버가 나와 관련 있다"고 느끼게 된다. 서버가 개발팀의 장난감이 아니라 회사 전체의 도구라는 인식. 그게 8주 동안 만들어야 할 가장 중요한 것이다.

Part V — D-56 Timeline

8주 타임라인

전부 완벽하게 할 필요 없다. 매주 한 가지씩만 진행하면 된다. 서버 도착 시점에 데이터, 기획, 팀의 기대감이 갖춰져 있으면 성공이다.

준비 타임라인
  • Week 1-2
    데이터 인벤토리 + 아이디어 수집. 회사 내부 문서가 어디에 몇 개 있는지 파악한다. 슬랙에 아이디어 채널을 열고 전 부서에 질문을 던진다.
  • Week 3-4
    데이터 정제 연습 + PRD 초안. HWP/PDF/엑셀 정제 파이프라인을 Python으로 만든다. 수집된 아이디어 중 3개를 골라 PRD 초안을 쓴다.
  • Week 5-6
    Ollama 프로토타입 + PRD 확정. 개인 PC에서 3B 모델로 RAG 파이프라인을 돌려본다. 데이터 품질 문제를 발견하고 정제한다. PRD를 확정한다.
  • Week 7-8
    환경 문서 + D-Day 체크리스트. 서버 OS, CUDA, Docker, 네트워크 설정 문서를 미리 작성한다. 도착 후 2주 안에 첫 데모를 목표로 일정을 잡는다.

8주 후 서버가 도착한 날, 두 가지 시나리오가 있다.

시나리오 A

준비한 팀

데이터가 정제되어 있다. PRD 3개가 확정되어 있다. 전 부서가 기대하고 있다. 서버 세팅 2주 후 첫 데모. 1개월 안에 실사용 시작.

시나리오 B

준비 안 한 팀

서버 세팅 2주. "뭘 만들지?" 회의 2주. 데이터 정제 3주. 프로토타입 2주. 경영진 보고 — "아직 결과물이 없습니다." 3개월이 지나도 시작을 못 한다.

준비가 끝난 팀에게 서버는 도구다.
준비가 안 된 팀에게 서버는 가구다.

8주는 기다리는 시간이 아니다. 만드는 시간이다.