Ollama 로컬 LLM 구축기
LM Studio, Jan, Ollama 모두 써보고 최종 정착한 이유와 한국어 최적 모델 추천.
왜 로컬 LLM인가?
ChatGPT와 Claude의 월 구독료가 부담되거나, 민감한 데이터를 외부 서버에 전송하고 싶지 않거나, 인터넷 없이도 AI를 사용하고 싶다면 로컬 LLM이 답입니다.
로컬 LLM의 3대 장점:
- 프라이버시: 모든 데이터가 내 컴퓨터에만 저장됩니다. 회사 기밀, 개인정보, 의료 정보 등 민감한 내용도 안심하고 입력할 수 있습니다.
- 비용 절감: 초기 하드웨어 투자 후에는 무료입니다. ChatGPT Plus(월 $20), Claude Pro(월 $20)를 1년 구독하면 $480인데, 이 돈이면 중고 GPU를 살 수 있습니다.
- 자율성: API 제한, 서비스 다운타임, 정책 변경 등에 영향받지 않습니다. 오프라인에서도 작동하며, 모델을 직접 커스터마이징할 수도 있습니다.
LM Studio vs Jan vs Ollama 비교
LM Studio
장점:
- GUI가 직관적이고 예쁩니다
- 모델 다운로드가 간편합니다
- Windows/Mac 모두 지원
단점:
- 서버 모드가 불안정합니다
- CLI 자동화가 어렵습니다
- 메모리 관리가 비효율적입니다
Jan
장점:
- Electron 기반으로 크로스플랫폼 지원
- 채팅 UI가 ChatGPT와 유사해 익숙합니다
단점:
- 리소스 소모가 심합니다 (Electron의 한계)
- 모델 전환이 느립니다
- 개발이 활발하지 않습니다
Ollama (최종 선택)
장점:
- CLI 기반으로 빠르고 가볍습니다
- Docker처럼
ollama pull,ollama run명령어로 직관적입니다 - REST API 제공으로 n8n, Python 등과 쉽게 연동됩니다
- 메모리 관리가 우수합니다 (사용 안 할 때 자동 언로드)
- 커뮤니티가 활발하고 모델 라이브러리가 풍부합니다
단점:
- GUI가 없습니다 (Open WebUI로 해결 가능)
Ollama 설치 및 설정
Mac/Linux 설치
curl -fsSL https://ollama.com/install.sh | sh모델 다운로드
# Llama 3 8B (추천)
ollama pull llama3
# Mistral 7B (빠른 응답)
ollama pull mistral
# Gemma 2B (저사양 PC용)
ollama pull gemma:2b실행
ollama run llama3이제 대화형 모드로 진입합니다. /bye로 종료합니다.
한국어 최적 모델 추천
1. 일반 대화 & 글쓰기: llama3:8b
- 한국어 성능이 가장 균형잡혀 있습니다
- 8GB RAM으로 실행 가능합니다
- 응답 속도와 품질의 최적 균형점입니다
ollama run llama3 "한국 전통 음식에 대해 설명해줘"2. 코드 생성: codellama:13b
- Python, JavaScript, React 등 코드 생성에 특화되었습니다
- 주석도 한국어로 작성해줍니다
ollama run codellama "FastAPI로 REST API 만드는 코드 작성해줘"3. 저사양 PC: gemma:2b
- 4GB RAM만 있어도 작동합니다
- 속도는 빠르지만 품질은 다소 떨어집니다
4. 고품질 응답: mixtral:8x7b
- GPT-4 수준의 품질입니다
- 32GB RAM 필요합니다
- 긴 문서 요약, 복잡한 추론에 탁월합니다
Open WebUI로 ChatGPT 같은 UI 만들기
Ollama는 CLI만 제공하므로, ChatGPT처럼 웹 UI를 원한다면 Open WebUI를 설치합니다:
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:mainhttp://localhost:3000 접속하면 ChatGPT와 거의 동일한 UI로 Ollama 모델을 사용할 수 있습니다.
Open WebUI 주요 기능:
- 다중 모델 전환
- 대화 히스토리 저장
- 파일 업로드 및 분석
- 프롬프트 템플릿
- 다크모드
n8n 자동화 연동
Ollama의 REST API로 n8n 워크플로우와 연동할 수 있습니다:
1. HTTP Request 노드 설정:
{
"method": "POST",
"url": "http://localhost:11434/api/generate",
"body": {
"model": "llama3",
"prompt": "이메일을 요약해줘: {{$json.email_body}}",
"stream": false
}
}2. 실전 워크플로우 예시:
- 새 이메일 도착 → Ollama로 요약 → Slack 알림
- 블로그 글 작성 → Ollama로 SEO 메타 태그 생성 → 자동 삽입
- CSV 데이터 업로드 → Ollama로 인사이트 분석 → 리포트 생성
성능 최적화 팁
GPU 가속 활성화 (NVIDIA)
Ollama는 자동으로 GPU를 감지하지만, 수동 설정도 가능합니다:
OLLAMA_GPU_LAYERS=35 ollama run llama3컨텍스트 크기 조정
ollama run llama3 --ctx-size 8192기본값은 2048이지만, 긴 문서 처리 시 8192로 늘리면 더 많은 내용을 기억합니다.
배치 크기 조정
ollama run llama3 --batch-size 512GPU 메모리가 충분하면 배치 크기를 늘려 속도를 높일 수 있습니다.
실사용 후기
장점
- 완전한 프라이버시: 회사 코드 리뷰를 ChatGPT에 올리기 꺼려졌는데, Ollama는 로컬이라 안심입니다.
- 무제한 사용: API 호출 제한이나 월 비용 걱정 없이 마음껏 사용합니다.
- 빠른 응답: M1 Mac Mini에서 Llama3 8B 모델이 초당 30토큰 이상 생성합니다. 체감상 ChatGPT와 비슷합니다.
- 커스터마이징: Modelfile로 시스템 프롬프트를 고정해 항상 한국어로 답변하게 만들었습니다.
단점
- 품질은 GPT-4 미만: Llama3는 GPT-3.5 수준입니다. GPT-4만큼 정교하진 않습니다.
- 하드웨어 요구사항: 최소 8GB RAM, 추천 16GB 이상입니다.
- 최신 정보 부족: 학습 데이터가 2023년까지라 최신 정보는 모릅니다.
비용 분석
ChatGPT Plus 1년:
- 월 $20 × 12개월 = $240
Ollama 홈서버:
- M1 Mac Mini 중고: $500 (1회)
- 전기료: 월 $5 × 12개월 = $60
- 합계: $560 (1년차), $60 (2년차 이후)
2년차부터는 Ollama가 압도적으로 저렴합니다. 게다가 홈서버는 다른 용도로도 활용 가능합니다.
결론
LM Studio와 Jan을 써봤지만 결국 Ollama + Open WebUI 조합이 최고였습니다. CLI의 가벼움과 REST API의 확장성, 그리고 Open WebUI의 편리함을 모두 갖췄습니다.
특히 n8n과 연동하면 무한한 자동화 가능성이 열립니다. 이메일 요약, 콘텐츠 생성, 데이터 분석 등을 모두 로컬에서 무료로 처리할 수 있습니다.
GPT-4 수준의 품질이 필요한 중요한 작업은 Claude나 ChatGPT를 쓰고, 일상적인 작업은 Ollama로 처리하는 하이브리드 전략을 추천합니다.