요즘 SNS를 열면 빠지지 않는 게 있다. 바로 두바이 쫀득 쿠키, 일명 '두쫀쿠'.

한국에서 2025년 초 폭발적으로 유행한 이 디저트는, 2024년 전 세계를 휩쓴 두바이 초콜릿의 속 재료를 쫀득쿠키 껍질로 감싼 형태다. 겉은 마시멜로에 탈지분유와 코코아파우더를 섞어 만든 쫀득한 피, 속은 버터에 바삭하게 볶은 카다이프와 화이트 초콜릿, 피스타치오 스프레드를 섞은 필링. 동그랗게 빚고 코코아 파우더를 묻히면 완성이다.

한 입 베어 물면 쫀득한 겉과 바삭한 카다이프의 식감 대비가 오고, 피스타치오와 화이트 초콜릿의 풍미가 한꺼번에 밀려온다. 그런데 이 두쫀쿠 만드는 과정이 요즘 AI 세계와 생각보다 많이 닮아있다.

오늘은 두쫀쿠 레시피에 비유해서 로컬 LLM이 뭔지, AI 회사들은 어떻게 서비스를 제공하는지, 우리는 뭘 선택할 수 있는지 한번 풀어보려 한다.

처음에 "이게 비유가 되나?" 싶었는데, 두쫀쿠 만드는 과정을 단계별로 놓고 보니까 생각보다 딱 맞아떨어져서 좀 놀랐다.

두쫀쿠 만드는 과정으로 보는 AI의 세계

두쫀쿠 만들기는 크게 다섯 단계다. 이걸 AI 세계에 대입해보자.

1단계: 카다이프 볶기 = 모델 학습

두쫀쿠의 시작은 카다이프를 후라이팬에 바삭하게 볶는 것이다. 실타래처럼 가는 카다이프 면을 약불에서 천천히 저어가며 황금빛이 될 때까지 볶아야 한다. 이 과정을 대충 하면 눅눅하거나 타버려서 전체 맛이 망한다.

AI 세계에서 이건 모델 학습에 해당한다. 수백억 개의 텍스트 데이터를 GPU 수천 대에서 몇 달간 처리하는 과정. 카다이프를 볶는 것처럼, 이 과정이 대충 되면 AI 전체 품질이 떨어진다. 그리고 카다이프를 집에서 직접 뽑는 게 사실상 불가능하듯, 초거대 모델을 처음부터 학습시키는 건 개인이 할 수 있는 영역이 아니다.

2단계: 소 만들기 = 완성된 AI 모델

볶은 카다이프에 피스타치오 스프레드와 녹인 화이트 초콜릿을 섞으면 두쫀쿠의 소(필링)가 된다. 이걸 20g씩 동글려서 냉동실에 넣어 단단하게 굳힌다.

이 소가 바로 완성된 AI 모델이다. GPT-4o, Claude, Llama 같은 것들. 학습이 끝난 원재료(카다이프)에 추가 레이어(피스타치오, 초콜릿)를 입혀서 실제로 쓸 수 있는 형태로 만든 거다. 냉동실에서 굳히는 건 모델 최적화나 양자화와 비슷하다. 크기를 줄이고 단단하게 만들어서 실사용에 적합하게 다듬는 과정이니까.

3단계: 마시멜로 반죽 = 사용자 인터페이스

후라이팬에 버터를 녹이고, 마시멜로를 약불에서 천천히 녹인다. 거의 다 녹으면 불을 끄고 탈지분유와 코코아파우더를 넣어 빠르게 섞는다. 이게 쫀득쿠키의 겉 반죽이다.

이 마시멜로 반죽이 **사용자 인터페이스(UI)**다. ChatGPT의 채팅창, Claude의 대화 화면, Ollama의 터미널. 사용자가 실제로 만지고 느끼는 부분. 아무리 속(모델)이 좋아도 겉(UI)이 불편하면 사용자 경험이 떨어지는 것처럼, 마시멜로 반죽이 너무 뜨겁거나 질기면 쿠키 자체가 먹기 힘들어진다.

4단계: 조립 = 서비스 배포

따뜻한 마시멜로 반죽을 얇게 펼쳐서, 냉동된 차가운 소를 중앙에 올리고 감싸서 동그랗게 빚는다. 타이밍이 핵심인데, 반죽이 너무 식으면 딱딱해서 감쌀 수 없고 너무 뜨거우면 소가 녹아버린다.

AI 서비스 배포도 이 타이밍 게임과 같다. 모델(소)과 인터페이스(반죽)를 적절히 조합해서 사용자에게 내놓는 과정. OpenAI가 GPT-4o를 ChatGPT에 올리는 것도, 내가 맥미니에서 Ollama로 Llama를 돌리는 것도 결국 이 조립 단계다.

5단계: 코코아 파우더 코팅 = 브랜딩과 마무리

마지막으로 코코아 파우더를 묻혀 완성. 맛에 직접 영향을 주진 않지만, 이 코팅이 없으면 두쫀쿠답지 않다.

AI 세계에서는 브랜딩과 사용자 경험 마무리에 해당한다. ChatGPT의 깔끔한 디자인, Claude의 사려 깊은 응답 스타일, Ollama의 심플한 CLI. 본질적 성능은 아니지만 사용자가 "이거 좋다"고 느끼게 만드는 마지막 한 끗이다.

카다이프 공장 = 대형 AI 회사

이제 비유의 큰 그림이 보인다.

카다이프를 집에서 직접 뽑아 만드는 사람은 없다. 전문 공장에서 대형 기계로 대량생산해야 우리 손에 닿는 거다. OpenAI, Anthropic, Google 같은 대형 AI 회사가 바로 이 카다이프 공장이다.

이 회사들은 수천 대의 GPU가 깔린 데이터센터에서 초거대 모델을 학습시키고, API라는 주문 창구로 제공한다. "이 질문에 답해줘"라고 보내면 공장에서 답을 만들어 돌려보내는 구조. 우리는 ChatGPT를 쓸 때 이걸 하고 있는 거다.

공장 두쫀쿠의 장단점

장점: 편리하고(가입만 하면 바로), 균일한 품질이고(항상 맛있고), 압도적 스케일이다(개인이 만들 수 없는 수준). 거기에 회사가 알아서 모델을 업그레이드해주니까 신경 쓸 것도 없다.

단점: 비용이 쌓이고(ChatGPT Plus 월 20달러, API는 더), 내 데이터가 회사 서버를 거치고, 서비스가 중단되면 속수무책이고, 맛(응답 스타일)을 내 마음대로 못 바꾼다.

솔직히 ChatGPT Plus 월 20달러일 때는 "뭐..." 싶었는데, API까지 쓰기 시작하면 생각보다 빠르게 불어난다. 개인적으로 Claude 맥스까지 쓰는데 비용이 좀 부담스러워지는 건 사실이다.

맥미니 = 나만의 후라이팬

자, 이제 집에서 직접 두쫀쿠를 만드는 이야기다.

두쫀쿠를 집에서 만들 때 가장 먼저 필요한 건 후라이팬이다. 카다이프를 바삭하게 볶고, 마시멜로를 녹이고, 모든 조리 과정의 중심이 되는 도구. 업소용 장비는 비싸고, 너무 싸구려는 카다이프가 제대로 안 볶아진다. 가성비 좋고, 크기 적당하고, 화력 조절 잘되는 후라이팬이 필요하다.

AI 세계에서 그 후라이팬이 Apple 맥미니다.

맥미니가 로컬 LLM에 딱인 이유

2024년에 나온 M4 맥미니가 로컬 LLM 입문자 사이에서 핫한 데는 이유가 있다.

  • 통합 메모리: Apple Silicon은 GPU와 CPU가 메모리를 공유한다. 16GB~32GB면 꽤 큰 모델도 돌린다
  • 가격: 가장 저렴한 M4 맥미니가 80만 원대
  • 저전력, 저소음: 24시간 켜놔도 전기세 월 몇 백 원, 팬 소음도 거의 없다
  • 손바닥 크기: 12.7cm 정사각형에 AI를 돌리는 로망

후라이팬이 화력 조절이 중요하듯, 맥미니도 GPU/CPU 메모리 분배를 유연하게 조절할 수 있다는 게 핵심이다. 모델 크기에 따라 자원을 알아서 분배하니까.

사실 맥미니 대란 글에서도 다뤘는데, 이번엔 좀 다른 관점으로 풀어본다. OpenClaw 때문에 맥미니 대란이 일어났었는데, 맥미니의 본질적 매력은 "작고 조용하고 싸게 AI를 돌릴 수 있는 후라이팬"이라는 점이다.

레시피 = 오픈소스 모델

후라이팬이 있으면 이제 레시피가 필요하다.

두쫀쿠 레시피가 유튜브랑 블로그에 넘쳐나는 것처럼, AI 모델 레시피도 넘쳐나는 시대다. Meta의 Llama, Mistral AI의 Mistral, Google의 Gemma, Microsoft의 Phi... 세계적인 기업과 연구소가 AI 모델을 무료로 공개하고 있다.

그리고 이 레시피를 초보자도 따라 할 수 있게 해주는 도구가 Ollama다. 두쫀쿠 만들기로 치면, 재료 손질부터 조리까지 단계별로 안내해주는 쿡킷 같은 존재.

# 이게 끝이다. 한 줄이면 내 컴퓨터에서 AI가 돌아간다
ollama run llama3.2

맥미니에 Ollama 깔고 모델 다운받으면 인터넷 없이도 나만의 AI랑 대화할 수 있다. 처음 해보면 "이게 된다고?"하는 감동이 있다.

맥미니에서 돌릴 수 있는 모델들

M4 맥미니 16GB 기준으로 쾌적하게 돌릴 수 있는 모델이다.

모델 크기 특징
Llama 3.2 3B ~2GB 가볍고 빠름. 간단한 대화, 요약용
Phi-4 Mini ~2.5GB MS의 소형 고성능 모델
Mistral 7B ~4GB 균형 잡힌 범용 모델
Llama 3.1 8B ~5GB Meta의 준수한 성능
Gemma 2 9B ~6GB 구글의 오픈소스

32GB 모델이면 70B급도 시도해볼 수 있는데, 이 정도면 일상 용도에서 클라우드 모델과 크게 차이 안 나는 수준이다.

개인적으로 Llama 3.2 3B를 제일 많이 쓰는데, 간단한 요약이나 번역은 이걸로 충분하다. 무거운 작업은 결국 Claude한테 시키게 되지만.

수제 두쫀쿠 vs 공장 두쫀쿠

이제 핵심 비교다.

비용: 오래 먹을수록 수제가 이긴다

항목 로컬 LLM (맥미니) 클라우드 AI
초기 비용 맥미니 80~200만 원 없음
월 비용 전기세 수천 원 월 2~3만 원 (구독)
2년 누적 초기 투자 후 거의 무료 50~70만 원

카페에서 매일 두쫀쿠 사먹는 거(구독)랑, 재료+후라이팬 사서 매일 만들어 먹는 거(로컬)의 차이. 처음에는 카페가 싸 보이지만, 오래 먹을수록 집에서 만드는 게 경제적이다. 두쫀쿠 개당 카페 가격이 5천~8천 원인데, 집에서 만들면 개당 2천 원도 안 든다고 하더라.

프라이버시: 로컬의 압도적 승리

로컬 LLM은 내 데이터가 내 컴퓨터를 절대 벗어나지 않는다. 회사 기밀 문서, 개인 일기, 민감한 코드... 클라우드에 보내기 찝찝한 것들이 있잖아. 로컬이면 걱정 자체가 없다.

두쫀쿠를 집에서 만들면 어떤 재료가 들어가는지 내가 100% 아는 것처럼, 로컬 LLM은 내 데이터가 어디로 가는지 내가 100% 통제한다. 공장 쿠키는 성분표만 믿어야 하지만, 수제는 내가 넣은 게 전부다.

대기업들이 OpenClaw 금지령 내린 것도 결국 이 문제 때문이었다. 회사 코드를 외부 AI에 통째로 보내는 건 아무리 편해도 위험하다.

커스터마이징: 내 입맛대로

두쫀쿠를 집에서 만들면 피스타치오 스프레드 대신 헤이즐넛을 넣든, 화이트 초콜릿을 다크로 바꾸든, 카다이프를 더 바삭하게 볶든 자유다. 공장 제품은 정해진 맛 그대로지만.

로컬 LLM도 마찬가지다. 시스템 프롬프트를 마음대로 바꾸고, 양자화 레벨을 조절하고, 특정 도메인 데이터로 파인튜닝할 수 있다. 나만의 레시피로 나만의 AI를 만드는 거다.

성능: 솔직히 클라우드가 아직 위

GPT-4o나 Claude Opus 같은 최상위 모델은 수천억 파라미터급이라, 맥미니에서 돌리는 7B~13B 모델과는 급이 다르다. 전문 파티시에가 만드는 두쫀쿠와 유튜브 레시피 보고 만드는 두쫀쿠의 차이라고 보면 된다.

근데 모든 작업에 최고 성능이 필요한 건 아니다. 간단한 문서 요약, 번역, 아이디어 브레인스토밍 같은 건 로컬로 충분하다. 매일 먹는 간식에 미쉐린 셰프가 필요하진 않으니까.

당신의 AI 쿠키는?

정리하면 이렇다.

사 먹는 게 나은 사람 (클라우드 AI):

  • AI를 가끔만 쓰는 사람
  • 항상 최고 성능이 필요한 사람
  • 설정 같은 거 건드리기 귀찮은 사람
  • 이미지 생성, 웹 검색 등 부가 기능이 중요한 사람

직접 만드는 게 나은 사람 (로컬 LLM):

  • 데이터 프라이버시가 중요한 사람
  • AI를 매일 많이 쓰는 사람
  • 기술적 세팅을 즐기는 사람
  • 나만의 AI를 커스터마이징하고 싶은 사람
  • 오프라인에서도 AI가 필요한 사람

그리고 솔직히 둘 다 하는 게 최고다. 중요한 작업은 클라우드에 맡기고, 일상 반복 작업이나 민감한 데이터는 로컬로 돌리는 하이브리드 방식. 카페 두쫀쿠도 사먹고 집에서도 만들어 먹는 것처럼.

나도 지금 이 방식이다. 블로그 글 같은 건 Claude한테 맡기고, 개인 문서 정리나 간단한 코드 작업은 로컬 모델로 돌린다. 최적의 조합을 찾는 재미가 있다.

시작해보고 싶다면

  1. 가장 쉬운 첫걸음: Ollama 공식 사이트에서 설치 → ollama run llama3.2 한 줄
  2. 맥미니 없어도 된다: 기존 맥북이나 윈도우 PC에서도 Ollama 돌아간다
  3. 추천 첫 모델: Llama 3.2 3B (가볍고 빠름) 또는 Mistral 7B (균형 잡힌 성능)

두쫀쿠 열풍이 "나도 만들어볼까?"라는 호기심을 불러일으킨 것처럼, AI 세계에서도 "나도 내 컴퓨터에서 AI를 돌려볼까?"라는 도전이 시작되고 있다. 맥미니라는 작은 후라이팬 하나, Ollama라는 쿡킷 하나면 충분하다. 나만의 AI 쿠키를 구워보는 건 어떨까.