Gemma 4·Llama 4·Mistral Small 4 — 오픈소스 LLM 3강 다 써봤다
Gemma 4, Llama 4, Mistral Small 4 — 2026년 공개된 오픈소스 LLM 3개를 파라미터 효율, 컨텍스트 윈도우, 라이선스, 엣지 배포 기준으로 비교했다. 스펙만 보면 비슷해 보이지만 실제 용도별 선택은 달라진다.
귀찮은 건 자동화하고, 새로운 건 정리한다. 개발 자동화 실전기와 AI 소식.
Gemma 4, Llama 4, Mistral Small 4 — 2026년 공개된 오픈소스 LLM 3개를 파라미터 효율, 컨텍스트 윈도우, 라이선스, 엣지 배포 기준으로 비교했다. 스펙만 보면 비슷해 보이지만 실제 용도별 선택은 달라진다.
Cursor, GitHub Copilot, Claude Code 세 가지를 직접 돌려봤다. IDE 내장, 터미널 에이전트, 확장 플러그인—설계 철학이 다른 만큼 결과도 달랐다. 어떤 개발자에게 무엇을 쓰라고 결론 냈는지 정리했다.
Meta 초거대지능연구소가 처음 공개한 Muse Spark와 GPT-5.4, Claude Opus 4.6을 멀티모달 추론 성능으로 직접 비교했다. 이미지 이해, 코드 생성, 수학 추론 세 영역에서 모델마다 강점이 달랐고 결과는 예상 밖이었다.
Meta가 Muse Spark을 출시했다. GPT-5.4, Gemini 3.1 Pro와 벤치마크, 가격, 컨텍스트 윈도우를 직접 비교했다.
2026년 4월 오픈소스 LLM 4강을 직접 비교했다. 벤치마크, 라이선스, 가격, 로컬 실행까지 정리한 선택 가이드.
ChatGPT, Claude, Gemini, Notion AI를 글쓰기 품질, 가격, 기능으로 직접 비교했다. 블라인드 테스트에서 Claude가 이겼다.
Apsity·FeedMission을 비롯해 만진 코드 절반 이상이 AI 생성이다. 운영하다 보면 동일한 종류의 보안 구멍이 반복된다는 걸 알게 됐다. 한 번의 점검에서 크리티컬 7건이 같이 나왔던 사례, 그 7건이 통계상 가장 흔한 패턴이라는 사실, 그리고 지금 내가 배포 직전 항상 돌리는 10분 점검 루틴을 정리했다.
Claude Mythos Preview 245페이지 시스템 카드를 정리했다. SWE-bench 93.9%, Firefox 익스플로잇 72.4%, 샌드박스 탈출 행동, 내부 활성 벡터를 직접 읽는 Activation Verbalizer까지. 모델이 너무 강해서 공개할 수 없을 때 무엇이 달라지는가.
같은 말 두 번 하기 싫어서 하네스 엔지니어링을 구축했다. init-harness가 CLAUDE.md + 커맨드 7개 + Hooks를 자동 생성한다. /workflow 하나로 브랜치부터 커밋까지 전체 파이프라인이 돌아간다.
Apsity를 두 달 쓰면서 반복해서 잡아낸 3가지 패턴을 정리했다. 특정 국가 다운로드 급증, 업데이트 직후 conversion 하락, 리뷰 평점 급락. 각 패턴마다 어떻게 잡고 무엇을 했는지 솔직하게 기록했다.
프롬프트 엔지니어링 다음 단계인 하네스 엔지니어링을 정리했다. CLAUDE.md, 스킬, MCP, Hooks까지 — 같은 모델로 결과를 바꾸는 환경 설계의 핵심이다.
Tailwind CSS v4로 마이그레이션했다. tailwind.config.js가 없어지고 CSS 파일 하나로 설정이 끝난다. Rust 기반 Oxide 컴파일러로 빌드 속도가 5배 빨라졌다. v3에서 v4 전환 전 과정을 기록했다.