wislan 블로그 - TILNOTE

Search

노트 피드

공개 노트

인기순

전체

karpathy/autoresearch: 단일 GPU에서 AI 에이전트가 자율로 LLM 실험을 반복하는 방법

핵심 요약 autoresearch는 "5분짜리 훈련 실험"을 자동으로 반복하며 더 나은 모델을 찾게 하는, 단일 GPU용 미니 LLM 연구 자동화 레포입니다. 사람은 Python 코드를 직접 고치기보다 program.md로 에이전트를 "운영"하고, 에이전트는 train.py를 수정·학습·평가·채택/폐기까지 수행합니다. 비교 기준은 컴퓨팅 환경과 무관하게 공...

wislan

Claude Cowork 사용법 정리

Cowork 개요 Cowork는 Claude Desktop 안에서 "목표(Outcome)를 주면 스스로 여러 단계를 처리해 결과물을 만들어주는" 작업 모드다. 대화 한 번에 답만 내놓는 방식이 아니라, 작업을 쪼개 계획을 세우고, 필요한 실행을 거쳐, 최종 산출물(문서/정리된 파일/분석 결과 등)까지 이어서 완주하는 쪽에 가깝다. 핵심은 터미널을 열지 않아...

wislan

Qwen3.5 최신 정보: 알리바바 멀티모달 에이전트형 AI 모델 분석

개요 Qwen 3.5(Qwen3.5)는 알리바바 클라우드(Alibaba Cloud)의 Qwen 팀이 공개한 차세대 대규모 언어 모델(LLM) 계열이다. 이번 세대는 "에이전트(Agentic) 작업"과 "네이티브(통합) 멀티모달(텍스트·이미지·비디오)"을 중심 가치로 내세우며, 모델 자체를 내려받아 운영할 수 있는 오픈 웨이트 모델과, 알리바바 클라우드가 운...

wislan

LoRA 학습 서비스 선택 튜토리얼(로컬·GPU대여·SaaS)

목적 LoRA를 학습시키려면 어떤 서비스를 써야 하는지 빠르게 결정하고, 선택한 경로로 바로 실행할 수 있게 정리한다. 3가지 방식 요약(선택 가이드) 로컬 PC 학습은 통제력이 가장 높다. NVIDIA GPU가 필요하고(대략 VRAM 8~12GB 이상 권장), 보통 kohyass(GUI)나 sd-scripts로 학습한다. 데이터가 내 PC에 머물러 유출 ...

wislan

Claude Opus 4.6 오늘 출시: 1M 컨텍스트, 에이전트 코딩, 그리고 '바이브 워킹'의 시작

오늘(2/5) Anthropic이 Claude Opus 4.6를 공식 출시했다. 이번 업데이트의 핵심은 "코딩을 더 잘함"을 넘어, "일을 오래 맡겨도 끝까지 해내는 쪽"으로 확실히 방향을 틀었다는 점이다. Anthropic이 말하는 다음 단계는 'vibe coding'의 확장판인 'vibe working'이다. 아이디어를 던지면, 사람은 방향만 잡고 AI...

wislan

AWS Lightsail VPS에 OpenClaw 설치하고 Discord로 연결하기 (실전 튜토리얼)

개요 OpenClaw는 "채팅 앱(Discord 등) + LLM(API 키) + 내 서버의 파일/명령 실행/브라우저 제어"를 한 덩어리로 묶어, 계속 켜져 있는 개인 에이전트처럼 동작하게 만드는 오픈소스 런타임이다. 메시지를 받으면 게이트웨이가 라우팅하고, 에이전트가 판단해 스킬(도구 호출, 파일 읽기/쓰기, 커맨드 실행 등)을 실행한다. VPS에서 돌릴 ...

wislan

Gemini 3 Flash의 Agentic Vision 정리: 스타트업을 위한 핵심 개념

핵심 요약 Agentic Vision은 이미지를 한 번에 "찍고 끝내는" 방식이 아니라, 스스로 확대·분석·계산하는 능력을 추가해 비전 정확도를 끌어올리는 기능입니다. Python 코드 실행을 통해 이미지 조작과 계산을 자동으로 돌리며, 대부분의 비전 벤치마크에서 5~10% 품질 향상을 보입니다. Agentic Vision이란 무엇인가 기존 멀티모달 모델은...

wislan

Gemini 3 Agentic Vision(=Gemini 3 Flash) 개념 및 핵심 기...

Gemini 3 Agentic Vision(=Gemini 3 Flash) 개념 및 핵심 기능 요약

개요 Agentic Vision은 Gemini 3 Flash의 이미지 이해 방식을 "한 번 보고 답하기"에서 "조사해서 확인하고 답하기"로 바꾸는 기능이다. 핵심은 모델이 에이전트처럼 계획을 세우고, 도구를 호출해(현재는 특히 파이썬 코드 실행) 이미지를 단계적으로 조작·분석하면서, 픽셀 수준의 시각적 증거에 근거(grounding)해 답을 만든다는 점이다...

wislan

Gemini 3 Agentic Vision(=Gemini 3 Flash) 개념 및 핵심 기...

피터슈타인 베르거 Peter Steinberger (OpenClaw 제작자)

한줄 요약 로컬에서 돌아가는 오픈소스 자율형 개인 비서 OpenClaw를 "개인 사이드 프로젝트"로 폭발적으로 키워낸 오스트리아 출신 엔지니어이자 PSPDFKit 창업가. 기본 소개 Peter Steinberger는 오스트리아 출신 소프트웨어 엔지니어/창업가로, 개발자 도구 기업 PSPDFKit을 창업해 키운 인물로 알려져 있다. 2025년 말에는 로컬 실...

wislan

DeepSeek-OCR 2: 스타트업을 위한 고성능 문서 OCR 엔진 이해하기

핵심 요약 DeepSeek-OCR 2는 이미지·PDF 문서를 마크다운 등 구조화 텍스트로 변환해주는 시각·언어 통합 OCR 모델이다. vLLM과 Hugging Face Transformers 두 방식으로 추론을 지원하며, 대량·실시간 문서 처리 워크플로에 바로 붙이기 좋은 형태로 설계되어 있다. 단순 문자 인식이 아니라 레이아웃과 구조까지 최대한 보존하는 ...

wislan

Vim 에디터(Vi Improved) 빠른 안내서

Vim이 무엇이고 왜 쓰나 Vim은 터미널에서 강력하게 동작하는 텍스트 에디터로, Vi를 확장한 "Vi Improved"이다. 마우스 없이 키보드 중심으로 빠르게 편집하고, 원격 서버(SSH)에서도 가볍게 쓸 수 있으며, 플러그인과 설정으로 개발 환경까지 확장할 수 있다. 처음엔 낯설지만, 손에 익으면 "이동-편집-반복"이 매우 빨라진다. nano와 Vim...

wislan

스즈키 유(鈴木裕, Yu Suzuki) -- SEGA 게임 개발자 정리

한줄 소개 1980~90년대 SEGA 아케이드의 '체감형 게임'과 3D 폴리곤 혁신을 대표하며, 《Virtua Fighter》와 《Shenmue》로 장르의 표준을 바꾼 게임 디자이너·프로듀서다. 주요 경력 개요 스즈키 유는 1980년대 초 SEGA에 합류해 아케이드 개발 현장에서 빠르게 두각을 드러냈고, 이후 SEGA의 대표 아케이드 개발 조직인 AM2에서...

wislan

Qwen3-ASR: 다국어 음성 인식 모델 기능 및 라인업 총정리

Qwen3-ASR: 다국어 음성 인식 모델 기능 및 라인업 총정리

개요 Qwen3-ASR은 Qwen3-Omni 기반의 음성 인식(ASR) 모델/서비스 라인으로, 다국어 인식, 스트리밍/오프라인 통합 추론, 복잡한 소음 환경 대응, 그리고 가창(노래) 음성 전사 같은 실제 서비스 지향 기능을 강조한다. 2025년에는 API 형태의 Qwen3-ASR-Flash가 소개되었고, 2026년에는 Qwen3-ASR-1.7B/0.6B ...

wislan

Qwen3-ASR: 다국어 음성 인식 모델 기능 및 라인업 총정리

Moltbot 보안 이슈와 대응 방안: 로컬 AI 에이전트 위험 분석

개요 Moltbot(이전 명칭 Clawd Bot)은 로컬에서 실행되는 오픈소스 AI 에이전트로, "Lobster" 워크플로 셸이 제공하는 에이전틱 루프(agentic loop)를 기반으로 목표를 받아 스스로 계획을 세우고 도구를 조합해 실행하는 성격이 강하다. WhatsApp, Telegram 같은 메시징 앱을 통해 운영되는 형태도 알려져 있으며, 실사용 ...

wislan

React Hooks 종류별 정리

Hooks 한 줄 정의 React Hooks는 함수 컴포넌트에서 state, effect(부작용), context 등 React 기능을 "클래스 없이" 쓰게 해주는 API입니다. Hooks는 "종류(카테고리)"로 묶어 이해하면, 어떤 문제를 어떤 Hook으로 푸는지 빠르게 감이 잡힙니다. State Hooks State Hooks는 컴포넌트가 사용자 입력 ...

wislan

2026년 AI 트렌드 종합 정리: 에이전트, 인프라, 버블, 주권까지

개요 2026년의 인공지능은 '새로운 모델' 경쟁보다, 사람·시스템·경제 전반에 어떤 실제 가치를 내는지가 핵심 화두가 될 것으로 전망된다. 여러 연구소와 기업, 대학 전문가들은 공통적으로 "실험의 시대에서, 평가와 효용의 시대로 넘어간다"고 진단한다. 기업과 정부는 더 이상 "AI가 할 수 있는가?"가 아니라 "얼마나 잘, 어떤 비용으로, 누구에게 이익과...

wislan

SERA 오픈 소스 코딩 에이전트 완벽 가이드

개요 SERA(Soft-Verified Efficient Repository Agents)는 앨런 연구소(AI2)가 공개한 오픈 소스 코딩 에이전트로, 특정 코드 저장소(레포지토리)에 특화된 자동 버그 수정·PR 생성 작업을 수행하도록 설계된 시스템이다. 대형 폐쇄형 모델 기반 코딩 에이전트가 보편화되는 가운데, SERA는 "저렴한 비용으로 내 코드베이스에...

wislan

MCP Apps: 에이전트 대화 속 UI 확장을 한 번에 이해하기

핵심 요약 MCP Apps는 텍스트 위주의 에이전트 대화에 대시보드, 폼, 뷰어 같은 웹 UI를 그대로 끼워 넣을 수 있게 하는 공식 확장입니다. 하나의 오픈 표준으로 만들어져 Claude, ChatGPT, VS Code 등 여러 클라이언트에서 같은 코드를 재사용할 수 있고, 보안과 샌드박스 모델도 함께 정의되어 있습니다. 스타트업 입장에서는 "한 번 만들...

wislan

MCP App 퀵스타트: Tool + UI로 만드는 첫 MCP 애플리케이션

핵심 요약 MCP App은 "서버의 Tool"과 "iframe 안에서 뜨는 UI(View)"를 한 세트로 묶어 쓰는 형태입니다. 이 튜토리얼은 Node/TypeScript + MCP SDK + Vite로, 서버 시간을 보여주는 아주 단순한 MCP App을 만드는 전 과정을 설명합니다. 스타트업 환경에서는 이 패턴을 익혀두면, LLM 안에 붙는 작은 유틸리티...

wislan

MCP Apps 출시: 대화 속 AI 답변이 ‘조작 가능한 UI’가 된다

MCP Apps는 Model Context Protocol(MCP)의 첫 공식 확장으로, AI가 텍스트로만 답하던 방식을 바꿔 “대화 안에서 바로 만지고 조작하는 화면”을 띄울 수 있게 해줍니다. 한 줄 요약을 넘어, 대시보드에서 필터를 눌러보고, 양식을 채우고, 그래프를 드래그하는 식으로 사용자가 직접 탐색하는 흐름을 대화에 붙여 넣는 개념이에요. 이번 ...

wislan