노트 피드
한 줄 요약 Mercury 2는 "토큰을 한 글자씩 찍는" 방식이 아니라, 초안을 병렬로 다듬어 수렴시키는 확산(diffusion) 생성으로 실시간에 가까운 추론 속도를 노리는 생산(Production) 지향 LLM이다. Mercury 2는 무엇인가 Mercury 2(머큐리 2)는 Inception Labs가 공개한 확산 기반(dLLM) "추론(reason...
문서 기반 RAG를 PDF에 붙이는 순간, 갑자기 답변 품질이 흔들립니다. 이유는 간단합니다. PDF/스캔 문서는 "텍스트 덩어리"가 아니라 표, 그림, 캡션, 주석, 다단 구성 같은 시각적 단서로 의미가 완성되는 매체라서요. 이 글에서는 왜 기존 OCR+청킹 방식이 자주 실패하는지, 그 빈틈을 ColPali 같은 "비전 문서 검색(Visual RAG)" ...
ColPali가 필요한 배경 (OCR·레이아웃 분해 RAG의 한계) PDF/스캔 문서는 "텍스트만"이 아니라 표, 그림, 캡션, 주석, 다단 레이아웃, 글꼴/강조 같은 시각적 단서로 의미가 완성된다. 그런데 OCR로 텍스트를 뽑아 chunking 하면, 표의 행·열 관계나 그림-캡션 결합 같은 "레이아웃 맥락"이 쉽게 깨진다. 레이아웃 분해 기반 파이프라인...