Context & Memorie
Context window, memorie persistentă, RAG. De ce „uită” modelul.
- Înțelegi ce e un context window și cum se umple
- Știi diferența între memorie pe termen scurt și lung
- Înțelegi conceptual ce e RAG
Modelele nu „țin minte” conversațiile. De fiecare dată când le scrii, recitesc TOT ce a fost spus — până la limita ferestrei. Ce e dincolo de fereastră, dispare.
Cum „vede” un model o conversație
Imaginează-ți context window-ul ca un sul de hârtie cu lungime fixă. Fiecare mesaj nou e scris la coadă. Când sulul se umple, se taie de la cap — primele mesaje cad și sunt uitate definitiv.
[ uitat ] ←── în afara ferestrei
┌───────────────────────────────────────────┐
│ Mesaj 1: setup proiect ── cade │
│ Mesaj 2: cerințe ── cade │
├───────────────────────────────────────────┤
│ Mesaj 23: clarificare login │
│ Mesaj 24: discuție validări │ ← context window
│ Mesaj 25: ultimul mesaj (acum) │ (ce VEDE modelul)
└───────────────────────────────────────────┘Mărimi tipice de context window
- GPT-4 standard: ~128K tokens (~96.000 cuvinte EN)
- Claude Sonnet: 200K tokens, opțional 1M
- Gemini 1.5: până la 1M tokens
- Pentru perspectivă: 200K tokens ≈ o carte de 500 de pagini.
Memorie persistentă (în afara conversației)
Unele tool-uri AI (Claude Code, ChatGPT cu memory, Cursor) au o „memorie externă” — fișiere în care își scriu fapte despre tine sau proiect, ca să le re-citească la conversațiile viitoare.
- Memorie scurtă = context window-ul curent. Se șterge când închizi conversația.
- Memorie lungă = fișiere persistente (ex:
MEMORY.md,CLAUDE.md). Sunt încărcate la fiecare conversație nouă.
RAG — când contextul nu încape
RAG = Retrieval-Augmented Generation. Pe românește: în loc să trimiți toată documentația în prompt (nu încape), o stochezi într-o bază de date specială și — la fiecare întrebare — extragi DOAR fragmentele relevante și le adaugi în context.
Ai o conversație de 30 de mesaje cu un model care are context window 200K. La mesajul 31, modelul „uită” complet primele 5 mesaje. De ce?