Cluj-Napoca · 4 iunie 2026
Andrei Ologu
Consultanță IT & Automatizare — de la strategie la execuție
AI pentru Business Analyst
Modul 3 · 15 min

Context & Memorie

Context window, memorie persistentă, RAG. De ce „uită” modelul.

Vei învăța
  • Înțelegi ce e un context window și cum se umple
  • Știi diferența între memorie pe termen scurt și lung
  • Înțelegi conceptual ce e RAG

Modelele nu „țin minte” conversațiile. De fiecare dată când le scrii, recitesc TOT ce a fost spus — până la limita ferestrei. Ce e dincolo de fereastră, dispare.

Cum „vede” un model o conversație

Imaginează-ți context window-ul ca un sul de hârtie cu lungime fixă. Fiecare mesaj nou e scris la coadă. Când sulul se umple, se taie de la cap — primele mesaje cad și sunt uitate definitiv.

   [ uitat ]    ←── în afara ferestrei
  ┌───────────────────────────────────────────┐
  │  Mesaj 1: setup proiect          ── cade  │
  │  Mesaj 2: cerințe                ── cade  │
  ├───────────────────────────────────────────┤
  │  Mesaj 23: clarificare login              │
  │  Mesaj 24: discuție validări              │  ← context window
  │  Mesaj 25: ultimul mesaj (acum)           │     (ce VEDE modelul)
  └───────────────────────────────────────────┘
Ce iese din fereastră, modelul nu mai poate referenția — chiar dacă pentru tine „a fost spus deja”.

Mărimi tipice de context window

  • GPT-4 standard: ~128K tokens (~96.000 cuvinte EN)
  • Claude Sonnet: 200K tokens, opțional 1M
  • Gemini 1.5: până la 1M tokens
  • Pentru perspectivă: 200K tokens ≈ o carte de 500 de pagini.

Memorie persistentă (în afara conversației)

Unele tool-uri AI (Claude Code, ChatGPT cu memory, Cursor) au o „memorie externă” — fișiere în care își scriu fapte despre tine sau proiect, ca să le re-citească la conversațiile viitoare.

  • Memorie scurtă = context window-ul curent. Se șterge când închizi conversația.
  • Memorie lungă = fișiere persistente (ex: MEMORY.md, CLAUDE.md). Sunt încărcate la fiecare conversație nouă.

RAG — când contextul nu încape

RAG = Retrieval-Augmented Generation. Pe românește: în loc să trimiți toată documentația în prompt (nu încape), o stochezi într-o bază de date specială și — la fiecare întrebare — extragi DOAR fragmentele relevante și le adaugi în context.

Mini-check

Ai o conversație de 30 de mesaje cu un model care are context window 200K. La mesajul 31, modelul „uită” complet primele 5 mesaje. De ce?

Selectează un răspuns.