#The Sunday Prompt #58 – 26/10/2025
Modelli di ragionamento, skills, browser “agentici” e altre novità fanno sempre più riflettere se effettivamente dobbiamo ancora preoccuparci di come formuliamo i nostri prompt.
In poche parole, il prompt engineering è destinato a diventare obsoleto?
La risposta però è di quelle “da avvocato”, ossia più sfumata di quanto sembri.
Una ricerca dell’Università di Stanford e SambaNova Systems (che trovate qua https://arxiv.org/pdf/2510.04618) ci offre spunti per comprendere non solo perché il prompt engineering rimane rilevante, ma come stia evolvendo in qualcosa di ancora più potente.
- L’evoluzione: dai modelli stupidi agli agenti pensanti
- La ricerca ACE: una nuova prospettiva sui contesti
- Il problema del “brevity bias”
- Il fenomeno del “context collapse”
- La soluzione: prompt come “playbook evolutivi”
- I risultati parlano chiaro
- Il dibattito: il prompt engineering è davvero ancora necessario?
- 1. Il prompt engineering non scompare, si evolve
- 2. I modelli di ragionamento amplificano, non sostituiscono
- 3. Il contesto come memoria esterna scalabile
- Perché il prompt engineering è ancora (e sempre più) utile
- 1. La precisione richiede specificità
- 2. L’auto-miglioramento parte da fondamenta solide
- 3. Il costo computazionale premia l’efficienza
- 5. La democratizzazione dell’AI passa per l’interfaccia
- Prompt engineer: da artigiani ad architetti
- BONUS:
L’evoluzione: dai modelli stupidi agli agenti pensanti
Onestamente negli ultimi anni dal lancio di ChatGPT a fine 2022 abbiamo assistito a una trasformazione radicale:
Ieri: l’era del prompt engineering artigianale
- Modelli che necessitavano di istruzioni precise e dettagliate
- La qualità dell’output dipendeva criticamente dalla formulazione del prompt
- Tecniche come few-shot learning, chain-of-thought, e prompt templates erano essenziali
- Ogni task richiedeva un’attenta ingegnerizzazione del prompt
Oggi: modelli di ragionamento e sistemi agentici
- LLM con capacità di ragionamento esteso (come i modelli della famiglia o1 o DeepSeek-R1)
- Sistemi agentici che possono scomporre task complessi autonomamente
- Contesti più lunghi che permettono di fornire documentazione più ampia
- Integrazioni con tool esterni che ampliano le capacità dei modelli
A prima vista, questa evoluzione sembra rendere il prompt engineering assai meno rilevante di quanto lo era prima.
Se il modello “ragiona” autonomamente, se può accedere a strumenti esterni, se comprende contesti di centinaia di migliaia di token… perché preoccuparsi tanto di come formuliamo i prompt?

La ricerca ACE: una nuova prospettiva sui contesti
Una ricerca pubblicata nell’ottobre 2024 da Zhang et al. (Stanford University e SambaNova Systems) offre una risposta a questa domanda.
Il paper infatti non solo dimostra che i contesti (i prompt, in sostanza) rimangono cruciali, ma propone una visione radicalmente diversa di cosa dovrebbero essere.
Il problema del “brevity bias”
La ricerca identifica un problema specifico nelle attuali tecniche di ottimizzazione dei prompt: il brevity bias, ovvero la tendenza a convergere verso prompt brevi e generici. Come scrivono gli autori:
“Molti ottimizzatori di prompt danno priorità a istruzioni concise e ampiamente applicabili rispetto all’accumulo comprensivo di conoscenze. […] Ma tale astrazione può omettere euristiche specifiche del dominio, linee guida sull’uso di strumenti o modalità di fallimento comuni nella pratica.”
In altre parole: nella ricerca della brevità e generalità, perdiamo preziosi dettagli operativi.
Il fenomeno del “context collapse”
Ancora più preoccupante è il context collapse: quando interagiamo più volte nella stessa sessione con un LLM questo tende a comprimere il contesto così ricevuto (ossia l’insieme degli input/output della sessione) in riassunti molto più brevi e meno informativi.
La soluzione: prompt come “playbook evolutivi”
La proposta ACE (Agentic Context Engineering) consiste nel non vedere i prompt come istruzioni statiche da ottimizzare, ma trattarli come entità dinamiche che vengono costruite e raffinate attraverso un processo agentico – ovvero attraverso agenti specializzati che collaborano per migliorare continuamente il contesto.
Il framework introduce un’architettura agentica con tre ruoli specializzati:
- Generator: produce linee di ragionamento
- Reflector: distilla intuizioni concrete da successi ed errori
- Curator: integra queste intuizioni in aggiornamenti strutturati del contesto
Per evitare il context collapse Invece di riscrivere completamente il contesto ad ogni iterazione, ACE usa aggiornamenti delta incrementali – piccole modifiche localizzate che preservano la conoscenza esistente mentre aggiungono nuove intuizioni.
I risultati parlano chiaro
I numeri di questo approccio sono impressionanti:
- +10.6% su benchmark agentici (AppWorld)
- +8.6% su benchmark domain-specific (analisi finanziaria)
- -86.9% di latenza media nell’adattamento
- Su AppWorld, ACE con DeepSeek-V3.1 (modello open-source più piccolo) ha eguagliato le performance dell’agente top-ranked basato su GPT-4.1
Il dibattito: il prompt engineering è davvero ancora necessario?
A questo punto, potremmo obiettare: “Ma ACE automatizza il prompt engineering! Quindi non serve più che lo facciamo noi umani, no?”
Non esattamente. Consideriamo tre prospettive:
1. Il prompt engineering non scompare, si evolve
ACE non elimina il prompt engineering – lo rende più sistematico e scalabile. Qualcuno deve comunque:
- Definire l’architettura del sistema (Generator, Reflector, Curator)
- Strutturare le categorie del playbook
- Definire le metriche di successo
- Guidare il processo di riflessione
In altre parole, passiamo da un prompt engineering manuale e ad-hoc a un prompt engineering sistemico e architetturale.
2. I modelli di ragionamento amplificano, non sostituiscono
I modelli di ragionamento avanzati (o1, DeepSeek-R1, ecc.) non eliminano la necessità di buoni prompt – anzi, li valorizzano. Come emerge dalla ricerca ACE:
“A differenza degli umani, che spesso beneficiano di concise generalizzazioni, gli LLM sono più efficaci quando vengono forniti contesti lunghi e dettagliati così da poter estrarre la rilevanza autonomamente.”
Un modello che “ragiona” meglio può fare un uso migliore di un contesto ricco e ben strutturato. Il ragionamento e il contesto si potenziano a vicenda.
3. Il contesto come memoria esterna scalabile
Con l’allungarsi delle context window (ora parliamo di milioni di token), i contesti diventano una forma di memoria esterna per i LLM. Questo offre vantaggi unici:
- Interpretabilità: possiamo vedere e modificare cosa “sa” il sistema
- Adattabilità: possiamo aggiornare la conoscenza senza riaddestramento
- Portabilità: i contesti possono essere condivisi tra modelli diversi
- Selective unlearning: possiamo rimuovere informazioni obsolete o problematiche
Come scrivono gli autori: “adattare i contesti è generalmente più economico che aggiornare i pesi del modello.”
Perché il prompt engineering è ancora (e sempre più) utile
Alla luce di tutto questo, possiamo identificare almeno cinque ragioni per cui il prompt engineering non solo rimane rilevante, ma diventa ancora più cruciale.
1. La precisione richiede specificità
Più i task diventano complessi e domain-specific, più servono istruzioni dettagliate. I risultati di ACE mostrano miglioramenti particolarmente marcati in domini specializzati come la finanza (+8.6%). Stessa cosa vale per quei contesti verticali come il diritto o particolari ambiti dello stesso.
Non possiamo infatti aspettarci che un modello, per quanto intelligente, “indovini” le sfumature di ogni dominio professionale.
2. L’auto-miglioramento parte da fondamenta solide
Anche i sistemi che si auto-migliorano (come ACE) necessitano di:
- Un prompt iniziale ben strutturato
- Categorizzazioni chiare delle informazioni
- Metriche di valutazione appropriate
- Feedback loops ben progettati
Il prompt engineering diventa meta-engineering: progettare sistemi che possono migliorare i propri prompt.
3. Il costo computazionale premia l’efficienza
Contesti ben progettati riducono:
- Il numero di iterazioni necessarie
- I token generati inutilmente
- La latenza complessiva
- I costi di inferenza
Come dimostra ACE: -82.3% di latenza e -75.1% di rollouts rispetto a metodi baseline.
4. La human-in-the-loop governance
In applicazioni critiche (healthcare, finance, legal), vogliamo mantenere il controllo su:
- Cosa il sistema “sa”
- Come ragiona
- Quali euristiche applica
- Come gestisce casi limite
Il prompt engineering esplicito offre questo livello di governabilità che sarebbe impossibile con sistemi completamente opachi.
5. La democratizzazione dell’AI passa per l’interfaccia
Per gli utenti non tecnici, il modo in cui interagiamo con l’AI determina chi può beneficiarne. Prompt ben progettati, template riusabili, e interfacce intuitive sono la differenza tra AI accessibile e AI riservata agli esperti.
Il prompt engineering è quindi anche un problema di UX e accessibilità.
Prompt engineer: da artigiani ad architetti
Quindi, serve ancora il prompt engineering? La risposta è un deciso sì, ma con una cruciale evoluzione nel come lo concepiamo.
Non stiamo più parlando dell’arte artigianale di craftare il prompt perfetto attraverso tentativi ed errori. Stiamo parlando di:
- Architettura dei contesti: progettare strutture che possano crescere ed evolversi
- Engineering sistemico: creare framework che permettano auto-miglioramento controllato
- Knowledge curation: sviluppare playbook ricchi e organizzati piuttosto che istruzioni minimaliste
- Governance adattiva: mantenere supervisione umana su sistemi che si auto-ottimizzano
Il paper sul framework ACE ci insegna qualcosa a proposito: i modelli più potenti non eliminano la necessità di buona interazione – la trasformano in un moltiplicatore di capacità. Un modello avanzato con un contesto povero sottoperforma; lo stesso modello con un contesto ricco e ben strutturato eccelle.
Happy Prompting!
BONUS:
Se tutto questo vi sembra troppo complicato e volete qualcosa di rapido per ottimizzare i vostri prompt vi consiglio di usare il Prompt Optimizer di OpenAI.
Basta inserire il prompt di partenza, selezionare in alto a sinistra il modello che volete utilizzare e questo comodo tool vi fornisce in output il testo del prompt perfetto per quel modello (ovviamente per GPT). E vi mostra anche i passo che compie per ottimizzarlo.
