#The Sunday Prompt #57 – 20/9/2025
Giovedì 17/9 si è tenuta una sfida molto particolare: tre prompt, tre piattaforme tra le più conosciute (ChatGPT, Gemini, Claude) e un benchmark dal vivo sulla qualità delle risposte a quesiti legali.

I Legal Hackers Roma hanno voluto lanciare questa sfida, valutare dal punto di vista legale gli LLM più utilizzati e capire se veramente ci si può affidare a quello che rispondono, in un incontro dal vivo molto partecipato.Non solo. Ad ogni risposta è stato anche chiesto il “livello di confidenza” che il sistema aveva sulla risposta stessa, chiedendo di effettuare nuove valutazioni qualora tale livello fosse stato al di sotto della soglia pari ad 80%.
I criteri adottati per decretare il vincitore, e la relativa classifica, suggeriti da Claudia Morelli, sono stati i seguenti:
- correttezza scientifica;
- correlazione logica;
- indicazione delle fonti;
- livello di argomentazione.
Al termine del nostro incontro, dopo aver esaminato e commentato tutte le risposte ai vari quesiti, si è proceduto con la votazione anche con il pubblico presente, determinando così il vincitore e la capacità di ogni LLM di poter affrontare le questioni giuridiche.
Vediamo com’è andata.
I quesiti e le risposte
I quesiti sono stati selezionati in tre ambiti: privacy, copyright e diritto commerciale.
Ognuno dei tre quesiti è stato sottoposto a tutti i sistemi AI oggetto di valutazione e poi si è proceduto a valutare le risposte.
Il primo quesito (privacy) suggerito da Sergio Aracu
il consenso di entrambi i genitori se conformemente prestato risulta valido per autorizzare un asilo a pubblicare sul proprio sito le foto dei minori con finalità promozionali
Come si può vedere il quesito affronta anche una tematica recentemente messa in evidenza dal Garante per la protezione dei dati personali.
Tutti e 3 i sistemi (ChatGPT, Claude e Gemini) nelle prime risposte hanno citato erroneamente l’art. 8 GDPR (che riguarda il consenso dei minori ma solo nell’ambito dei servizi online). Successivamente il prompt è stato leggermente modificato, chiedendo di escludere l’ambito dei social network, ma sia Gemini sia ChatGPT hanno continuato a richiamare l’art. 8 sopra citato.
Nel complesso la risposta “migliore” è stata considerata quella fornita da Claude, sia per quanto riguarda l’analisi e la correlazione logica sia con riferimento alle fonti prese in considerazione.
Da notare che tutti e 3 i modelli alla richiesta del livello di confidenza hanno risposto con una percentuale tra 85% e 90% e ciò desta preoccupazione soprattutto per quei modelli le cui risposte erano comunque vaghe e poco affidabili.
Il secondo quesito (copyright) suggerito da Marco Scialdone
Anche per il secondo quesito il comportamento non si è discostato di molto rispetto al primo.
Ai sistemi generativi è stato richiesto:
Vorrei addestrare un modello AI con la mia personale biblioteca. Sono tutti libri a cui ho legittimamente accesso. Alcuni sono in formato digitale, altri sono in formato cartaceo e provvederò a scansionarli per creare copie digitali. Posso farlo o violo i diritti d'autore che insistono su queste opere?
Le risposte sul punto sono state molto differenti. Mentre quella di ChatGPT è risultata assai generica e di poca utilità per un avvocato che debba affrontare tale questione, Claude ha fornito un maggior dettaglio citando analiticamente le fonti prese in considerazione.
Gemini dal canto suo è stato l’unico tra i tre sistemi a introdurre il concetto di “pubblico dominio” specificando anche tale elemento tra quelli da prendere in considerazione.
Anche in tale caso il “livello di confidenza” delle risposte è stato dichiarato tra 85% e 90%.
Il terzo quesito (diritto commerciale) suggerito da Massimiliano Nicotra
Il terzo quesito era maggiormente strutturato rispetto ai primi due.
Volendo si trattava di un quesito “trabocchetto” fatto apposta per vedere se il sistema avrebbe inserito l’elemento che viene richiesto per la validità della clausola contrattuale.
E’ stato quindi richiesto:
Sei un esperto di diritto commerciale italiano. scrivi una clausola da inserire in un contratto di investimento con cui viene conferita un'opzione call al compratore sulle partecipazioni del venditore, opzione da esercitarsi entro due anni dall'originario trasferimento delle partecipazioni ad un prezzo pari a quello di vendita originario a cui si aggiunge un sovrapprezzo commisurato al valore originario di vendita pari al 25% dell'eventuale incremento del fatturato. Tieni in considerazione la normativa italiana ed i limiti che sono previsti per la validità del patto di opzione.
Sostanzialmente si trattava di inserire una clausola relativa a un diritto di opzione.
Da notare che tutti e 3 i sistemi non si sono limitati a predisporre una sola clausola, bensì hanno predisposto un vero e proprio “accordo di opzione” prevedendo anche altre clausole a contorno della stessa (ad esempio quella del foro competente).
In questo caso l’unico sistema che ha dato una risposta corretta è stato Claude, mentre sia Gemini sia ChatGPT non hanno inserito alcuna previsione relativa al corrispettivo del diritto di opzione.
Anche in tal caso il livello di confidenza è stato dichiarato superiore all’85% da tutti e 3 LLM.
La votazione
Nell’incontro si è dibattuto molto sulla qualità giuridica delle risposte.
Al termine i partecipanti hanno avuto modo di esprimere il loro giudizio sui 4 parametri che erano stati individuati.
Il risultato è stato il seguente:
- correttezza scientifica: vincitore Claude
- correlazione logica: vincitore Claude
- indicazione delle fonti: vincitore Gemini
- livello di argomentazione: vincitore Claude
Il modello di Antrophic, quindi, emerge come il vincitore, mentre Gemini si è distinto per la ricchezza di citazioni delle fonti (ma d’altronde visto che è di Google non poteva essere diversamente).
Grande sconfitta per ChatGPT, che il più delle volte ha fornito risposte generiche sostanzialmente inutilizzabili.
Considerazioni finali
Il nostro “benchmarking umano” ci ha consentito di testare sul campo l’attendibilità degli LLM generalisti nel campo del diritto.
Dai risultati, a prescindere dal vincitore, emerge in maniera evidente che siamo ancora ben lontani da sistemi di intelligenza artificiale che possano “sostituire” gli avvocati (che quindi possono dormire (per ora) sonni tranquilli), ma, d’altro canto, non si può non evidenziare il fatto che alcuni di essi (soprattutto Claude) forniscono comunque dei contenuti che in mani esperte e professionali possono costituire delle buoni basi di partenza per svolgere il lavoro.
Insomma, sempre di più vale l’affermazione per cui “L’intelligenza artificiale non sostituirà gli avvocati, ma gli avvocati che usano l’intelligenza artificiale sostituiranno quelli che non la usano”.
Ciò che stupisce di più è l’assoluta inaffidabilità del “test di confidenza” in cui si chiede al sistema AI di dichiarare quanto è confidente nella risposta che sta fornendo, dato che per tutte le risposte date, anche quelle nettamente errate, tutti i sistemi hanno comunque evidenziato una confidenza superiore all’85% (avendo noi fissato un limite al 80% per considerare pertinente la risposta).
Il suggerimento, quindi, non può che essere quello di verificare sempre le risposte che vengono fornite, utilizzare questi strumenti come redattori di “prime bozze” ed utilizzare la nostra capacità, esperienza e cultura professionale per arricchire, validare e soprattutto valutare i contenuti che ci propongono.
Un ringraziamento speciale va agli organizzatori dell’evento che hanno dato il loro contributo Claudia Morelli, Benedetta Podestà, e agli amici Sergio Aracu e Marco Scialdone che hanno avuto l’idea originaria.
Un ringraziamento anche agli altri organizzatori dei Legal Hackers Roma (Daria Alessi, Daniela Cavallaro, Beatrice Piletti ed Emidio Paone) a tutti quelli che hanno partecipato all’incontro discutendo e valutando insieme a noi i risultati.
Happy Prompting!

