L’integrazione delle banche dati con l’intelligenza artificiale / Giovanni Guidi*, Cosimo Tommasi
Numero 2 2025 • ANNO XLVI
*Data Scientist presso ANCI Emilia-Romagna
** Funzionario presso la Direzione generale dell’Assemblea legislativa della Regione Emilia-Romagna
1. SAVIA: un progetto open source gestito in ambito pubblico
A partire dal 2023 l’Assemblea legislativa della Regione Emilia-Romagna ha intrapreso un percorso di sperimentazione in ambito tecnologico per applicare modelli di intelligenza artificiale alle proprie attività. La sperimentazione è frutto della collaborazione con il CINECA, l’Università di Bologna, l’Università di Ferrara e Unioncamere Emilia-Romagna.
Il progetto nasce sotto la spinta dei recenti sviluppi tecnologici nel campo dei Large Language Models (di seguito: LLM), ossia algoritmi di intelligenza artificiale, molti dei quali sotto licenza open-source, in grado di estrarre informazioni da testi e documenti e rispondere a domande specifiche tramite interazioni in linguaggio naturale. L’affermarsi di tali modelli di intelligenza artificiale ha aperto nuovi scenari sull’uso di tecnologie a supporto delle pubbliche amministrazioni e, in particolare modo, delle organizzazioni che fanno largo uso di documenti testuali nello svolgimento delle loro funzioni[1].
Attualmente risultano disponibili diverse famiglie di LLM open-source, quali i modelli della serie Mistral (Mistral AI), Llama (Meta), Qwen (Alibaba Cloud), PaLM (Google), Falcon (Technology Innovation Institute) e recentemente DeepSeek.
Nell’ottica di un progressivo e condiviso obiettivo di innovazione anche tecnologica dell’Assemblea legislativa regionale, il progetto SAVIA ha testato e adattato alcuni di questi modelli open-source – e in particolare i modelli Mistral-7B-Instruct-v0.2, Mixtral-8x7B, Llama-3.1-8B-Instruct, Llama-3.1-405B-Instruct, Llama-3.3-70B-Instruct, Qwen2.5-VL-7B-Instruct – in un contesto tutto pubblicistico, attraverso il lavoro di un Gruppo di lavoro composto da risorse specializzate sia sul profilo giuridico che informatico. La sinergia tra esperti giuridici e informatici, interni alle pubbliche amministrazioni, ha comportato un innovativo intreccio di competenze che potrà avere un impatto anche sul profilo strettamente organizzativo interno[2].
Gli LLM sono stati scelti tra quelli disponibili open-source, verificandone la capacità di comprendere e generare risposte in lingua italiana. I modello considerati nel progetto SAVIA appartengono tutti alla recente categoria degli LLM multilingua, ossia modelli allenati su dataset che contengono testi in differenti lingue (nell’ordine di 5 -10), garantendo così buone prestazioni su lingue diverse.
2. Ambito di sperimentazione: qualità dell’attività legislativa e produzione di effetti
Il primo aspetto da chiarire è l’ambito di sperimentazione (e quindi di applicazione) dei modelli di intelligenza artificiale nel progetto SAVIA.
Gli ambiti di riferimento sono quelli della qualità della legislazione regionale e della valutazione degli effetti prodotti dalla stessa attività legislativa. A tal proposito, occorre anzitutto fare due precisazioni: da un lato, SAVIA non si inserisce nel processo legislativo nel senso che non attiene, ad oggi, alla fase realizzativa della normativa regionale; dall’altro, SAVIA non impatta sul processo decisionale amministrativo.
Senza mettere in discussione i tradizionali strumenti di verifica e controllo[3], SAVIA si inserisce sia nel solco della qualità della legislazione «intesa (…) come individuazione di tecniche normative chiare e interventi legislativi fattibili, in grado di essere implementati successivamente alla loro entrata in vigore»[4]; che in quello connesso della «valutazione delle politiche, intesa come generale e rinnovata forma di controllo delle Assemblee elettive sull’azione degli Esecutivi in relazione alla concrete modalità di gestione delle priorità di azione politica»[5].
Intorno al concetto di qualità legislativa si è sviluppato un primo filone di SAVIA. In particolare, la sperimentazione ha riguardato l’uso di intelligenza artificiale al fine di migliorare l’applicazione delle regole di drafting normativo (collocandosi quindi nel solco della qualità “formale”)[6].
Rispetto all’ambito di valutazione delle politiche, il secondo filone di sviluppo di SAVIA si è posto l’obiettivo di realizzare uno strumento che – attraverso l’elaborazione dei dati con l’IA – fosse in grado di fornire output sugli effetti prodotti dalla legislazione regionale. È questo sicuramente l’obiettivo più ambizioso del progetto che si proietta ad avere una ricaduta pratica sia verso l’interno, sull’acquisizione di informazioni per i consiglieri regionali ed i funzionari pubblici, sia verso l’esterno, per restituire ai cittadini una fotografia chiara e completa su quanto prodotto con l’attuazione della normativa regionale[7].
Questa parte del progetto è certamente complessa. L’opera di valutazione, di per sé, implica non solo un completo quadro conoscitivo, ma anche un processo di ricerca ed interpretazione necessariamente umano. Pertanto, nell’ottica di un progressivo avvicinamento all’obiettivo dell’uso della tecnologia a supporto della valutazione, la “fase 0” è stata quella di raggiungere l’integrazione delle banche dati regionali con l’intelligenza artificiale.
3. Un primo obiettivo: l’integrazione “intelligente” delle banche dati
L’integrazione delle banche dati normative diventa quindi il primo tassello ricostruttivo per comporre indicatori oggettivi in grado di fornire all’interprete elementi di valutazione.
Integrare in maniera immediata e precisa la fonte normativa all’attuazione amministrativa, grazie all’uso di LLM, è funzionale – a nostro avviso – a ricondurre in un’unica sede il percorso della legge dalla sua approvazione e fino alla produzione di effetti.
Legare leggi e provvedimenti amministrativi è il presupposto necessario e fondamentale per fotografare gli effetti prodotti dall’attuazione della legislazione regionale. In prospettiva, l’integrazione tra leggi e provvedimenti si traduce in uno strumento non esclusivamente “ad uso interno” (come invece può essere percepito il profilo progettuale che attiene al drafting normativo).
L’integrazione si traduce, infatti, in uno strumento di trasparenza e informazione[8] verso i cittadini, per rendere l’ente regionale più accessibile, oltre che assistere la funzione di controllo che l’Assemblea legislativa svolge nei confronti dell’organo esecutivo (quindi uno strumento che si integra con la funzione delle clausole valutative).
Inoltre, la disponibilità di una banca dati, che integri fonti giuridiche diverse in maniera efficace, costituisce la base per lo sviluppo di tecnologie di tipo “chatbot”. La validità di un “sistema chatbot” che possa essere interrogato su argomenti definiti in un linguaggio giuridico-tecnico, quali quelli riguardanti il corpus legislativo e amministrativo regionale, richiede infatti una base dati integrata che contenga le informazioni da cui attingere per la generazione di risposte puntuali, sintetiche ed esaustive ai quesiti posti dagli utenti.
I successi più recenti della ricerca scientifica nel campo dei LLM hanno permesso lo sviluppo di algoritmi molto abili a rispondere a domande relativamente generiche, che riguardano una grande varietà di temi, in quanto questi algoritmi sono stati “allenati” sulle enormi moli di dati presenti nel web. Tuttavia, gli LLM sviluppati allo stato attuale, posti di fronte a domande che riguardano un tema che richiede conoscenze molto specifiche, si rivelano spesso imprecisi, o addirittura possono fornire informazioni errate, dette in gergo tecnico “allucinazioni”. Questa considerazione è valida sia per i modelli proprietari, quali ChatGPT, Microsoft Copilot, Claude 3.5 Sonnet, sia per i modelli open-source[9].
Per questo motivo, nell’ambito del progetto SAVIA è stata utilizzata la tecnica della Retrieval Augmented Generation (RAG) applicata in sinergia con un LLM[10]. Essa prevede due fasi nel processo di generazione di una risposta a un quesito: la prima fase, detta “Information Retrieval”, consiste nella ricerca delle informazioni necessarie per rispondere alla specifica domanda, attingendo a una base dati tramite algoritmi in grado di individuare le parti di testo presenti nella base dati che contengono le informazioni più rilevanti; la seconda fase, prevede che queste porzioni di testo contenenti le informazioni rilevanti siano passate a un LLM assieme alla domanda posta dall’utente. Il modello di linguaggio è quindi facilitato nella generazione di risposte corrette basandosi sulle informazioni contenute nei documenti che costituiscono la base dati, riducendo così il rischio di risposte fuorvianti o troppo generiche.
In questa direzione, per creare una solida base dati, la prima banca dati regionale oggetto dell’integrazione è stata Demetra[11], che contiene i testi vigenti e storici della normativa regionale, regolamenti regionali, regolamenti interni, delibere assembleari; STF, AIR, lavori preparatori, relazioni alle clausole valutative. Essa è interrogabile tramite interfaccia web, da cui è possibile ricercare leggi per anno, legislatura, data, parole chiave o parti di testo.
A seguire, è stata integrata la banca dati interna «consultazione atti amministrativi» che contiene delibere della Giunta regionale, delibere dell’Ufficio di Presidenza dell’Assemblea legislativa, determine dirigenziali regionali, accessibile tramite il Sistema di ricerca degli Atti amministrativi della Regione Emilia-Romagna.
Nel caso in cui fossero presenti alcune lacune in questi dati, quali mancanza di riferimento normativo, data, oggetto o ente, è stato utilizzato un LLM della serie Lllama3.1 per estrarre queste informazioni direttamente dal testo degli atti o documenti. Allo stato attuale il database SAVIA contiene 1936 leggi regionali, circa 300.000 atti attuativi della Giunta Regionale, e 7.000 atti dell’Assemblea Legislativa. Questo database è stato arricchito creando il riferimento tra atti attuativi e leggi regionali citate nei singoli atti, e generando ulteriori metadati relativi ai singoli documenti tramite tecniche di Generative AI, quali riassunti di leggi e atti, parole chiave, riassunti dei singoli articoli, principali argomenti del documento[12].
3.1. La sperimentazione dell’integrazione
La sperimentazione sull’integrazione delle banche dati ha avuto ad oggetto la legge regionale 22 ottobre 2018, n. 15 recante «Legge sulla partecipazione all’elaborazione delle politiche pubbliche. Abrogazione della legge regionale 9 febbraio 2010, n. 3». Rispetto a questa legge, è stato raccolto il testo completo della legge, le informazioni relative ai lavori preparatori, le schede tecniche, e tutti gli atti attuativi (in altri termini, tutti i provvedimenti amministrativi riconducibili all’attuazione della legge regionale) inerenti alla legge sulla partecipazione.
È stato poi allenato un LLM[13] tramite un processo di “fine-tuning” su un dataset di domande-risposte[14] create dagli esperti giuridici dell’Assemblea legislativa, per un primo studio di fattibilità del progetto. Le “domande-risposte” hanno riguardato il contenuto della legge e dei singoli articoli, gli atti attuativi della legge relativi a uno specifico tema o in un determinato periodo temporale, il contenuto delle schede tecniche e dei lavori preparatori.
Verificata la fattibilità del progetto e la validità della metodologia e delle risposte generate da un LLM utilizzando la tecnica della Retrieval Augmented Generation, questa procedura di integrazione delle banche dati è stata poi progressivamente estesa a tutte le leggi presenti in Demetra e all’intero corpus dei provvedimenti amministrativi regionali.
4. La prospettiva su ulteriori integrazioni
I prossimi obiettivi del progetto si basano molto sulla possibilità di raggiungere un progressivo ampliamento del dataset, includendovi in particolare:
- i provvedimenti amministrativi degli enti locali attuativi della legislazione regionale;
- le pronunce della Corte costituzionale, con riferimento alle disposizioni di leggi regionali;
- le pronunce del Giudice amministrativo, riguardanti gli atti amministrativi attuativi delle leggi regionali.
Questa prospettiva comporta elementi di difficoltà per almeno duo ordini di motivi: un primo motivo informatico, poiché molto spesso mancano basi dati centralizzate che contengano questi documenti in un formato strutturato, avendo viceversa documenti frammentati in diversi siti e banche dati; un secondo motivo giuridico, in quanto l’utilizzo di dati – ancorché pubblicati ai sensi della normativa sulla trasparenza – implica a nostro avviso un’interlocuzione, traducibile anche in un accordo tra amministrazioni, per definire le finalità dell’utilizzo ed eventuali termini di applicazione della normativa, ad esempio, sul trattamento dei dati personali presenti nei provvedimenti amministrativi.
Con riferimento al versante informatico, occorre precisare che allo stato attuale i provvedimenti amministrativi degli enti locali (Comuni, Province, Città metropolitana) in Emilia-Romagna non sono disponibili in un unico sito centralizzato, in quanto ogni Amministrazione pubblica i propri atti sul proprio sito istituzionale, come prescritto dal d.lgs. 33/2013. Tuttavia, vi è da segnalare che il progetto ParER (Polo Archivistico dell’Emilia-Romagna), attualmente in corso di sviluppo, ha la finalità di armonizzare e centralizzare gli archivi digitali delle pubbliche amministrazioni, e contiene già i documenti normativi degli enti che hanno sottoscritto l’accordo per la conservazione. Questo strumento potrebbe agevolare concretamente la realizzazione di una base dati molto solida per il progetto SAVIA.
Note
[1] Cfr. M. Cherubini, F. Romano, Legiferare con l’Intelligenza Artificiale, in Journal of Ethics and Legal Technologies, 4, 2022; N. Rangone, Artificial Intelligence challenging core state functions. A focus on law-making and rule-making, in Revista de Derecho Publico: Teoria y Metodo, 8, 2023, pp. 95-121.
[2] Vedi contributo di L. Draghetti in questo numero.
[3] Ci si riferisce, in particolare, alla Valutazione di Impatto della Regolamentazione e alle Clausole valutative. Il Regolamento in materia di AIR, VIR e consultazioni (approvato con Decreto del Presidente del Consiglio dei Ministri 15 settembre 2017, n. 169) illustra AIR, VIR e le relative fasi di consultazione per l’applicazione degli strumenti per la qualità della regolazione. In attuazione del D.P.C.M. la direttiva del Presidente del Consiglio dei ministri del 16 febbraio 2018 ha stabilito la «Guida all’analisi e alla verifica dell’impatto della regolamentazione».
[4] T.F. Giupponi, C. Caruso, Qualità della legislazione e valutazione delle politiche pubbliche: le clausole valutative in alcune esperienze regionali, in questa Rivista, 1, 2011, pp. 39-40.
[5] Ibidem.
[6] Vedi Contributo di S. Bianchini e M. Visciarelli in questo numero.
[7] In questo secondo filone si colloca altresì lo sviluppo di un Chatbot, vedi contributo di S. Agusto e M. Visciarelli in questo numero.
[8] In linea con i principi statutari della partecipazione, dell’informazione e della trasparenza di cui agli artt. 14 e 15 dello Statuto della Regione Emilia-Romagna.
[9] Vedi paragrafo 1.
[10] Questa tecnica è stata proposta dai ricercatori di Meta AI nel 2020. Sul punto cfr. P. Lewis, E. Perez, A. Piktus, F. Petroni, V. Karpukhin, N. Goyal, H. Küttler, M. Lewis, W. Yih, T. Rocktäschel, S. Riedel, D. Kiela, Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, in https://arxiv.org/abs/2005.11401.
[11] https://demetra.regione.emilia-romagna.it/al/.
[12] Vedi contributo S. Agusto e M. Visciarelli.
[13] Nella prima fase di sperimentazione è stato effettuato il fine-tuning del modello Mixtral-8x7B. Si noti che in questi primi sviluppi del progetto SAVIA la fase di fine-tuning è stata necessaria, in quanto le prestazioni in lingua italiana del modello Mixtral-8x7B su linguaggio giuridico non sono state giudicate sufficientemente accurate. Negli sviluppi successivi del progetto, dopo la release di LLM più avanzati a partire da Llama-3.1-8B-Instruct (giugno 2024), la fase di fine-tuning di un LLM non è stata più implementata, in quanto i livelli di qualità delle risposte sono stati considerati soddisfacenti.
[14] Esempi di domande: Sulla partecipazione alle politiche pubbliche, quali leggi sono state emanate in Emilia-Romagna? Quali leggi disciplinano la partecipazione alle politiche pubbliche nella regione, e quali sono i relativi atti attuativi?
Parole chiave: banche dati; integrazione; chatbot; LLM; intelligenza artificiale generativa
Keywords: Database; integration; Chatbot; LLM; Generative AI