Tra le proposte un database delle deroghe concesse. Una prospettiva tecnica, giuridica ed economica, e un’analisi strutturata dell’interazione tra intelligenza artificiale generativa (GenAI) e diritto d’autore: è quanto pervisto nel corposo studio (oltre 400 pagine, in inglese) dall’Ufficio europeo per la proprietà intellettuale (EUIPO) appena pubblicato. Lo studio analizza come i contenuti protetti da diritto d’autore vengono utilizzati nell’addestramento dell’IA, come i creatori possono esercitare i diritti tramite meccanismi di opt-out e come i risultati di GenAI possono essere contrassegnati o identificati; l’interazione tra intelligenza artificiale generativa (GenAI) e diritto d’autore; nonché il quadro giuridico stabilito dalla Direttiva sul diritto d’autore nel mercato unico (Direttiva CDSM), inclusi i potenziali modelli di licenza e il ruolo delle autorità pubbliche nel sostenere la tutela dei diritti e la trasparenza.Tra i suggerimenti dell’idagine, la creazione di un database standardizzato e centralizzato per le deroghe concesse dai titolari dei diritti.
Il rapporto rileva che l’assenza di una regolamentazione in materia di web crawling per scopi di intelligenza artificiale costituisce un punto debole fondamentale per i titolari dei diritti e che è necessario e urgente predisporre maggiori garanzie di trasparenza e responsabilità nelle modalità di raccolta dei dati, da chi tali dati sono raccolti e per quale scopo. Lo studio sottolinea inoltre che non esiste uno standard uniforme per l’esercizio da parte dei titolari dei diritti delle deroghe al text and data mining (TDM); suggerisce un ruolo per le autorità pubbliche nella gestione dei database di deroghe allo stesso e nella promozione di buone pratiche; esamina i pro e i contro di un registro o database centrale in cui i titolari dei diritti possano registrare le proprie deroghe in un formato standardizzato e legalmente riconosciuto, sottolineando che attualmente non esiste un meccanismo armonizzato o centralizzato per la comunicazione delle deroghe.
Una parte significativa dello studio si concentra poi sul mercato emergente delle licenze dirette per i dati di addestramento dell’intelligenza artificiale, evidenziando che sono stati raggiunti diversi accordi di alto valore tra gli sviluppatori di GenAI e i titolari dei diritti in deroga alle eccezioni previste dall’articolo 4 del CDSM. Lo studio evidenzia che la stampa e gli editori scientifici, in particolare, sono ben posizionati per trarre vantaggio da queste opportunità di licenza, soprattutto in applicazioni come la Retrieval-Augmented Generation (RAG).
GLOSSARIO
RAG (Retrieval Augmented Generation, in italiano: generazione potenziata da ricerca )è una tecnica che si propone di migliorare i risultati di uno strumento di LLM tramite la ricerca in tempo reale di dati che si vanno ad aggiungere all’input utente. Si tratta di un framework AI per il recupero di fatti da una base di conoscenza esterna per fondare modelli linguistici di grandi dimensioni (LLM) su informazioni più accurate e aggiornate e per fornire agli utenti informazioni dettagliate sul processo generativo dei LLM.
Web Crawling e Web Scraping: sebbene spesso utilizzati in modo intercambiabile, web crawling e web scraping sono tecniche distinte con obiettivi complementari. Il web crawling esplora e mappa il web, mentre il web scraping estrae dati specifici dalle pagine scoperte. Insieme, offrono potenti strumenti per la raccolta e l’analisi di informazioni preziose dal vasto panorama del web.
Fonti varie, fra cui AER, Wikipedia e Informatica e ingegneria online.


