Thomson Reuters vince la prima causa di Copyright contro l’IA
di Michele Di Salvo
La società, che mette insieme diversi marchi editoriali, ha ottenuto una vittoria legale contro Ross Intelligence per violazione del copyright, stabilendo un precedente significativo sul “fair use” per le aziende di AI.
Thomson Reuters infatti si è aggiudicata una vittoria importante nella prima grande controversia statunitense su presunte violazioni di copyright commesse da un’azienda di intelligenza artificiale. Questo esito giudiziario crea un precedente legale di forte impatto, in un momento in cui l’uso di contenuti protetti da copyright all’interno delle tecnologie AI è al centro di un acceso dibattito su scala globale.
Nel 2020 Thomson Reuters ha intrapreso un’azione legale senza precedenti contro Ross Intelligence, una startup specializzata in intelligenza artificiale applicata alla ricerca legale.
Thomson Reuters ha accusato Ross Intelligence di aver copiato materiali protetti da copyright provenienti dal loro servizio di punta, Westlaw, senza ottenere le necessarie autorizzazioni.
Westlaw rappresenta uno dei servizi di ricerca legale con maggiore reputazione e ampliamente utilizzato a livello globale, rendendo la violazione particolarmente significativa e allarmante per i detentori di diritti d’autore nel settore dei contenuti digitali.
Il verdetto, pronunciato dal giudice Stephanos Bibas della Corte d’Appello degli Stati Uniti, ha stabilito un precedente legale importante. La Corte ha dichiarato che Ross Intelligence aveva effettivamente violato i diritti d’autore di Thomson Reuters, rigettando categoricamente tutte le difese proposte dalla startup.
“Nessuna delle possibili difese di Ross regge. Le respingo tutte,” ha affermato Bibas nella sua sentenza conclusiva, sottolineando la gravità della violazione e l’inefficacia delle giustificazioni presentate.
Questa sentenza non solo ribadisce l’importanza della protezione dei diritti d’autore nel contesto delle tecnologie emergenti, ma solleva inoltre importanti interrogativi sull’applicazione del “fair use” nel campo dell’intelligenza artificiale.
Le aziende di IA che sperano di utilizzare materiali protetti per addestrare i loro modelli dovranno ora considerare con attenzione le implicazioni legali di tali azioni.
Una delle questioni chiave in questa causa è stata la dottrina del “fair use” (uso corretto), che è spesso invocata dalle aziende di intelligenza artificiale per difendersi dall’accusa di aver utilizzato materiali protetti da copyright illegalmente.
Secondo il giudice Bibas, l’uso dei contenuti di Westlaw da parte di Ross Intelligence non rientrava nei parametri del fair use, in quanto la startup intendeva competere direttamente con Westlaw sviluppando un prodotto sostitutivo sul mercato.
James Grimmelmann, professore di diritto digitale e internet presso la Cornell University, ha affermato che “se questa decisione sarà seguita altrove, sarà davvero negativa per le aziende di IA generativa.” Grimmelmann ha anche suggerito che gran parte della giurisprudenza citata dalle aziende di IA per argomentare il fair use potrebbe essere considerata “irrilevante” in seguito a questa decisione.
Chris Mammen, partner presso Womble Bond Dickinson e specialista in diritto della proprietà intellettuale, ha concordato che la sentenza complicherà le argomentazioni sul fair use per le aziende di IA, affermando che “mette un dito sulla bilancia verso la conclusione che il fair use non si applica.”
Nonostante la vittoria di Thomson Reuters, molte aziende di AI tra cui giganti come OpenAI e Google, dispongono delle risorse finanziarie per sostenere lunghe battaglie legali. La chiusura di Ross Intelligence nel 2021, dovuta ai costi elevati per difendersi in tribunale, evidenzia le difficoltà che le startup possono incontrare.
La teoria legale basata sul “fair use” rappresenta una difesa chiave per le aziende tecnologiche tra cui OpenAI, Microsoft e Meta in una serie di casi di violazione del copyright intentati da autori, etichette discografiche, artisti visivi e altri in merito all’uso del loro materiale per addestrare sistemi di intelligenza artificiale.
Le aziende tecnologiche sostengono che i sistemi di intelligenza artificiale generativa fanno un uso corretto del materiale protetto da copyright, studiandolo per imparare a creare nuovi contenuti, mentre i titolari dei diritti d’autore affermano che le aziende usano il loro lavoro per generare contenuti concorrenti che minacciano i loro mezzi di sostentamento.
Con numerose altre cause in corso sia negli Stati Uniti che a livello internazionale, il caso Thomson Reuters vs. Ross Intelligence potrebbe essere solo il primo di molti importanti sviluppi giuridici in questo campo.
Questa decisione non solo stabilisce un precedente, ma pone anche importanti interrogativi su come le future dispute legali influenzeranno l’industria dell’IA.
Thomson Reuters ha affermato che ROSS ha utilizzato impropriamente le note di testa di Westlaw e il Key Number System per addestrare il suo sistema di intelligenza artificiale a meglio abbinare le questioni legali alla giurisprudenza pertinente.
Le note di testa di Westlaw riassumono i principi legali estratti da pareri giudiziari.
I pareri giudiziari non sono protetti da copyright negli Stati Uniti
Il principio è noto e risalente a Banks contro Manchester , 128 US 244 (1888), una sentenza della Corte Suprema degli Stati Uniti che trattava di diritto d’autore.La Corte ha stabilito che lo Stato non poteva detenere un copyright e ha confermato la sua decisione in Wheaton v. Peters affermando “ciò che una corte o un giudice non può conferire a un giornalista come base di un copyright su di lui, non può conferirlo a nessun’altra persona o allo Stato”
Il Key Number System è una tassonomia numerica che categorizza argomenti e casi legali. Cliccando su una nota di testa, gli utenti vengono indirizzati al passaggio corrispondente nel testo giudiziario. Cliccando sul numero chiave associato a una nota di testa, gli utenti vengono indirizzati a un elenco di casi che sollevano lo stesso punto legale.
È importante notare che ROSS non ha acquisito direttamente le note introduttive e il Key Number System per addestrare il suo modello. Come spesso accade, le società si rivolgono ad altre società o fornitori anche no-profit per tali azioni: ROSS ha assunto LegalEase, un’azienda che fornisce servizi di ricerca e scrittura legale, per creare dati di addestramento basati sulle note introduttive e sul Key Number System.
LegalEase ha creato Bulk Memos, una raccolta di domande legali abbinate a quattro o sei possibili risposte. LegalEase ha incaricato gli avvocati di utilizzare le note introduttive di Westlaw come riferimento per formulare le domande in Bulk Memos. LegalEase ha incaricato gli avvocati di non copiare direttamente le note introduttive.
ROSS ha tentato di ottenere la licenza per i contenuti necessari direttamente da Thomson Reuters, ma questa ha rifiutato di concederla perché riteneva che lo strumento di intelligenza artificiale preso in considerazione da ROSS avrebbe potuto competere con Westlaw.
La corte ha convenuto che ROSS ha copiato 2.243 note di testa da Westlaw. La corte ha stabilito che queste note di testa e il Key Number System soddisfacevano la bassa soglia legale per l’originalità ed erano protetti da copyright. La corte ha respinto la difesa da parte di ROSS, perché, secondo la corte, l’uso delle note di testa e il Key Number System non erano dettati dalla necessità. La corte ha anche respinto la difesa di uso corretto di ROSS sulla base del fatto che il 1° e il 4° fattore pesavano a favore di Thomson Reuters. A questo punto, l’unica questione rimasta per il processo è se i copyright di alcune note di testa fossero scaduti o fossero stati registrati tardivamente.
Esistono alcuni punti non definitivamente chiariti da questa sentenza.
1. I riassunti quasi letterali sono “originali”?
“Originale” ha un significato speciale nella legge statunitense sul copyright: significa che un’opera ha un minimo di creatività umana che la nostra società vorrebbe proteggere e incoraggiare. Sulla base delle prove sopravvissute alla redazione, è quasi impossibile trovare creatività in singole note a piè di pagina. Le note a piè di pagina consistono in copie letterali di testi giudiziari non protetti da copyright, insieme ad alcune parafrasi di base di fatti.
Come sappiamo, i fatti non sono protetti da copyright, ma le espressioni di fatti spesso lo sono. Una salvaguardia importante per proteggere la nostra libertà di fare riferimento ai fatti è la dottrina della fusione. La legge statunitense ha da tempo riconosciuto che quando ci sono solo modi limitati per esprimere un fatto o un’idea, quelle espressioni non sono considerate “originali”. Le espressioni “si fondono” con il fatto sottostante non proteggibile e diventano esse stesse non proteggibili.
Secondo alcuni il giudice Bibas sbaglia sulla fusione: sostiene che la fusione non si applica qui perché “ci sono molti modi per esprimere punti di diritto da pareri giudiziari”. Questa visione fraintenderebbe la dottrina della fusione. È nella natura del linguaggio umano essere in grado di trasmettere la stessa cosa in molti modi diversi, finché si è disposti a fare qualche acrobazia verbale. Ma quando ci sono solo un numero limitato di modi ragionevoli e naturali per esprimere un fatto o un’idea, specialmente quando la precisione testuale e i termini dell’arte vengono utilizzati per trasmettere idee complesse, la fusione si applica.
Per quanto riguarda la selezione e la disposizione del Key Number System, la corte sostiene che anche qui esiste originalità, perché “esistono molti modi possibili e logici per organizzare argomenti legali in base al livello di granularità”, e Thomson Reuters ha esercitato un certo giudizio nella scelta del particolare “livello” con il suo Key Number System. Tuttavia, i casi sono contrassegnati con Key Number System da un sistema informatico automatizzato e gli argomenti rispecchiano da vicino ciò che le scuole di legge insegnano ai loro studenti del primo anno.
La corte non dice molto sul perché la compilazione delle note di testa dovrebbe ricevere una protezione separata del copyright, se non che si qualifica come “compilazioni fattuali” originali. Questa affermazione è dubbia perché la compilazione è di materiali non protetti da copyright, come discusso, e la selezione è guidata dalla necessità di rappresentare fatti e diritto, non dalla creatività. Anche se la compilazione delle note di testa è effettivamente protetta da copyright, utilizzare parti di essa che non sono protette da copyright non è decisamente una violazione, perché gli Stati Uniti non proteggono i diritti sui database sui generis.
2. Non è possibile rivendicare il fair use se nessuno ha visto una copia?
La corte ignorerebbe in questo caso opportunamente Bellsouth Advertising & Publishing Corp. contro Donnelley Information Publishing, Inc. , 933 F.2d 952 (11th Cir. 1991) e Sundeman contro Seajay Society, Inc., 142 F. 3d 194 (4th Cir. 1998).
Nel decidere se l’uso da parte di ROSS delle note introduttive di Westlaw e del Key Number System sia trasformativo ai sensi del primo fattore, la corte sostiene che la copia di questi costituisce violazione del copyright perché esisteva una copia intermedia che conteneva materiali protetti da copyright creati da Westlaw. E, secondo la corte, la copia intermedia può solo pesare a favore del fair use per i codici informatici.
3. All’improvviso abbiamo un mercato per la formazione in ambito AI?
Il quarto fattore del fair use è molto soggetto a ragionamenti circolari: se un utente fa un uso derivativo della mia opera, ciò dimostra sicuramente che esiste già un mercato per quell’uso derivativo o che probabilmente si svilupperà; se esiste un mercato per tale uso derivativo, allora, in quanto titolare del copyright, dovrei avere il controllo assoluto su tale mercato.
Agli occhi della corte, ROSS, in virtù dell’utilizzo dei dati di Westlaw nel contesto della formazione AI, ha creato un legittimo mercato di dati di formazione AI che dovrebbe essere legittimamente controllato da Thomson Reuters.
Solo che la giurisprudenza americana suggerisce che il quarto fattore “sostituzione di mercato” considera solo i mercati tradizionali, ragionevoli o che hanno probabilità di essere sviluppati. I titolari di copyright devono fornire prove concrete per dimostrare l’esistenza o la probabilità di sviluppo di un mercato di licenze, prima di poter sostenere che un uso secondario funge da “sostituto di mercato”. Se consentissimo al mercato protetto di un titolare di copyright di includere tutto ciò per cui è disposto a ricevere commissioni di licenza, ciò eliminerebbe quasi completamente il fair use al servizio della concorrenza soffocante.
Secondo Authors Alliance (associazione che promuove gli interessi degli autori che vogliono condividere le proprie creazioni), l’impatto di questo caso è attualmente limitato, sia perché si tratta di una sentenza di tribunale distrettuale, sia perché riguarda l’IA non generativa. Tuttavia, è importante rimanere vigili, poiché il ragionamento avanzato dalla corte potrebbe influenzare altri giudici, decisori politici e persino il pubblico più ampio, se non contestato.
Questa sentenza combina diversi argomenti problematici che, se accettati più ampiamente, potrebbero avere conseguenze significative.
In primo luogo, sempre secondo Authors Alliance, confonde il confine tra fatto ed espressione, suggerendo che le informazioni fattuali possono diventare soggette a copyright semplicemente perché scritte da qualcuno in modo minimamente creativo. In secondo luogo, estende l’applicazione del copyright alle copie intermedie, il che significa che anche l’uso temporaneo e non pubblico di materiale protetto da copyright potrebbe essere soggetto a rivendicazioni di violazione. In terzo luogo, evoca un nuovo mercato per i dati di addestramento dell’IA, indipendentemente dal fatto che tale mercato di licenze sia legittimo o addirittura probabile che esista.
Se queste argomentazioni prendessero piede, potrebbero consolidare ulteriormente il predominio di alcune grandi aziende di intelligenza artificiale. Solo i grandi attori come Microsoft e Meta potranno permettersi le licenze di formazione sull’intelligenza artificiale, consolidando il controllo sul settore. I termini delle licenze di formazione sull’intelligenza artificiale saranno determinati esclusivamente tra le grandi aziende di intelligenza artificiale e i grandi aggregatori di contenuti, senza rappresentanza di singoli autori o interessi pubblici. I grandi aggregatori di contenuti potranno dettare i termini in base ai quali i creatori devono cedere i diritti sulle proprie opere per la formazione sull’intelligenza artificiale, e le aziende di intelligenza artificiale detteranno come i loro modelli di intelligenza artificiale possono essere utilizzati dal grande pubblico.
Senza un significativo contraccolpo e un intervento politico, le organizzazioni più piccole e i singoli creatori non possono partecipare equamente. L’invito è a non riscrivere le leggi sul copyright per consolidare ulteriormente questo squilibrio di potere
Sul https://www.bakerlaw.com/thomson-reuters-v-ross/ sono presenti tutti i documenti più rilevanti della causa, comprese le memorie e le repliche delle parti.
Salvis Juribus – Rivista di informazione giuridica
Direttore responsabile Avv. Giacomo Romano
Listed in ROAD, con patrocinio UNESCO
Copyrights © 2015 - ISSN 2464-9775
Ufficio Redazione: redazione@salvisjuribus.it
Ufficio Risorse Umane: recruitment@salvisjuribus.it
Ufficio Commerciale: info@salvisjuribus.it
***
Metti una stella e seguici anche su Google News