OpenAI vs. DeepSeek: quando le AI si accusano tra loro di violazione del copyright

OpenAI vs. DeepSeek: quando le AI si accusano tra loro di violazione del copyright

di Michele Di Salvo

DeepSeek è arrivata come meteorite nel mondo dell’intelligenza artificiale e ha scosso il mercato, ma OpenAI non ci sta e accusa DeepSeek di aver copiato ChatGPT, anzi di aver usato ChatGPT come “insegnante” per addestrare il proprio modello R1, con una tecnica che si chiama “Knowledge Distillation”.

Secondo il gigante statunitense dell’intelligenza artificiale, DeepSeek avrebbe impiegato il processo noto come “Knowledge Distillation” per addestrare il suo nuovo modello R1, utilizzando i dati derivati da ChatGPT di OpenAI. Questa battaglia ha sollevato molte domande sull’etica e la legittimità dell’utilizzo di tecnologie preesistenti per la creazione di nuovi modelli AI.

DeepSeek ha annunciato il suo modello R1, presentandolo come una soluzione avanzata di AI che combina alte prestazioni con costi ridotti e proprio i costi estremamente contenuti rispetto ai concorrenti hanno fatto tremare i mercati finanziari facendo, secondo alcuni esplodere la bolla dell’AI. Per la prima volta l’industria dell’AI è apparsa debole di fronte ad un fenomeno dirompente che ha dimostrato come gli Stati Uniti non siano gli unici a guidare la rivoluzione dell’Intelligenza artificiale.

Le accuse di OpenAI si basano sull’ipotesi che DeepSeek abbia utilizzato la “Knowledge Distillation” per replicare in parte le funzionalità di ChatGPT. David Sacks, chiamato a difendere le politiche sulla tecnologia e l’intelligenza artificiale della nuova amministrazione statunitense, ha riferito a Fox News che ci sono “prove sostanziali” che confermerebbero l’uso di questo metodo da parte di DeepSeek. Sacks ha sottolineato come le principali aziende di AI stiano considerando misure per prevenire tali pratiche, allo scopo di proteggere i loro modelli originali.

La “Knowledge Distillation” è un processo utilizzato nel campo dell’Ai per trasferire la conoscenza da un modello grande (il “teacher”) a un modello più piccolo (“student”). Questo consente al modello più piccolo di raggiungere performance simile al modello originale, ma con un budget computazionale ridotto. Il processo è particolarmente utile per implementare modelli di intelligenza artificiale su dispositivi con limitate risorse hardware.

Il processo di “Knowledge Distillation” è stato utilizzato per la prima volta nel 2015 da Geoffrey Hinton, uno dei padri fondatori dell’intelligenza artificiale moderna. Hinton ha sviluppato un algoritmo che permette proprio di trasferire la conoscenza da un modello addestrato a uno non ancora addestrato.

Il processo di Knowledge Distillation solitamente prevede i seguenti passaggi:

  • Training del modello insegnante: Un modello di grandi dimensioni e dai risultati accurati (teacher) viene addestrato su un ampio set di dati.

  • Generazione di Output: Il modello insegnante viene utilizzato per generare output (spesso probabilistici) per un insieme di input forniti.

  • Addestramento del modello studente: Questi output vengono quindi utilizzati per addestrare un modello studente più piccolo, cercando di minimizzare la divergenza tra le predizioni dello studente e quelle dell’insegnante.

La Knowledge Distillation è particolarmente utile perché consente di avere modelli più piccoli con performance simili a quelli più grandi, permettendo implementazioni più efficienti in termini di memoria e velocità, senza sacrificare troppo l’accuratezza.

Attualmente, le accuse di OpenAI si basano su osservazioni del comportamento del modello R1 e sulle somiglianze con ChatGPT. Tuttavia, non ci sono prove concrete pubblicamente disponibili che dimostrino definitivamente l’uso non autorizzato di “Knowledge Distillation” da parte di DeepSeek.

Nel mondo dell’intelligenza artificiale, aziende leader come OpenAI sono ben consapevoli delle problematiche legate alla distillazione non autorizzata dei modelli.

Per contrastare queste pratiche, adottano misure proattive come il blocco degli accessi sospetti e la limitazione del numero di richieste che possono essere inviate ai loro sistemi o da specifici computer.

Tuttavia, le tecniche di distillazione stanno diventando sempre più sofisticate, riuscendo talvolta a eludere i controlli e permettendo così a terze parti di creare modelli propri basati su quelli di alta qualità, che richiedono risorse ingenti, sia in termini di capacità di calcolo che di costi di sviluppo.

La distillazione non autorizzata rappresenta una minaccia concreta per la sostenibilità economica delle grandi aziende che investono enormi capitali nello sviluppo di modelli completi e avanzati.

Queste società, come OpenAI, sostengono costi di sviluppo che possono raggiungere centinaia di milioni di dollari, con l’obiettivo di creare modelli di nuova generazione sempre più potenti. Tuttavia, altri soggetti possono sfruttare tali investimenti per derivare modelli semplificati, caratterizzati da una maggiore efficienza e minori costi operativi.

Il settore dell’intelligenza artificiale è ancora giovane e in continua evoluzione, con sorprendenti cambiamenti che possono influenzare drasticamente il panorama tecnologico, come dimostrato dagli eventi tumultuosi dell’ultima settimana. Questo rende difficile prevedere con certezza se, nel medio-lungo periodo, sarà più vantaggioso investire nello sviluppo di modelli completi o nella creazione di modelli distillati, soprattutto in relazione a specifiche tipologie di operazioni.

La questione rimane aperta e sarà interessante osservare come il settore si adatterà ai futuri sviluppi tecnologici e alle dinamiche di mercato, intanto ha alimentato un dibattito su ciò che può essere considerato lecito o etico l’utilizzo di tecnologie derivate per lo sviluppo di nuovi prodotti nel settore dell’intelligenza artificiale e ha messo OpenAI in una posizione difficile.

Numerosi osservatori hanno notato che OpenAI ora cerca di difendere le sue proprietà intellettuali contro DeepSeek ma dall’altra parte sta affrontando molte cause legali intentate dagli editori per il presunto utilizzo non autorizzato dei loro contenuti nello sviluppo di ChatGPT.

Gli editori accusano OpenAI di aver utilizzato archivi di giornali, gallerie fotografiche e piattaforme video per raccogliere dati necessari all’addestramento dei suoi sistemi di intelligenza artificiale. OpenAI si difende affermando che tali contenuti sono stati impiegati solo nella fase di sviluppo e che il sistema genera contenuti propri.

Gli editori, d’altra parte, sostengono che ChatGPT spesso riproduce i loro contenuti tali e quali, violando il diritto d’autore. In pratica ChatGPT accuserebbe DeepSeek di violazioni del diritto d’autore esattamente come gli editori accusano ChatGPT. 

Del resto la tecnica di usare una Ai per creare contenuti per addestrare la crescita e il machine learning di un’altra AI è una prassi nota, e sviluppata partendo da una constatazione: i sistemi di AI non necessitano di un flusso di dati crescente in maniera lineare, ma con i computer quantistici – i soli che sono stati in grado di dare il vero impulso all’AI – il flusso di dati da “mangiare e digerire e restituire” è a crescita esponenziale.

Evidente l’indiscusso vantaggio di soggetti come Meta e Microsoft, che possono alimentare il machine learning grazie ai dati sempre nuovi e aggiornati creati dagli esseri umani tramite i social network e i sistemi di messaggistica di loro proprietà (Facebook, Instagram e Whapp da una parte, LinkedIn e Messenger dall’altra). 

Google invece trionfa grazie ai dati forniti dal suo motore di ricerca e dall’analisi delle mail di Gmail. 

Per competere le società hanno da un alto commissionato a soggetti terzi il reperimento di dati – in caso di cause legali non ne rispondono direttamente per violazione del copyright e in caso di organismi “di ricerca” e non a scopo di lucro, si beneficia delle “maglie larghe a favore della ricerca” –  ed hanno creato sistemi generativi di dati da utilizzare nell’addestramento.

Si è poi scoperto che questa fonte di dati era “noiosa” per l’AI da addestrare che sembrava capire che quel contenuto non era “umano”. Una risposta in questo senso l’ha messa in campo Meta: ammantato da “bisogno di autenticità e contrasto a miti artefatti” la riduzione della pervasività dei filtri su Instagram offre alla sua AI “foto umane” (che Ai sembra apprezzare più delle immagini ritoccate!).

Quello che però risulta particolarmente interessante in questa fase è leggere cosa scriveranno le varie OpenAI nelle proprie memorie per difendere i proprio presunto copyright, e quanto questo sarà ontologicamente in contrasto con quanto la stessa OpenAI scrive altrove, quando si difende dalle stesse accuse verso gli editori tradizionali.

Accanto a questo tema ne emerge un altro.

Vi è un mercato dei contenuti “adatti all’addestramento” che le aziende di AI non pagano e da cui pretendono di estrarre gratuitamente – come da una miniera – elementi preziosi allo sviluppo dei loro prodotti. Un mercato che hanno sempre negato esistere proprio perché – secondo loro – la funzione di addestramento varrebbe zero, mentre sarebbe solo l’output a contare. 

Come a dire “l’oro non vale nulla, quello che vale è solo il gioiello che produco”.

Oggi sembrano smentirsi: esiste un mercato dell’input dell’addestramento, e vale anche molto.


Salvis Juribus – Rivista di informazione giuridica
Direttore responsabile Avv. Giacomo Romano
Listed in ROAD, con patrocinio UNESCO
Copyrights © 2015 - ISSN 2464-9775
Ufficio Redazione: redazione@salvisjuribus.it
Ufficio Risorse Umane: recruitment@salvisjuribus.it
Ufficio Commerciale: info@salvisjuribus.it
***
Metti una stella e seguici anche su Google News

Articoli inerenti