/ COSTUME E SOCIETÀ

COSTUME E SOCIETÀ | 16 febbraio 2025, 06:50

Intelligenza artificiale: tutta la verità su DeepSeek

Intelligenza artificiale: tutta la verità su DeepSeek.

Intelligenza artificiale: tutta la verità su DeepSeek.

Il “caso” DeepSeek ha fatto parlare di se per tanti motivi: tecnologico, economico e geopolitico.

Vediamo tutto quello che è successo, partendo dal principio:

DeepSeek è il risultato del protezionismo americano.

Si perché tutto nasce dal fatto che l’ex presidente Biden, durante il suo mandato, ha vietato la vendita ai paesi asiatici di componenti tecnologiche necessarie per il funzionamento dell’Intelligenza Artificiale.

Prima che questo accadesse, un hedge fund cinese, “High Flyer”, aveva acquistato diverse schede Nvidia per realizzare una loro IA specializzata nel trading algoritmico.

A causa dei deludenti risultati in quell’ambito, il co – fondatore dell’hedge fund, Liang Wenfeng, decide di “riciclare” le schede Nvidia, necessarie per l’addestramento dei modelli di Intelligenza Artificiale, per dar vita ad un modello generalista (ossia non specializzato) e, nel 2023, da vita alla start up DeekSeek.

Grazie ai notevoli passi in avanti dell’IA americana e, in particolare, dei modelli di OpenAI, DeepSeek decide di adottare una strategia ben precisa: ottimizzare le risorse di cui dispone – molto più contenute dei colossi rivali – concretizzando il tutto in due aspetti chiave:

· distillazione

 

· architettura MoE

Anche se di recente costituzione, l'azienda ha rapidamente attirato l'attenzione globale grazie allo sviluppo di modelli di linguaggio (LLM) avanzati che competono con quelli delle principali aziende tecnologiche statunitensi come OpenAI e Claude, proprio grazie alla strategia di realizzazione che ora andremo a descrivere.

 

La distillazione

OpenAI accusa DeepSeek di aver copiato il suo modello di punta “o1”.

Più che copiato, in realtà, l’azienda avrebbe utilizzato la distillazione per addestrare il proprio modello, usando proprio i dati di OpenAI.

Come funziona la distillazione?

Semplificando, è un processo che permette di trasferire la conoscenza da un modello più grande ad uno più piccolo, senza dover risostenere gli stessi costi, sia in termini di tempo che economici, della fase di addestramento del modello originale.

In sostanza si ottiene un modello con le prestazioni simili all’originale ma ad una frazione del costo.

Perché funziona questo metodo? (quella che segue è una spiegazione semplificata in modo da rendere il processo più comprensibile a tutti): per addestrare “o1”, oltre ai costi infrastrutturali per dotarsi delle enormi capacità di calcolo necessarie e ai costi energetici dei data center, serve tempo e risorse per attuare la metodologia del Reinforcement Learning ossia un meccanismo di “premi” e “penalità” in base alle risposte corrette o meno date dal modello. Non solo, l’algoritmo si ottimizza ad ogni decisione presa in base al risultato perché cerca di “tenere buono” un ragionamento corretto e abbandonare un ragionamento errato.

Inoltre, c’è un’ulteriore fase su fine tuning supervisionato ossia con delle persone che valutano e indirizzano il modello in modo che sia ancora più preciso.

Quindi, riassumendo, partendo da zero c’è un costo di diverse decine se non migliaia di milioni di dollari.

Va detto che OpenAI stessa utilizza questo metodo per non dover riaddestrare da zero i suoi modelli ma, ovviamente, se il modello originale è tuo ci fai ciò che vuoi, se lo usa un altro…le cose cambiano.

Lo usa un altro perché… DeepSeek non è affatto partita da zero, ha appreso già il funzionamento “corretto” e il “modo di ragionare” da o1.

Concettualmente è un po’ come fare formazione per affiancamento: colui che insegna ci ha messo molto tempo e magari molti errori ad acquisire le competenze e le conoscenze che ha ora, ma se mi affianco a lui imparerò il lavoro già nel modo corretto e non ripeterò gli sbagli che ha fatto lui con notevole vantaggio in termini di tempi e di costi.

Questa è la distillazione.

 

MoE

Una delle caratteristiche distintive di DeepSeek è l'adozione della tecnica "Mixture of Expert" (MOE), che consente di attivare solo le risorse computazionali necessarie per un determinato compito. Questo approccio ottimizza l'efficienza, riducendo in modo significativo i costi e il consumo energetico rispetto ai modelli tradizionali.

Va detto che anche in questo caso non si tratta di una novità in ambito di IA dato che anche altri modelli (ad esempio la francese Mistral AI) utilizzano lo stesso approccio.

 

Il punto chiave

L’azienda cinese ha lanciato un modello dotato delle stesse capacità di ragionamento dei più blasonati modelli closed source GPT-o1 e Claude, ma con la sostanziale differenza che lo sviluppo di DeepSeek è costato decisamente meno (circa un ventesimo) rispetto ai competitor (5,6 milioni di dollari contro i 100 milioni dei modelli equivalenti).

Il lancio dei modelli di DeepSeek ha avuto un impatto significativo sul mercato tecnologico globale: la loro applicazione mobile è diventata l'app gratuita più scaricata sull'app store statunitense, superando ChatGPT di OpenAI.

Le prestazioni del modello sono paragonabili ai modelli più avanzati sviluppati negli USA e questo ha fatto tremare le borse.

Questa rapida ascesa ha contribuito ad una notevole flessione nel valore delle azioni di aziende tecnologiche leader, come Nvidia, che ha registrato una perdita di circa 600 miliardi di dollari in capitalizzazione di mercato ma anche Microsoft e le altre big tech.

 

Anche OpenAI è sotto accusa

Allo stesso modo OpenAI è stata da più parti accusata di aver fatto scraping ossia di aver preso senza autorizzazione moltissimi dati dai siti internet più disparati.

Poi si corre ai ripari: famosi sono gli accordi con il Time o con il gruppo Condè Nast  per l’accesso a tutti i loro contenuti.

Quindi, alla fine, nessuna delle parti può dirsi totalmente innocente.

Inoltre, sussistono perplessità sugli scopi, non certo per beneficenza, di DeepSeek: quali vantaggi e come li trae l’azienda nel rilasciare il suo modello come open source (pur con la censura su argomenti ritenuti delicati per la Cina)?

I dati, si sa, fanno gola a tutti.

 

A proposito di copiare

Chi copia chi?

DeepSeek utilizza il “pensiero profondo” (DeepThink) per effettuare un ragionamento e giungere alla risposta all’utente e lo fa in modo trasparente mostrando i passaggi effettuati.

Analogo processo avviene in modo non dissimile anche in ChatGPT o1 ossia nel modello di punta di OpenaAI.

Se, da questo punto di vista, DeepSeek “si è ispirato” a GPT, il contrario è avvenuto poche ore fa quando OpenAI ha introdotto un tasto “Think” nel suo modello 4o.

In pratica premendo il pulsante si forza 4o a compiere un ragionamento più profondo ossia… a fare il DeepThink come in DeepSeek – in realtà pigiando il tasto si sta “saltando” dal modello 4o al modello o1 che di default risponde facendo prima il ragionamento profondo.

Dal punto di vista privacy, invece, ciascun modello risponde alle logiche normative del proprio paese: OpenAI applica determinate privacy policy ai dati e fornisce certe garanzie, ad esempio alle aziende, mentre DeepSeek si conforma alle politiche del proprio paese.

In particolare, alla domanda diretta fatta al modello, esso risponde:

L’IA è uno strumento chiave per il governo cinese nel monitoraggio e nella censura dei contenuti online. Sistemi di intelligenza artificiale analizzano milioni di post, articoli e commenti per identificare e rimuovere contenuti considerati sensibili o contrari alle linee guida del Partito Comunista Cinese [credits to Pina Debbi].

 

Correre ai ripari

C’è chi l’ha paragonata allo Sputnik  sovietico – che scatenò la corsa allo spazio degli USA e dell’allora URSS.

Gli americani, si sa, non vogliono arrivare secondi nella corsa all’IA, ed ecco il motivo del paragone con lo Sputnik: se il successo dei sovietici di quegli anni impresse una spinta enorme degli USA nella ricerca e nelle missioni spaziali culminate con la discesa sulla Luna di Armstrong, è possibile che accada lo stesso ora per non farsi superare dal competitor cinese.

DeepSeek non è il primo modello di IA del Paese del Dragone, ce ne sono altri (per esempio il modello di AliBaba) ma si tratta del primo che esce prepotentemente dai confini cinesi e si diffonde così rapidamente negli USA (e nel resto del mondo).

Essendo una società cinese, esistono timori riguardo alla possibile censura e all'accesso del governo cinese ai dati degli utenti dato che la questione della privacy è gestita in modo molto diverso rispetto all’occidente. Ad esempio, il chatbot di DeepSeek evita di rispondere a domande su argomenti sensibili come Piazza Tiananmen o Taiwan, ma ormai sembra che gli americani non siano molto sensibili al patriottismo in tema di accesso o diffusione di dati vista l’enorme diffusione attuale di Tik Tok – altro gigante cinese – tra i social network, a discapito di Facebook e simili.

 

La questione italiana

In Italia il Garante per la Privacy ha deciso di attenzionare DeepSeek con un intervento che, visti i dubbi sulla gestione dei dati non conforme ai rigidi standard europei, ha di fatto rimosso l’applicazione dagli store analogamente a quanto accaduto anche con ChatGPT.

Non è al momento chiaro se e quando DeepSeek tornerà disponibile sugli store italiani ma intanto resta disponibile il codice sorgente del modello dato che è open source. Non è direttamente utilizzabile sui nostri normali pc di casa ma con relativamente poche risorse economiche si può creare una versione “custom” ossia un fork del modello.

 

Tiriamo le somme

Pro e contro, luci ed ombre, tensioni geopolitiche e accuse di copia, insomma, elementi per discutere ce ne sono parecchi.

Basteranno gli enormi investimenti annunciati dal presidente Trump per riprendere (e mantenere) il controllo globale sull’Intelligenza Artificiale?

DeepSeek rappresenta un punto di svolta nel panorama dell'IA, dimostrando che è possibile sviluppare modelli molto avanzati in modo più economico ed efficiente.

La prima contromossa di OpenAI è stata quella di rendere disponibile il suo nuovo modello di punta, successore di o1, gratuitamente: o3-mini è disponibile da interfaccia web senza essere loggati pertanto chiunque può utilizzare l’IA più avanzata senza pagare nulla.

La “nuova guerra fredda” dell’IA vedrà mosse e contromosse, colpi e contraccolpi.

Seguiteci per restare aggiornati.

Stefano Facchin Esperto in IA Generativa e Digital Transformation

Prima Pagina|Archivio|Redazione|Invia un Comunicato Stampa|Pubblicità|Scrivi al Direttore