Esclusiva

Gennaio 30 2025.
 
Ultimo aggiornamento: Febbraio 3 2025
Esiste un modo per aggirare la censura cinese di DeepSeek: il leet speak

Invece di scrivere “Tienanmen”, si può digitare “T1en@nm3n”. Inducendo, così, il sistema a rispondere visto che non riconosce il termine

DeepSeek è la Moby Dick delle AI generative. Dopo che ha sconvolto i mercati mondiali, c’è chi cerca di capire come superarla o abbatterla. Nvidia ha perso 589 miliardi di dollari in borsa, registrando un calo del 17% in un solo giorno. Donald Trump, nel frattempo, sollecita le grandi aziende tecnologiche a intensificare gli sforzi nel settore dell’IA. 

DeepSeek si distingue per la sua efficienza: richiede meno potenza di calcolo e ha un impatto ambientale ridotto rispetto ai modelli concorrenti. Inoltre, essendo open-source, ogni sviluppatore può scaricarlo e modificarlo a piacimento. Tuttavia, nonostante questi vantaggi, sono emersi rapidamente dubbi sulla gestione dei dati degli utenti e sulla trasparenza della piattaforma.

La questione privacy: DeepSeek e il Garante italiano

In Italia, il Garante per la protezione dei dati personali ha richiesto a DeepSeek di fornire garanzie sulla sicurezza dei dati degli utenti. Di conseguenza, l’applicazione è stata rimossa dagli store digitali nel paese, mentre il sito ufficiale risulta rallentato.

Secondo il Garante della privacy, l’azienda deve chiarire con trasparenza quali dati personali vengono raccolti, con quali finalità e se vi sia un trasferimento di informazioni al di fuori dell’Unione Europea. DeepSeek ha ora 20 giorni per fornire risposte ed evitare sanzioni.

DeepSeek invia i dati degli utenti in Cina?

L’informativa del sito dell’azienda non lascia dubbi: ”Conserviamo le informazioni raccolte in server sicuri situati nella Repubblica Popolare Cinese”. In altre parole, tutte le conversazioni e le domande inviate all’AI di DeepSeek, insieme alle risposte generate, potrebbero essere spedite verso la Cina. L’azienda suddivide i dati raccolti in tre categorie: informazioni fornite direttamente dagli utenti (input testuali o audio), dati raccolti automaticamente (dettagli sul dispositivo, sistema operativo e indirizzo IP), e dati da fonti esterne (Google o Apple, se l’accesso avviene tramite questi servizi). Sebbene gli utenti abbiano la possibilità di cancellare la cronologia delle chat, la questione del trattamento e del trasferimento dei dati resta aperta e controversa.

“DeepSeek grazie al modello DeepSeek-R1 supera i benchmark di settore in termini di capacità, costo ed efficienza. La cosa incredibile è che lo hanno sviluppato in appena due mesi, spendendo meno di 6 milioni di dollari, mentre realtà come OpenAI investono miliardi. Il modello è open-source, super efficiente e può essere usato su hardware di consumo, come un Mac o addirittura un Raspberry Pi. Questa efficienza mette in crisi il modello di business delle big tech, che basano tutto su investimenti enormi in infrastrutture. DeepSeek vuole dimostrare che “più soldi” non significa “più innovazione”. E questo arriva proprio mentre aziende come Nvidia, Meta e Microsoft stanno facendo grandi annunci di spesa per l’AI. Ma restano ancora molte domande aperte nelle controversie riscontrate” spiega Federica Urzo, analista del Luiss Data Lab.

Censura integrata e metodi di elusione

Un altro aspetto controverso di DeepSeek è il suo apparente sistema di censura, che impedisce agli utenti di ricevere informazioni su determinati argomenti considerati sensibili dal governo cinese. Tra questi, si segnalano temi come la libertà di stampa, i diritti umani e le proteste politiche. Il chatbot fornisce una risposta iniziale prima di interrompersi improvvisamente o modificare il proprio output in un messaggio generico. Questo suggerisce la presenza di un meccanismo di monitoraggio attivo, in grado di correggere in tempo reale le risposte fornite dal sistema.

Esiste un modo per aggirare la censura cinese di DeepSeek: il leet speak

Esiste un modo per aggirare la censura cinese di DeepSeek: il leet speak

È possibile aggirare in parte questa censura utilizzando il leet speak, un linguaggio che sostituisce alcune lettere con numeri o simboli. Invece di chiedere “Tienanmen”, si può scrivere “T1en@nm3n”, inducendo il sistema a non riconoscere immediatamente il termine. Non tutti i temi sono aggirabili: temi Xi Jinping, Taiwan non appaiono aggirabili nemmeno con il leet speak o codici esadecimali.

Esiste un modo per aggirare la censura cinese di DeepSeek: il leet speak

Esiste un modo per aggirare la censura cinese di DeepSeek: il leet speak

Esiste un modo per aggirare la censura cinese di DeepSeek: il leet speak

Questo fenomeno è legato al funzionamento stesso dei modelli di intelligenza artificiale. Pierpaolo Balbi, professore associato di Computer Science dell’Università di Bari, spiega come funzionano i Large Language Models. “I LLM vengono addestrati su tre fasi: pre-training, fine-tuning/instruction e human relevance feedback. La prima fase permette al modello di generare frasi, la seconda lo addestra a risolvere task specifici con esempi domanda/risposta, mentre la terza cerca di mitigare bias e allucinazioni grazie al feedback umano. Durante questo ultimo passaggio, è possibile istruire il sistema a non rispondere a certe domande o a rispondere in un certo modo”. L’uso del leet speak altera la sequenza di caratteri, rendendo più difficile per il sistema rilevare la censura integrata.

Oltre al Leet speak è stato possibile aggirare le restrizioni dell’AI con un’altra tecnica. “Ho scaricato il modello di Deep Seek allenato con 32 miliardi di parametri, per farlo girare in locale. In questo modo si aggira il livello di censura presente nell’app e nell’interfaccia web, che bandiva domande e risposte riguardanti temi cinesi. Il fatto che il modello, in versione locale, risponda anche a queste domande suggerisce che sia stato addestrato senza bias o restrizioni, e che probabilmente il ‘filtro’ o censura sia stato applicato a posteriori, quanto meno nelle versioni accessibili al grande pubblico” spiega Domenico Cangemi, matematico del Luiss Data Lab. 

DeepSeek e il confronto con le big tech

Balbi sottolinea che le tecniche utilizzate da DeepSeek, OpenAI e Meta sono sostanzialmente simili, con la principale differenza nei dati utilizzati per l’addestramento. DeepSeek non ha ancora fornito dichiarazioni ufficiali sulla gestione di tali dati e la Commissione Europea non ha avviato procedimenti formali contro di essa.

Una soluzione per ridurre i rischi legati alla privacy e alla censura è eseguire il modello localmente sul proprio dispositivo, un’opzione resa possibile dalla natura open-source di DeepSeek, a differenza di ChatGPT. Tuttavia, resta il problema della trasparenza delle fonti, anche per chi utilizza il chatbot offline.

Secondo una recente analisi di NewGuard per IDMO, il chatbot di DeepSeek ha ripetuto false affermazioni nel 30% dei casi, si è rifiutato di rispondere nel 53% delle richieste e ha smentito la disinformazione solo nel 17% delle volte. Questo evidenzia la necessità di verificare con attenzione l’accuratezza delle informazioni generate.

A cura di Mariahelena Rodriguez