Miscellanea
Venerdì, 18 Luglio 2025

Letteratura tossica: come l'AI rischia di avvelenare la ricerca biomedica

A cura di Fabio Puglisi

Negli ultimi tre anni, la letteratura biomedica ha conosciuto una crescita esponenziale di studi che analizzano database sanitari open-access, dalle grandi biobanche alle piattaforme di farmacovigilanza. Titoli ripetitivi, conclusioni semplicistiche e l’impressione di una produzione “in serie” hanno alimentato sospetti crescenti: stiamo assistendo a una naturale espansione dell’uso dei dati, o a un’ondata di articoli generati con flussi industriali, potenziati da intelligenza artificiale e paper mill?

Un’analisi scientometrica condotta da Spick e colleghi, commentata anche su Nature, affronta il tema su scala globale, monitorando oltre trenta grandi database e quantificando deviazioni dai trend storici di pubblicazione. L’indagine non si limita ai volumi: valuta l’evoluzione del linguaggio nei titoli, l’origine geografica delle pubblicazioni e la possibile impronta di processi automatizzati, con un’attenzione particolare a quei dataset che incarnano lo spirito dell’Open Science ma che, proprio per la loro accessibilità, possono trasformarsi in bersagli privilegiati. Il quadro che ne emerge solleva interrogativi cruciali sulla solidità e sull’affidabilità della scienza che, sempre più spesso, entra anche nel dibattito pubblico e nei media senza adeguata contestualizzazione.

Naddaf M. Low-quality papers based on public health data are flooding the scientific literature. Nature 2025 (Epub ahead of print)

Negli ultimi anni l’accesso libero a grandi banche dati sanitarie – come biobanche genetiche, registri di farmacovigilanza e studi epidemiologici – è aumentato enormemente grazie ai principi dell’Open Science e del framework FAIR (Findable, Accessible, Interoperable, Reusable), che promuovono dati facilmente reperibili, accessibili e riutilizzabili. Questa apertura, se da un lato favorisce la ricerca, dall’altro può rendere questi dati vulnerabili a un uso poco rigoroso o persino industriale, soprattutto ora che strumenti di intelligenza artificiale come ChatGPT e altri modelli linguistici (LLM, Large Language Models) permettono di scrivere e analizzare studi in tempi rapidissimi.

Per capire se questa proliferazione sia solo frutto di un interesse scientifico crescente o di meccanismi più artificiali, Spick e colleghi hanno analizzato 34 grandi banche dati biomediche, considerando tutte le pubblicazioni indicizzate su PubMed tra il 2014 e il 2024 che citavano questi dataset nel titolo o nell’abstract. Il periodo 2014–2021 è stato considerato di riferimento (“baseline”), mentre il triennio 2022–2024 è stato quello in cui il fenomeno dell’uso massiccio di AI e paper mill avrebbe potuto influire.

Per ogni banca dati, il team ha usato un modello statistico chiamato ARIMA (AutoRegressive Integrated Moving Average), che serve a prevedere quanti articoli ci si sarebbe aspettati in base all’andamento storico. Quando il numero reale di pubblicazioni nel 2024 superava l’intervallo di confidenza al 95% previsto dal modello, il dataset veniva considerato “sospetto” per possibile sfruttamento. Gli autori hanno poi analizzato due segnali aggiuntivi:

  1. I titoli degli articoli, verificando se diventavano sempre più simili tra loro (ricorrendo a certe parole chiave o formule standard).
  2. La provenienza geografica degli autori principali (ultimo autore), per capire se la crescita era concentrata in specifiche aree del mondo.

Sei banche dati hanno mostrato una crescita molto superiore alle previsioni: FinnGen, FAERS (banca dati sugli effetti avversi dei farmaci), NHANES (survey nazionale USA), UK Biobank, Global Burden of Disease e All of Us Research Program.

Nel 2024, per i primi cinque dataset (escluso All of Us, che non mostrava titoli anomali), si sono registrate 11 554 pubblicazioni, circa 5 000 in più di quanto previsto e quasi tre volte il numero del 2021 (4 001). L’aumento più impressionante è stato per FinnGen, con un incremento di quasi 15 volte rispetto al 2021.

Anche il linguaggio dei titoli conferma la natura “in serie” di molti studi.

Ad esempio:

  • per FinnGen, il termine “Mendelian randomization” compare nel 77% dei titoli del 2024 (era il 51% nel 2021);
  • per NHANES, la parola “association” appare nel 45% dei titoli (era il 21%);
  • per FAERS, parole come “real world” e “pharmacovigilance” raddoppiano la loro presenza;
  • per Global Burden of Disease, parole come “burden” e “global” crescono di oltre il 20%.

Un altro dato rilevante è la provenienza degli autori: la Cina è passata dal 19% al 65% di tutte le pubblicazioni su questi dataset, con un aumento netto di quasi 7 000 articoli in tre anni, mentre la quota degli Stati Uniti è crollata dal 34% al 14%, pur con un leggero aumento numerico. Per FinnGen, nel 2024 quasi 9 articoli su 10 avevano l’ultimo autore affiliato a istituzioni cinesi (erano solo 16 pubblicazioni nel 2021).

Complessivamente, circa il 43% degli articoli pubblicati nel 2024 su questi dataset può essere considerato “in eccesso” rispetto ai trend storici, e quindi potenzialmente frutto di produzione accelerata o poco rigorosa. Questo fenomeno rischia di contaminare la letteratura scientifica e, di conseguenza, anche i modelli di AI che da quella letteratura imparano, perpetuando e amplificando informazioni di dubbia qualità.

Questo lavoro mette in evidenza un fenomeno che rischia di compromettere la credibilità della letteratura biomedica contemporanea: la crescita improvvisa e massiva di articoli basati su grandi database open-access, caratterizzati da titoli omogenei, metodologie riduttive e una distribuzione geografica degli autori che suggerisce dinamiche produttive non tradizionali. La combinazione tra ampia disponibilità di dati, workflow automatizzati e intelligenza artificiale generativa sembra aver amplificato la capacità di produrre articoli a ritmo industriale, spesso su associazioni scarsamente plausibili dal punto di vista biologico, come il presunto effetto protettivo del latte parzialmente scremato sulla depressione o la relazione fra livello di istruzione e rischio di ernie post-operatorie. Il problema non riguarda solo l’ambito accademico, perché questi studi circolano rapidamente nei media e possono generare messaggi distorti per il pubblico, minando la fiducia nei dati aperti e nel concetto stesso di Open Science.

La forza dello studio di Spick e colleghi risiede nel suo approccio globale e sistematico. L’analisi copre 34 grandi dataset su un arco temporale di dieci anni, utilizza modelli di proiezione statistica (ARIMA) per distinguere la crescita naturale dalle anomalie e integra valutazioni sul linguaggio dei titoli e sull’origine geografica degli autori, delineando un quadro ampio e coerente. Inoltre, il lavoro non si limita a descrivere il fenomeno, ma lo contestualizza nel dibattito scientifico internazionale, richiamando le misure già adottate da riviste come il Journal of Global Health e sottolineando l’urgenza di strumenti di monitoraggio più rigorosi.

Tuttavia, il lavoro presenta inevitabili limiti. L’analisi è di natura scientometrica e non entra nel merito della qualità dei singoli articoli, il che significa che parte delle pubblicazioni identificate come “in eccesso” potrebbe comunque derivare da ricerche legittime. Non è possibile distinguere in modo netto tra l’uso individuale di strumenti di AI e la produzione coordinata da parte di paper mill, né escludere che alcune accelerazioni siano dovute a motivi scientificamente giustificati, come l’emergere di nuovi dataset di grande interesse. Inoltre, la natura retrospettiva dell’indagine non consente di prevedere quali altre risorse possano diventare, in futuro, oggetto di sfruttamento sistematico. Lo studio, infine, non sostituisce le analisi forensi basate su reti citazionali, manipolazioni di immagini o somiglianze testuali, né i filtri della peer review, che restano strumenti essenziali per la tutela della qualità scientifica.

Nel complesso, questo lavoro rappresenta un segnale d’allarme chiaro e documentato per la comunità scientifica. Mostra come l’accessibilità e l’interoperabilità, pilastri dei principi FAIR e dell’Open Science, possano trasformarsi in punti di vulnerabilità se non accompagnati da meccanismi di controllo, come l’accesso regolamentato e la preregistrazione obbligatoria dei protocolli di analisi. Solo bilanciando trasparenza e rigore sarà possibile preservare i benefici dell’apertura dei dati senza compromettere l’affidabilità della scienza e la fiducia del pubblico.