Un bug nei dati Springer Nature scuote la bibliometria
Un errore nei metadati di Springer Nature potrebbe aver alterato in modo
sistematico i conteggi di citazioni in tutti i principali database
bibliografici, compresi Scopus a Web of Science. Le conseguenze? Indicatori
distorti, carriere accademiche potenzialmente alterate e un segnale d’allarme
per l’intero sistema della valutazione quantitativa della ricerca. Cosa altro
deve accadere perché si abbandoni la cieca fede nelle metriche bibliometriche?
Può un errore di codifica nei metadati, apparentemente banale, alterare la
geografia della scienza mondiale, falsare classifiche, influenzare carriere e
politiche di ricerca?
Secondo l’analisi di Tamás Kriváchy, ricercatore al Barcelona Institute of
Science and Technology, contenuta in un preprint recentemente diffuso su arXiv è
esattamente ciò che potrebbe essere accaduto. Frederik Joelving Categoriesha
coperto la notizia per Retraction Watch con un articolo uscito l’11 novembre
2025. La storia è semplice: un difetto tecnico nei metadati di Springer Nature
riferiti alle riviste pubblicate solo online avrebbe generato una distorsione
sistemica nei conteggi di citazioni di centinaia di migliaia di ricercatori.
IL CASO
Tamás Kriváchy mostra che la distorsione dei dati ha origine da un’anomalia
nella gestione dei metadati di molte riviste online-only di Springer Nature
(come Nature Communications, Scientific Reports e vari BMC journals). Secondo
Kriváchy, l’origine del problema risiede nel passaggio dai numeri di pagina
tradizionali agli “article numbers” adottati dalle riviste online. Un campo
mancante o mal gestito nei metadati distribuiti tramite API e file RIS di
Springer avrebbe causato una catena di errori nel collegamento tra articoli e
citazioni.
In sostanza, una grande quantità di citazioni verrebbe erroneamente attribuita
al primo articolo del volume (“Article 1”) di ciascun anno, invece che
all’articolo effettivamente citato. Intervistato da Retraction Watch spiega:
> “Sembra che milioni di scienziati abbiano perso alcune citazioni, mentre
> decine di migliaia — gli autori degli Article 1 — le abbiano guadagnate tutte,
> arrivando a conteggi assurdi”.
Un difetto tecnico apparentemente minore, ma dalle enormi conseguenze
sistemiche. Infatti l’anomalia nei dati non è limitata alla piattaforma Springer
e al suo database bibliografico Dimensions, ma si propaga a tutti i database
bibliografici che ne importano i metadati come Crossref, OpenCitations, Scopus e
Web of Science.
Le conseguenze, osserva Retraction Watch, sono potenzialmente enormi: confusione
nella tracciabilità delle citazioni, alterazione di indici bibliometrici e, in
alcuni casi, vantaggi indebiti per autori o istituzioni.
Il caso emblematico è quello del primo articolo del volume 2018 di Nature
Communications, intitolato “Structural absorption by barbule microstructures of
super black bird of paradise feathers”. Secondo il sito della rivista,
l’articolo avrebbe ricevuto ben 7.580 citazioni.
Google Scholar ne riporta 584, Web of Science 582 e Scopus 1.323. La coautrice
Dakota McCoy (Università di Chicago) ha confermato a Retraction Watch di aver
cercato, invano, di ottenere la correzione di centinaia di citazioni spurie.
Analogamente l’articolo n. 1 dell’anno 2021 di Scientific reports presenta lo
stesso problema: 5.332 citazioni sul sito dell’editore e solo 118 su Google
Scholar.
E si potrebbe continuare. Kriváchy scrive di non essere in grado di precisare
l’elenco esatto delle riviste interessate e quindi fornire un conteggio preciso:
> Si noti, tuttavia, che sono interessate le due riviste più grandi in base al
> numero di articoli pubblicati ogni anno, Scientific Reports e Nature
> Communications, nonché le riviste BMC, che comprendono un gran numero di
> riviste ad alto volume che utilizzano il riferimento al numero dell’articolo.
> Il numero totale di articoli per Scientific Reports è di circa 250.000, per
> Nature Communications di circa 75.000 e per diverse riviste BMC e Discover
> Applied Sciences di circa 126.000. Quindi, solo per queste 10 riviste ci sono
> circa 450.000 articoli potenzialmente interessati, con un numero totale
> probabilmente ancora più elevato. Springer Nature dichiara di ospitare 7
> milioni di articoli. Data l’immensa crescita degli articoli online negli
> ultimi anni, ci si può aspettare che una parte ignificativa dei 7 milioni sia
> presente in riviste solo online, portando il numero reale di articoli
> interessati a milioni.
L’estensione temporale del problema risale, secondo l’autore, al 2011, quando il
bug fu introdotto nelle API di Springer.
PERCHÉ TUTTO QUESTO È IMPORTANTE?
I risultati di Kriváchy sono molto importanti perché è la prima volta che errori
nei metadati vengono documentati su scala globale, interessando tutti i
principali database bibliografici, commerciali e non.
Siamo abituati ai problemi di Google Scholar, dove le incongruenze restano
perlopiù localizzate — come nel celebre caso di Ike Antkare o in quelli italici,
meno noti, di citazioni attribuite all’autore “Primo Capitolo” [si veda qui].
Nel caso dei metadati di Springer Nature, invece, siamo di fronte a qualcosa di
radicalmente diverso: un errore sistematico nei metadati che produce un effetto
domino su molti indicatori bibliometrici, a tutti i livelli di aggregazione.
Il problema questa volta va considerato su tre piani distinti.
1. Il livello dei dati e delle metriche.
Gli errori influenzano direttamente gli indici basati sulle citazioni: molti
articoli attualmente “highly cited” diventeranno articoli “normali” dopo la
correzione. Ciò avrà effetto sugli autori (sui loro h-index, conteggi
complessivi, ecc.), su indicatori avanzati come SNIP, e sututti quelli basati su
“top-cited papers” per rivista, istituzione, settore o Paese. In pratica,
abbiamo lavorato per anni con dati in cui molti (quanti?) “highly cited papers”
non erano realmente tali. (L’IF, per costruzione non è alterato dall’errore).
2. Il livello comportamentale.
Qui entra in gioco il ben noto Effetto Matteo: gli articoli percepiti come molto
citati tendono a ricevere ulteriori citazioni proprio per la loro fama.
L’errore iniziale nei metadati ha quindi verosimilmente influenzato il
comportamento dei ricercatori, che hanno citato lavori “falsamente” molto
citati.
Questo secondo effetto non è correggibile: quante di quelle citazioni
sopravvivranno anche dopo la bonifica dei dati?
3. Il livello istituzionale.
Le conseguenze riguardano la valutazione della ricerca e le carriere
accademiche.
Il peso di questo errore è proporzionale all’uso — spesso acritico — che le
istituzioni fanno delle metriche di citazione. In Italia, come è ben noto, il
ministero e ANVUR hanno imposto l’uso di indicatori bibliometrici come requisito
per l’Abilitazione Scientifica Nazionale e per le progressioni di carriera
universitarie. Dobbiamo chiederci fino a che punto un errore sistemico come
questo possa aver alterato carriere individuali e valutazioni istituzionali.
La comunità scientifica, in particolare quella italiana, non è abbastanza
consapevole dell’inquinamento che affligge la scienza contemporanea e
dell’estensione dei meccanismi — come le citation mills — che hanno corrotto il
significato delle citazioni. La percezione prevalente è che si tratti di
problemi localizzati, che riguardano pochi casi isolati, e che una opportuna
“polizia bibliometrica” sia in grado di ripulire gli indiciatori dai dati
anomali.
Questo caso è diverso e non solo per la scala: nasce da un errore genuino, non
da una manipolazione intenzionale, e proprio per questo è ancora più istruttivo.
Mostra la fragilità di un sistema che ha affidato la valutazione della ricerca a
numeri e algoritmi di cui spesso non si conoscono nemmeno i fondamenti tecnici.
Forse, paradossalmente, questo bug potrebbe avere un effetto benefico:
costringerci a ripensare la nostra cieca fede nelle metriche quantitative, una
fede che ha contribuito in modo determinante alla corruzione della scienza
contemporanea.