Tag - Tamás Kriváchy

Un bug nei dati Springer Nature scuote la bibliometria
Un errore nei metadati di Springer Nature potrebbe aver alterato in modo sistematico i conteggi di citazioni in tutti i principali database bibliografici, compresi Scopus a Web of Science. Le conseguenze? Indicatori distorti, carriere accademiche potenzialmente alterate e un segnale d’allarme per l’intero sistema della valutazione quantitativa della ricerca. Cosa altro deve accadere perché si abbandoni la cieca fede nelle metriche bibliometriche? Può un errore di codifica nei metadati, apparentemente banale, alterare la geografia della scienza mondiale, falsare classifiche, influenzare carriere e politiche di ricerca? Secondo l’analisi di Tamás Kriváchy, ricercatore al Barcelona Institute of Science and Technology, contenuta in un preprint recentemente diffuso su arXiv è esattamente ciò che potrebbe essere accaduto. Frederik Joelving Categoriesha coperto la notizia per Retraction Watch con un articolo uscito l’11 novembre 2025. La storia è semplice: un difetto tecnico nei metadati di Springer Nature riferiti alle riviste pubblicate solo online avrebbe generato una distorsione sistemica nei conteggi di citazioni di centinaia di migliaia di ricercatori. IL CASO  Tamás Kriváchy mostra che la distorsione dei dati ha origine da un’anomalia nella gestione dei metadati di molte riviste online-only di Springer Nature (come Nature Communications, Scientific Reports e vari BMC journals). Secondo Kriváchy, l’origine del problema risiede nel passaggio dai numeri di pagina tradizionali agli “article numbers” adottati dalle riviste online. Un campo mancante o mal gestito nei metadati distribuiti tramite API e file RIS di Springer avrebbe causato una catena di errori nel collegamento tra articoli e citazioni.  In sostanza, una grande quantità di citazioni verrebbe erroneamente attribuita al primo articolo del volume (“Article 1”) di ciascun anno, invece che all’articolo effettivamente citato. Intervistato da Retraction Watch spiega: > “Sembra che milioni di scienziati abbiano perso alcune citazioni, mentre > decine di migliaia — gli autori degli Article 1 — le abbiano guadagnate tutte, > arrivando a conteggi assurdi”. Un difetto tecnico apparentemente minore, ma dalle enormi conseguenze sistemiche. Infatti l’anomalia nei dati non è limitata alla piattaforma Springer e al suo database bibliografico Dimensions, ma si propaga a tutti i database bibliografici che ne importano i metadati come Crossref, OpenCitations, Scopus e Web of Science. Le conseguenze, osserva Retraction Watch, sono potenzialmente enormi: confusione nella tracciabilità delle citazioni, alterazione di indici bibliometrici e, in alcuni casi, vantaggi indebiti per autori o istituzioni. Il caso emblematico è quello del primo articolo del volume 2018 di Nature Communications, intitolato “Structural absorption by barbule microstructures of super black bird of paradise feathers”. Secondo il sito della rivista, l’articolo avrebbe ricevuto ben 7.580 citazioni. Google Scholar ne riporta 584, Web of Science 582 e Scopus 1.323. La coautrice Dakota McCoy (Università di Chicago) ha confermato a Retraction Watch di aver cercato, invano, di ottenere la correzione di centinaia di citazioni spurie. Analogamente l’articolo n. 1 dell’anno 2021 di Scientific reports presenta lo stesso problema: 5.332 citazioni sul sito dell’editore e solo 118 su Google Scholar. E si potrebbe continuare. Kriváchy scrive di non essere in grado di precisare l’elenco esatto delle riviste interessate e quindi fornire un conteggio preciso: > Si noti, tuttavia, che sono interessate le due riviste più grandi in base al > numero di articoli pubblicati ogni anno, Scientific Reports e Nature > Communications, nonché le riviste BMC, che comprendono un gran numero di > riviste ad alto volume che utilizzano il riferimento al numero dell’articolo. > Il numero totale di articoli per Scientific Reports è di circa 250.000, per > Nature Communications di circa 75.000 e per diverse riviste BMC e Discover > Applied Sciences di circa 126.000. Quindi, solo per queste 10 riviste ci sono > circa 450.000 articoli potenzialmente interessati, con un numero totale > probabilmente ancora più elevato. Springer Nature dichiara di ospitare 7 > milioni di articoli. Data l’immensa crescita degli articoli online negli > ultimi anni, ci si può aspettare che una parte ignificativa dei 7 milioni sia > presente in riviste solo online, portando il numero reale di articoli > interessati a milioni. L’estensione temporale del problema risale, secondo l’autore, al 2011, quando il bug fu introdotto nelle API di Springer. PERCHÉ TUTTO QUESTO È IMPORTANTE?  I risultati di Kriváchy sono molto importanti perché è la prima volta che errori nei metadati vengono documentati su scala globale, interessando tutti i principali database bibliografici, commerciali e non. Siamo abituati ai problemi di Google Scholar, dove le incongruenze restano perlopiù localizzate — come nel celebre caso di Ike Antkare o in quelli italici, meno noti, di citazioni attribuite all’autore “Primo Capitolo” [si veda qui]. Nel caso dei metadati di Springer Nature, invece, siamo di fronte a qualcosa di radicalmente diverso: un errore sistematico nei metadati che produce un effetto domino su molti indicatori bibliometrici, a tutti i livelli di aggregazione. Il problema questa volta va considerato su tre piani distinti. 1. Il livello dei dati e delle metriche. Gli errori influenzano direttamente gli indici basati sulle citazioni: molti articoli attualmente “highly cited” diventeranno articoli “normali” dopo la correzione. Ciò avrà effetto sugli autori (sui loro h-index, conteggi complessivi, ecc.), su indicatori avanzati come SNIP, e sututti quelli basati su “top-cited papers” per rivista, istituzione, settore o Paese. In pratica, abbiamo lavorato per anni con dati in cui molti (quanti?) “highly cited papers” non erano realmente tali. (L’IF,  per costruzione non è alterato dall’errore). 2. Il livello comportamentale. Qui entra in gioco il ben noto Effetto Matteo: gli articoli percepiti come molto citati tendono a ricevere ulteriori citazioni proprio per la loro fama. L’errore iniziale nei metadati ha quindi verosimilmente influenzato il comportamento dei ricercatori, che hanno citato lavori “falsamente” molto citati. Questo secondo effetto non è correggibile: quante di quelle citazioni sopravvivranno anche dopo la bonifica dei dati? 3. Il livello istituzionale. Le conseguenze riguardano la valutazione della ricerca e le carriere accademiche. Il peso di questo errore è proporzionale all’uso — spesso acritico — che le istituzioni fanno delle metriche di citazione. In Italia, come è ben noto, il ministero e ANVUR hanno imposto l’uso di indicatori bibliometrici come requisito per l’Abilitazione Scientifica Nazionale e per le progressioni di carriera universitarie. Dobbiamo chiederci fino a che punto un errore sistemico come questo possa aver alterato carriere individuali e valutazioni istituzionali. La comunità scientifica, in particolare quella italiana, non è abbastanza consapevole dell’inquinamento che affligge la scienza contemporanea e dell’estensione dei meccanismi — come le citation mills — che hanno corrotto il significato delle citazioni. La percezione prevalente è che si tratti di problemi localizzati, che riguardano pochi casi isolati, e che una opportuna “polizia bibliometrica” sia in grado di ripulire gli indiciatori dai dati anomali.  Questo caso è diverso e non solo per la scala: nasce da un errore genuino, non da una manipolazione intenzionale, e proprio per questo è ancora più istruttivo. Mostra la fragilità di un sistema che ha affidato la valutazione della ricerca a numeri e algoritmi di cui spesso non si conoscono nemmeno i fondamenti tecnici. Forse, paradossalmente, questo bug potrebbe avere un effetto benefico: costringerci a ripensare la nostra cieca fede nelle metriche quantitative, una fede che ha contribuito in modo determinante alla corruzione della scienza contemporanea.