I pericoli dell’uso della bibliometria con dati inquinati
La valutazione della ricerca basata sulle metriche viene spesso presentata come
una soluzione ai problemi di equità e oggettività. «La bibliometria è per la
valutazione della ricerca ciò che la diagnostica per immagini è per la
medicina»: è quanto sostenuto da Giovanni Abramo in un recente webinar.
L’esperienza suggerisce però che il cambiamento degli incentivi non abbia
eliminato i comportamenti opportunistici, ma li abbia trasformati. Il caso
italiano delle review mills ne è soloun esempio: gruppi organizzati hanno
sfruttato il ruolo di revisori per imporre citazioni e gonfiare artificialmente
gli indicatori. Quando i dati sono inquinati, bibliometria e “intelligenza
artificiale” assomigliano piuttosto a una diagnostica per immagini che confonde
i dati di pazienti diversi, producendo valutazioni distorte e premiando chi sa
manipolare il sistema invece di chi fa buona ricerca.
Questa settimana ho partecipato a un webinar organizzato da Clarivate sul tema
“Celebrazione del centenario di Eugene Garfield: passato, presente e futuro
della scientometria”. Il webinar ha trattato la storia delle prime opere del
compianto Eugene Garfield, nonché gli sviluppi attuali e le tendenze future. Le
sessioni storiche sono state affascinanti e hanno descritto le straordinarie
innovazioni apportate da Garfield nella sua ricerca per comprendere il corpus di
informazioni scientifiche come una rete. Garfield si rese conto che le
somiglianze tra gli articoli potevano essere identificate dalle citazioni
condivise e, negli anni ’50, ideò dei sistemi per acquisire queste informazioni
utilizzando schede perforate. Sono abbastanza vecchia da ricordare quando, negli
anni ’70, andavo in biblioteca a consultare lo Science Citation Index, che non
solo mi indicava articoli importanti nel mio campo, ma spesso mi portava in
direzioni inaspettate, facendomi scoprire altri argomenti affascinanti.
Garfield è conosciuto come il padre del Journal Impact Factor, considerato da
molti un abominio che distorce il comportamento degli autori a causa delle sue
connotazioni di prestigio. Tuttavia, in origine era stato concepito come un
indice che aiutasse i bibliotecari a decidere quali riviste acquistare, e solo
in seguito è stato riproposto come parametro utilizzato come indicatore dello
status dei ricercatori che pubblicavano su quelle riviste.
Mi è piaciuto ascoltare la storia di Garfield, che sembra essere stato un
poliedrico personaggio affabile e umano, che ha riconosciuto il valore delle
informazioni contenute negli indici e ha trovato modi ingegnosi per
sintetizzarle. Consiglio di consultare l’archivio delle sue opere conservato
dall’Università della Pennsylvania.
I relatori successivi del webinar si sono concentrati sui nuovi sviluppi
nell’uso della scientometria per valutare la qualità della ricerca. Giovanni
Abramo ha osservato come la scienza italiana sia stata influenzata dal
favoritismo, a causa dell’esclusivo ricorso alla revisione soggettiva tra pari
per valutare i ricercatori e le loro istituzioni. La sua opinione è che l’uso
delle metriche migliori la valutazione della ricerca rendendola più equa e
obiettiva. Ha osservato che, mentre le metriche potrebbero non essere un’opzione
in alcuni settori delle arti e delle discipline umanistiche, per le discipline
in cui i risultati appaiono generalmente su riviste indicizzate, la bibliometria
è preziosa, concludendo che “la bibliometria è per la valutazione della ricerca
ciò che la diagnostica per immagini è per la medicina”, ovvero una fonte
fondamentale di informazioni oggettive.
Stranamente, 12 anni fa sarei stata d’accordo con lui, quando suggerii che un
semplice indice bibliometrico (indice H dipartimentale) potesse ottenere
risultati molto simili al complesso e dispendioso processo di revisione tra pari
adottato nel REF. All’epoca in cui scrivevo, pensavo che la legge di Goodhart
(“Quando una misura diventa un obiettivo, smette di essere una buona misura”)
non si applicasse a una metrica basata sulle citazioni, perché le citazioni non
erano controllate dagli autori, quindi sarebbe stato difficile manipolarle.
A quanto pare ero ingenua. Il metodo più rozzo per manipolare il sistema è
l’eccesso di autocitazioni, ma esistono anche i circoli di citazione (tu citi il
mio articolo e io citerò il tuo). Quest’anno Maria Ángeles Oviedo-García, René
Aquarius e io abbiamo descritto una versione più sofisticata, una “review mill”,
in cui un gruppo di medici italiani ha sfruttato la propria posizione di
revisori per costringere altri a citare i lavori del gruppo. Abbiamo suggerito
che il cambiamento nella valutazione della ricerca italiana, che era stato
implementato con le migliori intenzioni, ha condotto a un cinico gioco di
revisione tra pari. Si potrebbe rispondere dicendo che questa attività, sebbene
inquietante, riguarda solo una piccola percentuale di articoli e quindi non
avrebbe un effetto rilevante. Ancora una volta, dieci anni fa sarei stata
d’accordo. Ma ora, con un’esplosione di pubblicazioni che sembra guidata da
editori più interessati al guadagno che alla qualità (vedi Hanson et al, 2024) e
standard editoriali straordinariamente laschi, questo potrebbe non essere più
vero. Il punto chiave dei review mill è che abbiamo visto evidenze della loro
attività perché utilizzavano modelli generici per le revisioni tra pari, ma
questi possono essere rilevati solo per le riviste che pubblicano revisioni tra
pari aperte, una piccola minoranza. Il membro più prolifico del review mill era
un editor di riviste che aveva quasi 3000 revisioni tra pari verificate elencate
su Web of Science, ma solo una manciata di queste era consultabile.
Temo quindi che la bibliometria sia più simile a un’immagine diagnostica che ha
confuso i dati di diversi pazienti: contiene alcune informazioni valide, ma sono
distorte dall’errore.
La presentazione finale di Valentin Bogorov ha descritto il futuro della
scientometria, in cui l’intelligenza artificiale sarebbe stata sfruttata per
fornire informazioni molto più dettagliate e aticolate sull’impatto sociale
della ricerca. Ma ho avuto l’impressione che ignorasse il problema della frode
che si è insinuato nei database bibliometrici. Le review mills sono un problema
per la validità dei dati citazionali, ma le paper mills sono un problema molto
più grave. Mentre le review mills si basano sull’auto-organizzazione di gruppi
di ricerca dubbi per migliorare la loro reputazione, molte paper mills sono
gestite da organizzazioni esterne la cui unica motivazione è il profitto
(Parker et al., 2024). Vendono authorship e citazioni a un prezzo che dipende
dall’Impact Factor della rivista: Eugene Garfield si rivolterebbe nella tomba.
Sono state individuate per la prima volta circa 12 anni fa, ma si sono
moltiplicate come un virus e stanno infettando gravemente interi ambiti di
ricerca. A volte vengono riconosciute per la prima volta quando un ricercatore
esperto in materia trova articoli anomali o fraudolenti mentre cerca di
esaminare il campo (vedi, ad esempio, Aquarius et al, 2025).
Le paper mills prosperano in un ambiente favorevole, dove editor corrotti o
incompetenti approvano articoli che contengono chiare violazioni del metodo
scientifico o che sono evidentemente una collazione di vari articoli plagiati.
La speranza degli editori è che l’IA fornisca dei modi per individuare gli
articoli fraudolenti e rimuoverli prima che entrino nella letteratura, ma i
produttori di articoli di bassa qualità hanno dimostrato di essere abili nel
mutare per eludere l’individuazione. Purtroppo, proprio le aree in cui l’IA e i
big data sembrano essere più promettenti, come i database che collegano geni,
proteine, molecole e biomarcatori, sono già contaminate. Il timore è che gli
stessi produttori di articoli di bassa qualità utilizzino sempre più l’IA per
creare articoli sempre più plausibili.
Non sono contraria alla bibliometria o all’intelligenza artificiale in linea di
principio, ma trovo preoccupante l’ottimismo riguardo alla sua applicazione alla
valutazione della ricerca, soprattutto perché non è stato fatto alcun
riferimento ai problemi che emergeranno se il database interrogato
dall’intelligenza artificiale sarà inquinato. Qualsiasi metodo di valutazione
avrà costi, benefici e conseguenze impreviste. La mia preoccupazione è che, se
ci concentriamo solo sui benefici, potremmo ritrovarci con un sistema che
incoraggia i truffatori e premia coloro che sono più abili a manipolare il
sistema piuttosto che i migliori scienziati.