Dataconomy IT
  • News
  • Industry
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Gli strumenti di ricerca di intelligenza artificiale potrebbero creare più problemi di quello che risolvono

byEmre Çıtak
14 Maggio 2025
in Research
Home Research

Un nuovo studio ha scoperto Un allarmante aumento dei documenti di ricerca formulaici derivati ​​dal National Health and Nutrition Examination Survey (NHANES), suggerendo che gli strumenti di intelligenza artificiale vengono utilizzati in modo improprio per produrre in serie la letteratura scientifica statisticamente debole e potenzialmente fuorviante. Gli autori indicano un aumento delle analisi a fattori singoli che ignorano la complessità multifattoriale, sfruttano selettivamente i dati aperti e bypassano robuste correzioni statistiche.

Fra 2014 e 2021solo quattro di questi articoli sono stati pubblicati ogni anno. Ma solo nel 2024, fino al 9 ottobre, il conteggio era salito a 190. Questa crescita esponenziale, abbinata a un cambiamento nelle origini della pubblicazione e una dipendenza dall’automazione, indica che le condutture assistite dall’IA potrebbero accelerare la produzione di manoscritti di bassa qualità. Al centro del problema c’è l’uso improprio di NHANES, un set di dati del governo degli Stati Uniti rispettato e pronto per l’IA originariamente sviluppato per valutare le tendenze di salute pubblica in tutta la popolazione.

Disimballare il problema di NHANES

NHANES fornisce un set di dati eccezionalmente ricco, combinando dati clinici, comportamentali e di laboratorio su migliaia di variabili. È accessibile tramite API e ha librerie standardizzate di Python e R, consentendo ai ricercatori di estrarre e analizzare i dati in modo efficiente. Questo lo rende uno strumento prezioso sia per i ricercatori di sanità pubblica che per gli sviluppatori di intelligenza artificiale. Ma questa comodità crea anche una vulnerabilità: consente ai ricercatori di generare risultati rapidamente e con una supervisione minima, portando a un’esplosione di ricerca formulaica.

Il nuovo studio ha analizzato 341 articoli con sede a NHANES pubblicati tra il 2014 e il 2024 che si basavano su correlazioni a variazione singola. Questi articoli, in media, sono apparsi in riviste a impatto moderato (fattore di impatto medio di 3,6) e spesso si sono concentrati su condizioni come depressione, diabete o malattie cardiovascolari. Invece di esplorare la natura multifattoriale di queste condizioni, gli studi in genere hanno attinto al significato statistico da una singola variabile indipendente, aggirando la correzione della falsa scoperta e si basano frequentemente sul sottoinsieme di dati inspiegabili.

Una delle principali preoccupazioni è che le condizioni di salute multifattoriale, come i disturbi della salute mentale, l’infiammazione cronica o le malattie cardiovascolari, siano state analizzate usando metodi più adatti per semplici relazioni binarie. In effetti, questi studi hanno presentato risultati che hanno rimosso la sfumatura e hanno ignorato la realtà che i risultati della salute sono raramente guidati da un singolo fattore.

La depressione è stata utilizzata come caso di studio, con 28 singoli articoli che rivendicano associazioni tra la condizione e varie variabili indipendenti. Tuttavia, solo 13 di queste associazioni sono rimasti statisticamente significativi dopo aver applicato la correzione del tasso di scoperta falsa (FDR). Senza una correzione adeguata, queste pubblicazioni rischiano di introdurre un volume elevato di Errori di tipo I. nella letteratura scientifica. In alcuni casi, i ricercatori sembravano riciclare le variabili sia come predittori che risultati attraverso le carte, confondendo ulteriormente le acque.


Adele di Microsoft vuole dare al tuo AI un profilo cognitivo


Data mining selettiva e spalmatura

Un altro problema scoperto dagli autori era l’uso di sottoinsiemi di dati ingiustificati. Sebbene NHANES fornisca un’ampia sequenza temporale di dati sanitari risalenti al 1999, molti ricercatori hanno scelto finestre ristrette di analisi senza divulgare la logica. Ad esempio, alcuni studi hanno usato solo il 2003-2018 Finestra per analizzare il diabete e l’infiammazione, nonostante la più ampia disponibilità di dati. La pratica accenna al dragaggio dei dati o al rastrello, ipotizzando dopo i risultati, un approccio metodologicamente imperfetto che mina la riproducibilità e la trasparenza.

Lo studio medio ha analizzato solo quattro anni di dati NHANES, nonostante il database che offre oltre due decenni di informazioni. Questo campionamento selettivo consente agli autori di aumentare la probabilità di ottenere risultati significativi senza tenere conto della complessità del set di dati completo, rendendo più facile produrre e pubblicare manoscritti ad alto volume.

Dei 341 articoli esaminati, oltre il 50 % è nato da sole tre famiglie di editori: Frontiers, Biomed Central e Springer. Più in particolare, il paese di origine si spostò drammaticamente. Prima del 2021, solo l’8 % degli autori primari era sede in Cina. Tra il 2021 e il 2024, questo è salito al 92 percento. Sebbene ciò possa riflettere le mutevoli priorità di ricerca o gli incentivi politici, l’entità e la tempistica suggeriscono l’uso coordinato di condutture automatizzate eventualmente legate alle operazioni della cartiera.

I risultati rappresentano una seria sfida per l’integrità della letteratura scientifica. Studi a variabile singola che non considerano interdipendenze complesse hanno maggiori probabilità di essere fuorvianti. Se ripetuti su vasta scala, tale ricerca inonda l’ecosistema accademico con documenti che soddisfano soglie di pubblicazione ma offrono poche nuove intuizioni. Ciò è aggravato dalla debole revisione tra pari e dalla crescente pressione sui ricercatori per pubblicare frequentemente e rapidamente.

Gli autori avvertono che queste pratiche, se lasciate incontrollate, potrebbero spostare l’equilibrio in alcuni sottocampi in cui i documenti fabbricati superano le legittime. L’uso dell’IA per accelerare la generazione dei manoscritti amplifica solo questo rischio. Man mano che i modelli generativi diventano più accessibili, consentono una rapida conversione di risultati statistici in manoscritti a lunghezza intera, riducendo il tempo e le competenze necessarie per pubblicare articoli scientifici.

Raccomandazioni per le parti interessate:

Per mitigare i rischi di dragaggio dei dati abilitati e ricerche prodotte in serie, gli autori propongono diverse fasi concrete:

  • Per i ricercatori: Riconoscere i limiti degli studi a fattori singolo e incorporare l’analisi multifattoriale se del caso. Giustificare chiaramente qualsiasi cambiamento di sottogruppo di dati o ipotesi.
  • Per i fornitori di dati: Introdurre l’accesso verificabile tramite chiavi API o ID applicazioni per scoraggiare il mining indiscriminato. Richiedi che qualsiasi pubblicazione che cita i propri set di dati riveli l’intera cronologia di estrazione dei dati.
  • Per gli editori: Aumenta i tassi di rifiuto della scrivania per i documenti formulaici. Impiegare revisori statistici dedicati. Usa i modelli per identificare i manoscritti usando pipeline identiche con solo swap variabili.
  • Per i revisori dei pari: Trattare l’uso di analisi a variazione singola per condizioni complesse come bandiera rossa. Richiedi chiarimenti quando manca il rigore statistico o i sottoinsiemi di dati sono scarsamente giustificati.
  • Per la più ampia comunità scientifica: Impegnarsi nella revisione post-pubblicazione. Piattaforme come PubPeer dovrebbero essere attivamente utilizzate per contrassegnare pratiche discutibili, anche quando i metodi statistici appaiono superficialmente validi.

Credito d’immagine in primo piano

Tags: AI

Recent Posts

  • Pronto per un chatgpt che ti conosce veramente?
  • Gli strumenti di ricerca di intelligenza artificiale potrebbero creare più problemi di quello che risolvono
  • Il tuo partner di intelligenza artificiale generativo super utile sta rendendo noioso il tuo lavoro?
  • Adele di Microsoft vuole dare al tuo AI un profilo cognitivo
  • Apple Research Paper svela Matrix3D per la generazione di contenuti 3D

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us

Social icon element need JNews Essential plugin to be activated.
  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.