GPT-4.5 di Openai sovraperformato Gli umani in un recente test di Turing di UC San Diego, mostrando quanto facilmente le persone possono confondere l’IA per una vera conversazione impegnandosi in chat fianco a fianco.
Il test Turing ha misurato a lungo se una macchina può passare come umana attraverso l’interazione basata sul testo. In questa versione aggiornata, quasi 300 partecipanti dalla lingua e dal laboratorio di cognizione di UC San Diego hanno chiacchierato con un essere umano e un’intelligenza artificiale prima di decidere quale fosse.
GPT-4.5, dotato di una persona esperta di cultura pop, ha convinto i partecipanti che era umano il 73 percento delle volte, bever sopra il benchmark del 50 % storicamente usato per definire un passaggio. Gli esseri umani reali non hanno ingannato i partecipanti così spesso.
Altri sistemi includevano Meta’s Llama 3, Openi’s GPT-4o ed Eliza, uno dei primi chatbot. Senza una persona definita, il tasso di successo di GPT-4,5 è sceso al 36 percento e GPT-4O ha segnato solo il 21 percento.
I ricercatori notano che il superamento del test di Turing non significa che un’intelligenza artificiale capisca veramente la lingua come una persona. Tuttavia, i risultati sottolineano quanto in modo convincente questi modelli possano imitare la conversazione umana, soprattutto quando assegnati ruoli specifici. I risultati sono attualmente pubblicati su un server preprint, con una versione peer-reviewed in sospeso.