Una discussione a San Francisco sui fornitori di intelligenza artificiale “etica” ha messo in evidenza la crescente tensione tra società di intelligenza artificiale ed editori di siti Web. Il dibattito è incentrato su come le aziende di intelligenza artificiale raccolgono i dati web per formare i loro modelli e alimentare i loro chatbot, spesso senza inviare il traffico alle fonti di contenuti originali.
Misurare lo squilibrio con un rapporto gabine-riferimenti
Per anni, il Web ha operato su un accordo non scritto: i siti Web consentono ai bot dei motori di ricerca di strisciare i loro contenuti in cambio del traffico di riferimento, che guida gli utenti e le entrate. I chatbot AI generativi interrompono questo modello fornendo risposte dirette, riducendo la necessità per gli utenti di visitare il sito Web di origine. Per quantificare questo spostamento, CloudFlare, che supporta circa il 20% dei siti Web del mondo, ha iniziato a monitorare un “rapporto gattona-riferimento”. Questa metrica confronta quante volte i robot di un’azienda accedono a un sito Web per i dati rispetto al numero di utenti umani che si riferisce a quel sito. Un rapporto elevato indica che un’azienda sta prendendo molti più dati del valore che restituisce nel traffico.
Come si confrontano le diverse aziende di intelligenza artificiale
I dati della prima settimana di settembre hanno rivelato differenze significative tra le aziende. Antropico, il produttore del chatbot di Claude, ha mostrato un rapporto di gatt-a-refer particolarmente elevato. In risposta ai risultati, Antropic ha affermato di non poter confermare le cifre di CloudFlare e notare che una nuova funzione di ricerca web lanciata all’inizio di quest’anno sta generando una quantità in rapida crescita di traffico di riferimento. Openai non ha risposto alle richieste di commento. La perplessità, un altro motore di risposta AI, ha fornito una dichiarazione dettagliata sulla questione.
Nel caso dei contenuti pubblici, gli editori possono scegliere di non rendere pubblici i loro contenuti. Nel caso di fatti, la legge sul copyright, come sapete, ha sempre tratto una linea tra fatti ed espressione. Questa è una base di indagine umana stessa.
Una nota metodologica afferma che questi rapporti tracciano solo l’attività web ed escludono il traffico dalle app native, che potrebbero ridurre i numeri complessivi. Tuttavia, la metodologia viene applicata costantemente a tutte le aziende.
L’impatto sui proprietari di siti Web e sul ruolo mutevole di Google
Questa raccolta di dati su larga scala ha costi diretti per i proprietari di siti Web. Un rapporto di un insider aziendale di circa un anno fa ha notato che la scansione di bot antropici e aperti stava causando aumenti significativi dei costi del traffico per alcuni siti, con uno sviluppatore che riportava le bollette del cloud-computing dei loro clienti erano raddoppiate. Il rapporto Crawl-to-Refer di Google è attualmente inferiore a molte aziende AI-First, in gran parte perché i suoi tradizionali risultati di ricerca si collegano ancora ai siti Web. Tuttavia, poiché Google integra risposte AI più dirette attraverso funzionalità come panoramiche di intelligenza artificiale, il suo rapporto è fluttuante. I dati di CloudFlare hanno mostrato che il rapporto di Google è aumentato da 3.3: 1 a gennaio alle 18: 1 di aprile, prima di stabilirsi alle 9: 1 di luglio. Google ha dichiarato che rimane impegnato nell’invio del traffico al Web.





