All’ultima conferenza sull’intelligenza artificiale, abbiamo avuto la possibilità di incontrarci con Roman Shaposhnik e Tanya Dadasheva, cofondatori di Ainekko/AIFoundry, e discutere con loro l’ambiguo argomento relativo al valore dei dati per le imprese ai tempi dell’intelligenza artificiale. Una delle domande chiave da cui siamo partiti è stata: la maggior parte delle aziende utilizza gli stessi modelli di intelligenza artificiale di frontiera, incorporare i propri dati è l’unico modo in cui hanno la possibilità di differenziarsi? I dati sono davvero un fossato per le imprese?
Romano ricorda: “Nel 2009, quando ha iniziato a lavorare nella comunità dei big data, tutti parlavano di come le aziende si sarebbero trasformate sfruttando i dati. A quel tempo non erano nemmeno imprese digitali; la trasformazione digitale non era ancora avvenuta. Si trattava per lo più di imprese analogiche, ma stavano già sottolineando il valore dei dati raccolti: dati sui clienti, sulle transazioni, sulle catene di fornitura e altro ancora. Le persone paragonavano i dati al petrolio, qualcosa con un valore intrinseco che doveva essere estratto per realizzare il suo vero potenziale.”
Tuttavia, il petrolio è una merce. Quindi, se confrontiamo i dati con il petrolio, ciò suggerisce che tutti hanno accesso agli stessi dati, anche se in quantità diverse e più facili da raccogliere per alcuni. Questo confronto fa sì che i dati sembrino una merce, disponibile a tutti ma elaborata in modi diversi.
Quando i dati si trovano in un data warehouse aziendale nella loro forma grezza, sono come un blob amorfo, un bene che tutti hanno. Tuttavia, una volta che inizi a perfezionarli, è allora che entra in gioco il valore reale. Non si tratta solo di acquisire dati, ma di costruire un processo dall’estrazione al perfezionamento di tutto il valore attraverso la pipeline.
“È interessante notare che questo mi ricorda qualcosa che mi disse una volta un dirigente di una compagnia petrolifera” – condivide Romano. “Quel dirigente ha descritto l’attività non come l’estrazione del petrolio ma come la riconfigurazione delle molecole di carbonio. Il petrolio, per loro, era semplicemente una fonte di carbonio. Avevano costruito catene di approvvigionamento in grado di riconfigurare queste molecole di carbonio in prodotti su misura per le richieste del mercato in diversi luoghi: plastica, benzina, qualunque fosse la necessità. Immaginava raffinerie definite dal software in grado di adattare i risultati in base alle esigenze del mercato in tempo reale. Questo concetto mi ha sconvolto e penso che sia parallelo a ciò che vediamo oggi nei dati: portare il calcolo sui dati, perfezionandolo per ottenere ciò di cui hai bisogno, dove ti serve” – è stata l’intuizione di Roman.
Nelle aziende, quando inizi a raccogliere dati, ti rendi conto che sono frammentati e distribuiti in molti luoghi, a volte bloccati nei mainframe o sparsi in sistemi come Salesforce. Anche se riesci a raccoglierlo, ci sono così tanti silos e abbiamo bisogno di un approccio simile al fracking per estrarre le parti preziose. Proprio come il fracking estrae petrolio da luoghi precedentemente irraggiungibili, abbiamo bisogno di metodi per ottenere dati aziendali che altrimenti rimarrebbero bloccati.
Molti dati aziendali risiedono ancora nei mainframe e farli uscire è impegnativo. Ecco un fatto divertente: con un’alta probabilità, se prenoti un volo oggi, il backend colpisce ancora un mainframe. Non si tratta solo di estrarre i dati una volta; è necessario un accesso continuo ad esso. Molte aziende stanno facendo affari aiutando le imprese a estrarre dati dai vecchi sistemi e strumenti come Apache Airflow stanno aiutando a semplificare questi processi.
Ma anche se i dati non sono più bloccati nei mainframe, sono ancora frammentati tra sistemi come servizi cloud SaaS o data lake. Ciò significa che le aziende non hanno tutti i dati in un unico posto e certamente non sono accessibili o tempestivi quanto necessitano. Potresti pensare che partire da zero ti darebbe un vantaggio, ma anche i sistemi più nuovi dipendono da più partner e questi partner controllano parte dei dati di cui hai bisogno.
L’intera nozione di dati come fossato si rivela quindi fuorviante. Concettualmente, le aziende possiedono i propri dati, ma spesso non hanno un accesso reale. Ad esempio, un’azienda che utilizza Salesforce possiede i dati, ma il controllo effettivo e l’accesso a tali dati sono limitati da Salesforce. La distinzione tra possedere e possedere dati è significativa.
“Le cose diventano ancora più complicate quando l’intelligenza artificiale inizia a essere coinvolta” – afferma Tanya Dadasheva, un’altra co-fondatrice di AInekko e AIFoundry.org. “Un’azienda potrebbe possedere dati, ma ciò non significa necessariamente che un’azienda come Salesforce possa utilizzarli per addestrare i modelli. C’è anche il dibattito sulla possibilità o meno di utilizzare i dati resi anonimi per la formazione: dal punto di vista legale è una zona grigia. In generale, più i dati vengono resi anonimi, minore è il loro valore. Ad un certo punto, ottenere il permesso esplicito diventa l’unica via da seguire”.
Questo problema di proprietà si estende oltre le imprese; colpisce anche gli utenti finali. Gli utenti spesso accettano di condividere i dati, ma potrebbero non accettare di utilizzarli per i modelli di training. Si sono verificati casi di reverse engineering dei dati provenienti dai modelli, che hanno portato a potenziali violazioni della privacy.
In una fase iniziale di bilanciamento tra produttori di dati, consumatori di dati e entità che perfezionano i dati, dal punto di vista legale e tecnologico è estremamente complesso capire come funzioneranno queste relazioni. L’Europa, ad esempio, ha norme sulla privacy molto più severe rispetto agli Stati Uniti (https://artificialintelligenceact.eu/). Negli Stati Uniti, il sistema legale spesso risolve le cose sul momento, mentre l’Europa preferisce stabilire le leggi in anticipo.
Tanya affronta la disponibilità dei dati qui: “Tutto ciò si ricollega al valore dei dati disponibili. Gli enormi modelli linguistici che abbiamo costruito sono cresciuti in modo impressionante grazie ai dati pubblici e semi-pubblici. Tuttavia, gran parte dei contenuti più recenti sono ora intrappolati in “giardini recintati” come WeChat, Telegram o Discord, dove sono inaccessibili per la formazione: il vero dark web! Ciò significa che i modelli potrebbero diventare obsoleti e non essere in grado di apprendere dai nuovi dati o comprendere le nuove tendenze.
Alla fine, rischiamo di creare modelli rimasti bloccati nel passato, senza la possibilità di assorbire nuove informazioni o di adattarsi a nuovi stili di conversazione. Conterranno ancora dati più vecchi e il comportamento e la cultura della nuova generazione non saranno rappresentati. Sarà come parlare con un nonno: interessante, ma sicuramente d’altri tempi.“

Ma chi sono gli utenti interni dei dati in un’impresa? Roman ricorda le tre epoche del concetto di utilizzo dei dati all’interno delle imprese: “Ovviamente viene utilizzato per molte decisioni, motivo per cui esiste l’intera parte di business intelligence. In realtà tutto è iniziato con la business intelligence. Le aziende dovevano fare previsioni e segnalare ai mercati azionari cosa si aspettano che accada nel prossimo trimestre o qualche trimestre a venire. Molte di queste decisioni sono state guidate dai dati per molto tempo. Questo è il primo livello di utilizzo dei dati: molto semplice e orientato al business.
Il secondo livello ha avuto inizio con la nozione di impresa definita digitalmente o di trasformazione digitale. Le aziende hanno capito che ciò che conta è il modo in cui interagiscono con i clienti, non necessariamente il prodotto reale che stanno vendendo in quel momento. Il rapporto con il cliente è di per sé un valore. Volevano che quella relazione durasse il più a lungo possibile, a volte fino all’estremo di tenerti incollato allo schermo il più a lungo possibile. Si tratta di modellare il comportamento del consumatore e fargli fare determinate cose. Ciò può essere fatto solo analizzando molte cose diverse su di te: il tuo status sociale ed economico, la tua identità di genere e altri dati che consentono loro di mantenere quella relazione il più a lungo possibile.
Ora arriviamo al terzo livello o terza fase di come le aziende possono trarre vantaggio dai prodotti dati. Tutti parlano di questi sistemi ad agenti perché le imprese ora vogliono essere aiutate non solo dalla forza lavoro umana. Anche se sembra futuristico, spesso è semplice come capire quando dovrebbe svolgersi una riunione. Ci siamo sempre trovati in situazioni in cui sono necessarie cinque e-mail diverse e tre chiamate per capire come due persone possano incontrarsi a pranzo. Sarebbe molto più semplice se un agente elettronico potesse negoziare tutto questo per noi e aiutarci. Questo è un esempio semplice, ma le aziende ne hanno molti altri. Ora si tratta di esternalizzare alcuni aspetti dell’impresa in questi agenti. Ciò può essere fatto solo se si riesce a formare un agente AI su molti tipi di modelli che l’azienda ha utilizzato in passato.”
Tornando a chi raccoglie e chi possiede e, alla fine, trae vantaggio dai dati: il primo assaggio di ciò che Roman ha avuto quando ha lavorato a Pivotal su alcuni progetti che hanno coinvolto compagnie aeree e aziende che producono motori:
“Quello che non sapevo in quel momento è che a quanto pare il motore non lo compri; prendi in leasing il motore. Questo è il modello di business. E le aziende produttrici di motori disponevano di tutti questi dati, di tutta la telemetria di cui avevano bisogno per ottimizzare il motore. Ma poi la compagnia aerea ha detto: “Aspetta un attimo. Sono esattamente gli stessi dati di cui abbiamo bisogno per ottimizzare le rotte di volo. E siamo noi a raccogliere questi dati per te perché in realtà voliamo sull’aereo. Il tuo motore rimane a terra finché non c’è un pilota nella cabina di pilotaggio che fa effettivamente volare l’aereo. Quindi chi trarrà profitto dai dati? Stiamo già pagando troppo per spingere le persone a mantenere quei motori. Quindi ora ci stai dicendo che ti forniremo i dati gratuitamente? No, no, no.”
L’intero argomento è davvero avvincente perché è esattamente ciò che si sta ripetendo tra OpenAI e tutte le grandi imprese. Le grandi imprese pensano che OpenAI sia fantastico; possono costruire questo chatbot in pochi minuti: è fantastico. Ma possono effettivamente inviare a OpenAI i dati necessari per la messa a punto e tutte queste altre cose? E in secondo luogo, supponiamo che anche queste aziende possano farlo. Supponiamo che sia il tipo di dati che va bene, ma sono i loro dati, raccolti da quelle aziende. Sicuramente vale qualcosa per OpenAI, quindi perché non abbassano il conto dal lato dell’inferenza per le aziende che lo hanno riscosso?
E qui entra in gioco la domanda principale del mondo dei dati di oggi: è lo stesso con l’intelligenza artificiale?
In qualche modo lo è, ma con sfumature importanti. Se possiamo avere un futuro in cui il “motore” principale di un aereo, il modello, viene prodotto da queste aziende più grandi, e poi le imprese sfruttano i loro dati per mettere a punto o aumentare questi modelli, allora ci sarà una coesistenza molto armoniosa di una cosa davvero complessa e, per di più, una cosa più altamente specializzata, forse meno complessa. Se ciò accadesse e avesse successo dal punto di vista tecnologico, allora sarebbe molto più semplice parlare a livello economico e politico di cosa appartiene a chi e di come suddividiamo i set di dati.
Ad esempio, Roman cita la sua conversazione con un esperto che progetta automobili per vivere: “Ha detto che ci sono fondamentalmente due tipi di progettisti di automobili: uno che progetta un’auto per un motore, e l’altro che progetta un’auto e poi acquista un motore. Se oggi produci un’auto, è molto più semplice procurarsi il motore perché è la parte più complessa dell’auto. Tuttavia, sicuramente non definisce il prodotto. Ma comunque, il modo in cui funziona l’industria: è molto più facile da dire, beh, dati alcuni vincoli, scelgo un motore e poi sto progettando un’intera gamma di auto attorno a quel motore o almeno a quel tipo di motore.“
Questo ci porta al seguente concetto: crediamo che questo sarà l’aspetto del mondo dei dati basato sull’intelligenza artificiale. Ci saranno il campo “Google” e il “campo Meta”, e tu sceglierai uno di questi modelli aperti: saranno tutti abbastanza buoni. E poi, tutte le cose a cui sei interessato come azienda, sono costruite su di esse in termini di applicazione dei tuoi dati e del tuo know-how su come perfezionarli e aggiornare continuamente quei modelli da diversi “campi” . Nel caso in cui ciò funzioni tecnologicamente ed economicamente, emergerà un mondo nuovo e coraggioso.