Molti penserebbero che il boom dell’IA abbia immediatamente acceso un’enorme richiesta di dati sul web pubblico. Dopotutto, questi modelli sono addestrati sui dati e molti di questi sono su Internet. Ha un po ‘di verità, ma non è l’intera storia.
Quando strumenti come CHATGPT hanno iniziato a lanciarsi uno dopo l’altro, i modelli di AI su cui si basavano erano già addestrati. I dati sono già stati acquisiti da varie fonti e utilizzati per creare gli strumenti introdotti ai consumatori. Naturalmente, questi strumenti miglioravano sempre con l’aiuto di dati aggiuntivi. Tuttavia, gran parte di questi dati sono stati raccolti attraverso interazioni con gli utenti o dagli sviluppatori di questi strumenti tramite i loro metodi interni. All’inizio, questo era abbastanza.
Le cose hanno iniziato a cambiare quando a queste soluzioni è stata data la potenza dei motori di ricerca di accedere ai dati in tempo reale. La necessità di dati Web è salita alle stelle. Anche quello era solo il riscaldamento rispetto alla domanda di dati Web che sta accelerando in questo momento.
Un ponte sul divario della conoscenza
Progredire rapidamente nell’era dell’IA. Ma se ripensi a quando sono stati rilasciati i primi strumenti di intelligenza artificiale conversazionale, potresti ricordare che avevano una debolezza evidente rispetto ai motori di ricerca tradizionali: un taglio della conoscenza.
Potevano solo sapere cosa è successo fino alla data in cui sono stati rilasciati o aggiornati l’ultima volta. Pertanto, c’era un divario tra la realtà in cui vivevi e l’ultimo aggiornamento. Strumenti come CHATGPT non ti hanno fallito quando si desidera esplorare eventi recenti o ottenere informazioni aggiornate e pertinenti.
Ciò è cambiato con il progresso dei motori di ricerca basati sull’intelligenza artificiale. Al fine di fornire risultati di ricerca generativi pertinenti e affidabili, questi strumenti devono avere accesso ai dati online in tempo reale. Era necessario un ponte tra i modelli e Internet, su cui le informazioni potevano viaggiare istantaneamente.
Molte parti, come vaste reti proxy, raschiatura delle API e altri strumenti per l’integrazione senza soluzione di continuità e l’accesso aperto ai siti Web, si combinano per creare l’infrastruttura di raccolta dei dati Web – quel ponte necessario.
E questo è solo l’inizio. IL Impatto della ricerca generativa Su come navighiamo in Internet sarà quasi certamente il più grande da quando la ricerca di Google è arrivata nel 1998. Mentre assistiamo alle sue aziende che si svolgono, dai motori di ricerca classici affermati alle startup emergenti e affamate, stanno correndo per ritagliarsi il loro spazio nel futuro della ricerca. Quella gara dipende in gran parte da quanto un ponte affidabile stia correndo.
L’IA diventa multimodale
I modelli AI con cui abbiamo più familiarità operare in uno spazio limitato. I chatbot possono leggere e rispondere alle istruzioni basate sul testo. Anche gli strumenti più avanzati che possono generare immagini basati su istruzioni in linguaggio naturale hanno limiti abbastanza severi.
Un prossimo passo naturale nell’evoluzione dell’IA, AI multimodale Utilizza più tipi di dati per fornire output più versatili, approfonditi e ben basati. L’intelligenza artificiale multimodale di addestramento richiede grandi volumi di video, audio, testo, discorso e altri tipi di dati. Questi modelli consentiranno inoltre la generazione di video basata su AI di livello successivo, risultando in una consistenza più alta e interna delle riprese generate.
Mentre la competizione si intensifica con nuovi giocatori come Deep -Week Emergendo improvvisamente e apparentemente dal nulla, la domanda è quali aziende sono in anticipo nello sviluppo di strumenti multimodali a porte chiuse. Qualunque siano, quelle aziende hanno bisogno di capacità di raschiatura dei dati, che non hanno precedenti anche nell’era dei big data.
Per creare strumenti multimodali efficaci, in particolare i generatori di video, gli sviluppatori devono raschiare molti dati video. Rasphing video non è come raschiare l’HTML delle pagine Web basate sul testo. Le dimensioni e la complessità dell’attività sono completamente diverse. In primo luogo, i set di dati video sono migliaia di volte più grandi dei set di dati HTML. In secondo luogo, è necessario ottenere le immagini, il suono, le trascrizioni – tutti gli aspetti di un video, per rendere il tuo strumento competitivo nel mercato esplosivo.
Pertanto, le aziende hanno bisogno di un flusso costante di dati che siano sia enormi che diversi. A parte la vastità, l’infrastruttura richiesta deve possedere funzionalità avanzate di elaborazione dei dati per gestire questo flusso senza errori. Alcune aziende potrebbero optare per set di dati o soluzioni pronti per evitare anche i minimi ritardi che possono essere molto costosi nel mercato frenetico.
Multimodale si incontra multilingue
La domanda di AI multilingue affidabile è enorme. Può rendere la vita molto più semplice rimuovendo le barriere linguistiche nelle situazioni quotidiane, oltre a semplificare Operazioni commerciali internazionali. Maggior parte Modelli di grande lingua sono stati addestrati per operare principalmente in inglese e mentre stanno migliorando, c’è ancora molta strada da fare.
Questa è un’altra area di competizione che potrebbe essere particolarmente attraente per le startup dell’IA che non possono competere nei mercati dei modelli AI dominanti a base inglese. Internet parla di tutte le lingue e sta esaminando un’altra ondata di estrazione dei dati da parte degli sviluppatori che corrono per costruire strumenti di priorità del linguaggio multilingue o non inglesi.
E poiché questa già considerevole domanda si accoppia con la domanda di generazione di video in altre lingue, si può facilmente capire perché prima era solo un riscaldamento per l’IA. Molto nello sviluppo dell’IA è stato rimandato per dopo, dopo che le basi possono essere padroneggiate. Che in seguito è arrivato. Ora, AI vuole creare qualsiasi cosa in qualsiasi media e parlare tutte le lingue. Per raggiungere questo obiettivo, molti dati non sfruttati devono ancora essere estratti.
Dati sempreverdi
Per riassumere, anche nell’età in cui i dati Web raschiatura sono cruciali per dominare i paesaggi tecnologici del futuro, molti dati devono ancora essere raschiati. Quelli con gli strumenti per ottenere prima tali dati si posizieranno per guidare la fase successiva dello sviluppo dell’IA.
Tuttavia, anche dopo che gli strumenti multimodali di prossima generazione vengono addestrati e rilasciati e la necessità di set di dati video per la formazione si attenua, ci saranno sempre un tipo di dati in dati ad alta domanda: i dati in tempo reale. I migliori strumenti di intelligenza artificiale saranno quelli in grado di fornire informazioni pertinenti e comprendere il contesto attuale.
Pertanto, ciò di cui gli sviluppatori di intelligenza artificiale hanno bisogno anche di più dei grandi set di dati che alla fine invecchiano è l’integrazione con il Web che consente un flusso costante di dati, appena generato ogni secondo. Costruire quell’integrazione e renderlo affidabile è la sfida che definirà il futuro dei mercati dell’IA.