Questo punto di riferimento chiede se l'IA può pensare come un ingegnere

Secondo un nuovo studio intitolato “Feabench: valutare i modelli linguistici sulla capacità di ragionamento multifisico“ Dai ricercatori di Google e Harvard, i modelli di linguaggio di grandi dimensioni possono parlare di un grande gioco, ma quando si tratta di ingegneria del mondo reale, la maggior parte non può nemmeno eseguire correttamente una simulazione di calore.

Questo nuovo punto di riferimento, soprannominato Feabenchnon testare i modelli su problemi di generazione di codice o di fisica dei libri di testo. Li sfida a risolvere compiti di ingegneria complessi e basati sulla simulazione COMSOL MULTIFISICIuna piattaforma FEA (Finite Element Element Analysis) di livello professionale. In altre parole, chiede: il tuo assistente di intelligenza artificiale preferito può costruire un raggio virtuale, applicare la fisica giusta e calcolare effettivamente cosa succederà dopo?

Perché la simulazione batte lo sputoball

Fea non riguarda approssimazioni. Si tratta di tradurre la realtà fisica in precisione numerica: la modellatura del modo in cui il calore si diffonde in un semiconduttore, come un raggio si flette sotto pressione, come si propaga il fallimento del materiale. Queste sono domande che definiscono il successo ingegneristico o la catastrofe. A differenza dei benchmark generici, Feabench alza la barra: richiede motivi di intelligenza artificiale attraverso la fisica multi-dominio e gestire strumenti di simulazione di livello professionale per risolvere effettivamente i problemi.

Questo punto di riferimento chiede se l'IA può pensare come un ingegnere — Screenshot prelevato dallo studio condiviso

Benchmarking the non benchmarkeble

Feabench colma un divario che i benchmark di AI esistenti mancano. Il lavoro precedente ha ampiamente misurato le prestazioni in matematica simbolica o generazione di codice, ma la scienza basata sulla simulazione ha bisogno di più della sintassi. Ha bisogno di una comprensione semantica della geometria spaziale, delle interazioni materiali e dei risolutori numerici. Feabench lo fa valutando se LLMS può avere un problema di fisica del linguaggio naturale, generare chiamate API COMSOL Multiphysics® e calcolare il risultato corretto.

Il benchmark è disponibile in due livelli. Feabench Gold Include 15 problemi meticolosamente verificati con input puliti, target chiaramente definiti e valori di output corretti, ciascuno risolvibile tramite API Java di COMSOL. Questi coinvolgono domini di fisica dal trasferimento di calore alla meccanica quantistica. Poi c’è Feabench grande: Un insieme di 200 tutorial algoritmicamente analizzati che testano una generazione di codice più ampia ma mancano di una verità di base rigorosa. Test d’oro precisione; Ampiezza di grandi prove.

Per affrontare questi compiti, i ricercatori hanno costruito una pipeline agente completa. UN Controlleragent Supervisiona il processo. UN CorrectOrsubagent Iterativamente perfeziona il codice in base agli errori di esecuzione. UN Toollookupagent recupera documentazione fisica o frammenti di codice annotato per aiutare. IL Valutatore Utilizza sia il feedback dell’API che un Verifierllm per valutare se la soluzione ha senso. Questo sistema non sta solo eseguendo i suggerimenti a un colpo sola: sta navigando, correggendo e apprendendo dagli errori.

I pesi chiusi vincono, ma ancora sudare

Nelle prove di base, modelli a source chiusa come Claude 3.5, GPT-4O e Gemini 1.5 hanno superato i modelli di peso aperto. Claude 3.5 ha guidato il pacchetto, raggiungendo l’esecutabilità del 79% e segnando l’unico obiettivo valido su un problema d’oro. I modelli aperti hanno lottato, con alcune interfacce di fisica allucinante o funzionalità di applicazione erroneamente. La parte più impegnativa? IL blocco di fisicadove i modelli dovevano applicare condizioni al contorno accurate e proprietà di fisica per ottenere risultati corrispondenti alla verità di terra.

Sonetto Claude 3.5: 0,79 eseguibilità, 1/15 target valido
GPT-4O: 0,78 eseguibilità, 0/15 target valido
Gemini-1.5-Pro: 0,60 eseguibilità, 0/15 target valido

Quando un piano non è sufficiente

Il benchmark include due tipi di attività. Nel ModelSpecs Attività, l’LLM viene data solo le specifiche tecniche e deve ragionare una soluzione. Nel Piano Attività, il modello ottiene istruzioni passo-passo. Sorprendentemente, il compito del piano non ha portato a prestazioni migliori. I modelli spesso fallirono prendendo le istruzioni troppo letteralmente e allucinando i nomi API errati. Aggiunta di un elenco di funzionalità COMSOL valide al prompt: chiamato il Phydoc in-context Strategia: le trattenute riducono significativamente le allucinazioni e migliorano significativamente la fattualità dell’interfaccia.

Lezioni per gli ingegneri AI

Un grande asporto: la traduzione è più difficile della pianificazione. Anche quando il modello sa cosa fare, esprimerlo nel DSL di Comsol (linguaggio specifico del dominio) è il blocco stradale. La soluzione del team? Fornire strumenti di messa a terra come librerie di codice annotate e documentazione in contesto, quindi abbinalo a flussi di lavoro agenti strutturati. Quella ricetta ha trasformato le scarse prestazioni a un colpo singolo in un solido miglioramento multi-turn. In effetti, la strategia dell’agente multi-svolta ha raggiunto 88% esecutabilitàil più alto di tutti gli esperimenti.

ModelSpecs + agente multi-giro: 0,88 eseguibilità, 2/15 target validi
ModelSpecs + Phydoc: 0,62 eseguibilità, 1/15 target validi

Le simulazioni sono il modo in cui gli ingegneri comprimono il tempo e il rischio. Feabench mostra che gli LLM non sono pronti a eseguire simulazioni senza supervisione, ma si stanno avvicinando a diventare utili copiloti. Ciò è importante se vogliamo che l’IA aiuti a prototipazione rapida, scoperta scientifica o progettazione strutturale. E se l’intelligenza artificiale può imparare a modellare il mondo fisico con la stessa precisione come imita il linguaggio, non chiacchierà, simulerà, risolverà e forse un giorno, persino inventare.

Credito d’immagine in primo piano

Tags: AI Fabench In primo piano

Questo punto di riferimento chiede se l’IA può pensare come un ingegnere

Related Posts

Gli strumenti di ricerca di intelligenza artificiale potrebbero creare più problemi di quello che risolvono

Il tuo partner di intelligenza artificiale generativo super utile sta rendendo noioso il tuo lavoro?

Adele di Microsoft vuole dare al tuo AI un profilo cognitivo

Apple Research Paper svela Matrix3D per la generazione di contenuti 3D

Ricerca: il gold standard per la valutazione di Genai

Ai risolve finalmente il puzzle più difficile della biologia

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.