Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Questo punto di riferimento chiede se l’IA può pensare come un ingegnere

byKerem Gülen
9 Aprile 2025
in Research
Home Research

Secondo un nuovo studio intitolato “Feabench: valutare i modelli linguistici sulla capacità di ragionamento multifisico“ Dai ricercatori di Google e Harvard, i modelli di linguaggio di grandi dimensioni possono parlare di un grande gioco, ma quando si tratta di ingegneria del mondo reale, la maggior parte non può nemmeno eseguire correttamente una simulazione di calore.

Questo nuovo punto di riferimento, soprannominato Feabenchnon testare i modelli su problemi di generazione di codice o di fisica dei libri di testo. Li sfida a risolvere compiti di ingegneria complessi e basati sulla simulazione COMSOL MULTIFISICIuna piattaforma FEA (Finite Element Element Analysis) di livello professionale. In altre parole, chiede: il tuo assistente di intelligenza artificiale preferito può costruire un raggio virtuale, applicare la fisica giusta e calcolare effettivamente cosa succederà dopo?

Perché la simulazione batte lo sputoball

Fea non riguarda approssimazioni. Si tratta di tradurre la realtà fisica in precisione numerica: la modellatura del modo in cui il calore si diffonde in un semiconduttore, come un raggio si flette sotto pressione, come si propaga il fallimento del materiale. Queste sono domande che definiscono il successo ingegneristico o la catastrofe. A differenza dei benchmark generici, Feabench alza la barra: richiede motivi di intelligenza artificiale attraverso la fisica multi-dominio e gestire strumenti di simulazione di livello professionale per risolvere effettivamente i problemi.

Questo punto di riferimento chiede se l'IA può pensare come un ingegnere
Screenshot prelevato dallo studio condiviso

Benchmarking the non benchmarkeble

Feabench colma un divario che i benchmark di AI esistenti mancano. Il lavoro precedente ha ampiamente misurato le prestazioni in matematica simbolica o generazione di codice, ma la scienza basata sulla simulazione ha bisogno di più della sintassi. Ha bisogno di una comprensione semantica della geometria spaziale, delle interazioni materiali e dei risolutori numerici. Feabench lo fa valutando se LLMS può avere un problema di fisica del linguaggio naturale, generare chiamate API COMSOL Multiphysics® e calcolare il risultato corretto.

Il benchmark è disponibile in due livelli. Feabench Gold Include 15 problemi meticolosamente verificati con input puliti, target chiaramente definiti e valori di output corretti, ciascuno risolvibile tramite API Java di COMSOL. Questi coinvolgono domini di fisica dal trasferimento di calore alla meccanica quantistica. Poi c’è Feabench grande: Un insieme di 200 tutorial algoritmicamente analizzati che testano una generazione di codice più ampia ma mancano di una verità di base rigorosa. Test d’oro precisione; Ampiezza di grandi prove.

Per affrontare questi compiti, i ricercatori hanno costruito una pipeline agente completa. UN Controlleragent Supervisiona il processo. UN CorrectOrsubagent Iterativamente perfeziona il codice in base agli errori di esecuzione. UN Toollookupagent recupera documentazione fisica o frammenti di codice annotato per aiutare. IL Valutatore Utilizza sia il feedback dell’API che un Verifierllm per valutare se la soluzione ha senso. Questo sistema non sta solo eseguendo i suggerimenti a un colpo sola: sta navigando, correggendo e apprendendo dagli errori.

Questo punto di riferimento chiede se l'IA può pensare come un ingegnere
Screenshot prelevato dallo studio condiviso

I pesi chiusi vincono, ma ancora sudare

Nelle prove di base, modelli a source chiusa come Claude 3.5, GPT-4O e Gemini 1.5 hanno superato i modelli di peso aperto. Claude 3.5 ha guidato il pacchetto, raggiungendo l’esecutabilità del 79% e segnando l’unico obiettivo valido su un problema d’oro. I modelli aperti hanno lottato, con alcune interfacce di fisica allucinante o funzionalità di applicazione erroneamente. La parte più impegnativa? IL blocco di fisicadove i modelli dovevano applicare condizioni al contorno accurate e proprietà di fisica per ottenere risultati corrispondenti alla verità di terra.

  • Sonetto Claude 3.5: 0,79 eseguibilità, 1/15 target valido
  • GPT-4O: 0,78 eseguibilità, 0/15 target valido
  • Gemini-1.5-Pro: 0,60 eseguibilità, 0/15 target valido

Quando un piano non è sufficiente

Il benchmark include due tipi di attività. Nel ModelSpecs Attività, l’LLM viene data solo le specifiche tecniche e deve ragionare una soluzione. Nel Piano Attività, il modello ottiene istruzioni passo-passo. Sorprendentemente, il compito del piano non ha portato a prestazioni migliori. I modelli spesso fallirono prendendo le istruzioni troppo letteralmente e allucinando i nomi API errati. Aggiunta di un elenco di funzionalità COMSOL valide al prompt: chiamato il Phydoc in-context Strategia: le trattenute riducono significativamente le allucinazioni e migliorano significativamente la fattualità dell’interfaccia.

Questo punto di riferimento chiede se l'IA può pensare come un ingegnere
Screenshot prelevato dallo studio condiviso

Lezioni per gli ingegneri AI

Un grande asporto: la traduzione è più difficile della pianificazione. Anche quando il modello sa cosa fare, esprimerlo nel DSL di Comsol (linguaggio specifico del dominio) è il blocco stradale. La soluzione del team? Fornire strumenti di messa a terra come librerie di codice annotate e documentazione in contesto, quindi abbinalo a flussi di lavoro agenti strutturati. Quella ricetta ha trasformato le scarse prestazioni a un colpo singolo in un solido miglioramento multi-turn. In effetti, la strategia dell’agente multi-svolta ha raggiunto 88% esecutabilitàil più alto di tutti gli esperimenti.

  • ModelSpecs + agente multi-giro: 0,88 eseguibilità, 2/15 target validi
  • ModelSpecs + Phydoc: 0,62 eseguibilità, 1/15 target validi

Le simulazioni sono il modo in cui gli ingegneri comprimono il tempo e il rischio. Feabench mostra che gli LLM non sono pronti a eseguire simulazioni senza supervisione, ma si stanno avvicinando a diventare utili copiloti. Ciò è importante se vogliamo che l’IA aiuti a prototipazione rapida, scoperta scientifica o progettazione strutturale. E se l’intelligenza artificiale può imparare a modellare il mondo fisico con la stessa precisione come imita il linguaggio, non chiacchierà, simulerà, risolverà e forse un giorno, persino inventare.


Credito d’immagine in primo piano

Tags: AIFabenchIn primo piano

Related Posts

Gli strumenti di ricerca di intelligenza artificiale potrebbero creare più problemi di quello che risolvono

Gli strumenti di ricerca di intelligenza artificiale potrebbero creare più problemi di quello che risolvono

14 Maggio 2025
Il tuo partner di intelligenza artificiale generativo super utile sta rendendo noioso il tuo lavoro?

Il tuo partner di intelligenza artificiale generativo super utile sta rendendo noioso il tuo lavoro?

14 Maggio 2025
Adele di Microsoft vuole dare al tuo AI un profilo cognitivo

Adele di Microsoft vuole dare al tuo AI un profilo cognitivo

14 Maggio 2025
Apple Research Paper svela Matrix3D per la generazione di contenuti 3D

Apple Research Paper svela Matrix3D per la generazione di contenuti 3D

14 Maggio 2025
Ricerca: il gold standard per la valutazione di Genai

Ricerca: il gold standard per la valutazione di Genai

12 Maggio 2025
Ai risolve finalmente il puzzle più difficile della biologia

Ai risolve finalmente il puzzle più difficile della biologia

6 Maggio 2025

Recent Posts

  • L’impatto dei tessuti intelligenti sulle prestazioni di abbigliamento tattico
  • Databricks scommette grandi su Postgres senza server con la sua acquisizione di neon da $ 1 miliardo
  • Alphaevolve: come la nuova AI di Google mira alla verità con l’auto-correzione
  • Tiktok sta implementando testi ALT generati dall’IA per una migliore accessibilità
  • Trump costringe Apple a ripensare la sua strategia di iPhone India

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.