Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

PDDL-instruction del MIT migliora la validità del piano Llama-3-8b

byEmre Çıtak
22 Settembre 2025
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

I ricercatori del laboratorio di informatica e intelligenza artificiale del MIT hanno sviluppato PDDL-instruct, un framework che utilizza ragionamento logico e validazione esterna per migliorare il modo in cui i modelli linguistici di grandi dimensioni generano piani in più fasi, ottenendo una validità fino al 94% su riferimenti specifici. Il framework affronta il fallimento comune dei modelli di grandi dimensioni (LLMS) di produrre piani logicamente validi, che spesso sembrano plausibili ma sono errati. PDDL-Istruct contrasta questo integrando una semantica esplicita dello stato e dell’azione con il controllo della verità di terra. Attraverso “Error Education”, i modelli sono addestrati per spiegare i fallimenti del piano, tra cui precondizioni insoddisfatte, effetti errati, violazioni del telaio o un obiettivo non raggiunto. Un metodo di spinta a catena logica (COT) guida anche il modello per eseguire l’inferenza passo-passo, producendo tracce dettagliate sullo stato-azione-stato formattate come ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩ basate su semantica formale. Per garantire la correttezza, ogni fase di un piano generato viene verificata dal validatore del piano Val esterno. Il sistema può ricevere un feedback binario (valido/non valido) o un feedback dettagliato che specifica quale preliminare o effetto non è riuscito. La ricerca ha indicato che un feedback dettagliato ha prodotto i più forti guadagni delle prestazioni. PDDL-Instruct utilizza anche un processo di ottimizzazione a due stadi. La prima fase ottimizza le catene di ragionamento del modello penalizzando gli errori di transizione di stato. La seconda fase ottimizza quindi l’accuratezza finale del piano end-task, creando un regime di allenamento sistematico. Il sistema è stato valutato sul benchmark Planbench, che include i domini di Blocksworld, Mystery Blocksworld e logistics Planning. Mystery Blocksworld è particolarmente impegnativo in quanto offusca i nomi predicati per prevenire la corrispondenza dei modelli; I modelli precedenti hanno riportato una validità inferiore al 5% su questa attività senza supporto per gli strumenti. Con PDDL-Instruct, un modello LLAMA-3-8B ha ottenuto piani validi fino al 94% su Blocksworld. Su Mystery Blocksworld, il framework ha prodotto miglioramenti degli ordini di magnitudine, riportati fino a 64 volte meglio dei modelli di base. Sono stati anche registrati aumenti sostanziali nei piani validi nel dominio logistico. In tutti i settori, il framework ha dimostrato fino a un miglioramento assoluto del 66% nella generazione di piani validi rispetto alle baseline non fatte. Le prestazioni sono state ulteriormente migliorate utilizzando un feedback valido dettagliato e budget di feedback più lunghi durante la formazione. Questo approccio neuro-simbolico fonda il ragionamento di un LLM in semantica formale che viene controllata automaticamente. Il suo ambito attuale è limitato ai domini del linguaggio di definizione del dominio di pianificazione classica (PDDL) e richiede VAL come oracolo esterno. Il metodo mostra l’utilità per le condutture degli agenti che possono ospitare un verificatore, mentre le estensioni per la pianificazione temporale, numerica e sensibile ai costi rimangono sfide aperte.


Credito d’immagine in primo piano

Tags: Llama-3-8bMITPDDL-instruct

Related Posts

La madre di uno dei figli di Elon Musk fa causa a xAI per i deepfake sessuali di Grok

La madre di uno dei figli di Elon Musk fa causa a xAI per i deepfake sessuali di Grok

16 Gennaio 2026
OpenAI lancia ChatGPT Translate autonomo

OpenAI lancia ChatGPT Translate autonomo

15 Gennaio 2026
I tempi di lancio di DeepSeek V4 e R2 rimangono nascosti

I tempi di lancio di DeepSeek V4 e R2 rimangono nascosti

15 Gennaio 2026
I Gemelli acquisiscono l'intelligenza personale per sintetizzare i dati da Gmail e Foto

I Gemelli acquisiscono l'intelligenza personale per sintetizzare i dati da Gmail e Foto

15 Gennaio 2026
Amazon aggiorna forzatamente i membri Prime ad Alexa+

Amazon aggiorna forzatamente i membri Prime ad Alexa+

14 Gennaio 2026
Google aggiorna Veo 3.1 con la generazione video verticale nativa

Google aggiorna Veo 3.1 con la generazione video verticale nativa

14 Gennaio 2026

Recent Posts

  • Microsoft invia l'aggiornamento OOB di emergenza per correggere il ciclo di riavvio di Windows 11
  • Musk cerca 134 miliardi di dollari da OpenAI e Microsoft
  • Threads raggiunge 141 milioni di utenti giornalieri per rivendicare il trono mobile di X
  • Le integrazioni di Google Wallet e Tasks emergono nella nuova perdita di Pixel 10
  • iOS 27: tutto ciò che sappiamo finora

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.