Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

PDDL-instruction del MIT migliora la validità del piano Llama-3-8b

byEmre Çıtak
22 Settembre 2025
in Intelligenza Artificiale
Home Notizia Intelligenza Artificiale
Share on FacebookShare on Twitter
Google Preferred Source

I ricercatori del laboratorio di informatica e intelligenza artificiale del MIT hanno sviluppato PDDL-instruct, un framework che utilizza ragionamento logico e validazione esterna per migliorare il modo in cui i modelli linguistici di grandi dimensioni generano piani in più fasi, ottenendo una validità fino al 94% su riferimenti specifici. Il framework affronta il fallimento comune dei modelli di grandi dimensioni (LLMS) di produrre piani logicamente validi, che spesso sembrano plausibili ma sono errati. PDDL-Istruct contrasta questo integrando una semantica esplicita dello stato e dell’azione con il controllo della verità di terra. Attraverso “Error Education”, i modelli sono addestrati per spiegare i fallimenti del piano, tra cui precondizioni insoddisfatte, effetti errati, violazioni del telaio o un obiettivo non raggiunto. Un metodo di spinta a catena logica (COT) guida anche il modello per eseguire l’inferenza passo-passo, producendo tracce dettagliate sullo stato-azione-stato formattate come ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩ basate su semantica formale. Per garantire la correttezza, ogni fase di un piano generato viene verificata dal validatore del piano Val esterno. Il sistema può ricevere un feedback binario (valido/non valido) o un feedback dettagliato che specifica quale preliminare o effetto non è riuscito. La ricerca ha indicato che un feedback dettagliato ha prodotto i più forti guadagni delle prestazioni. PDDL-Instruct utilizza anche un processo di ottimizzazione a due stadi. La prima fase ottimizza le catene di ragionamento del modello penalizzando gli errori di transizione di stato. La seconda fase ottimizza quindi l’accuratezza finale del piano end-task, creando un regime di allenamento sistematico. Il sistema è stato valutato sul benchmark Planbench, che include i domini di Blocksworld, Mystery Blocksworld e logistics Planning. Mystery Blocksworld è particolarmente impegnativo in quanto offusca i nomi predicati per prevenire la corrispondenza dei modelli; I modelli precedenti hanno riportato una validità inferiore al 5% su questa attività senza supporto per gli strumenti. Con PDDL-Instruct, un modello LLAMA-3-8B ha ottenuto piani validi fino al 94% su Blocksworld. Su Mystery Blocksworld, il framework ha prodotto miglioramenti degli ordini di magnitudine, riportati fino a 64 volte meglio dei modelli di base. Sono stati anche registrati aumenti sostanziali nei piani validi nel dominio logistico. In tutti i settori, il framework ha dimostrato fino a un miglioramento assoluto del 66% nella generazione di piani validi rispetto alle baseline non fatte. Le prestazioni sono state ulteriormente migliorate utilizzando un feedback valido dettagliato e budget di feedback più lunghi durante la formazione. Questo approccio neuro-simbolico fonda il ragionamento di un LLM in semantica formale che viene controllata automaticamente. Il suo ambito attuale è limitato ai domini del linguaggio di definizione del dominio di pianificazione classica (PDDL) e richiede VAL come oracolo esterno. Il metodo mostra l’utilità per le condutture degli agenti che possono ospitare un verificatore, mentre le estensioni per la pianificazione temporale, numerica e sensibile ai costi rimangono sfide aperte.


Credito d’immagine in primo piano

Tags: Llama-3-8bMITPDDL-instruct

Related Posts

Google lancia Ask Gemini in Drive agli utenti Workspace idonei

Google lancia Ask Gemini in Drive agli utenti Workspace idonei

4 Giugno 2026
Meta lancia gli agenti aziendali AI su WhatsApp, Instagram e Messenger

Meta lancia gli agenti aziendali AI su WhatsApp, Instagram e Messenger

4 Giugno 2026
Anthropic invita altre 150 organizzazioni al progetto Glasswing

Anthropic invita altre 150 organizzazioni al progetto Glasswing

3 Giugno 2026
Microsoft svela Project Solara per un futuro incentrato sugli agenti

Microsoft svela Project Solara per un futuro incentrato sugli agenti

3 Giugno 2026
Google consentirà ai siti Web di disattivare i risultati di ricerca dell’intelligenza artificiale

Google consentirà ai siti Web di disattivare i risultati di ricerca dell’intelligenza artificiale

3 Giugno 2026
OpenAI espande Codex con plug-in aziendali e nuove funzionalità di Sites

OpenAI espande Codex con plug-in aziendali e nuove funzionalità di Sites

3 Giugno 2026

Recent Posts

  • Google Wallet aggiungerà ID digitali da selezionati paesi dell’UE quest’estate
  • Google lancia Ask Gemini in Drive agli utenti Workspace idonei
  • Nintendo rilascerà in Europa uno Switch 2 facile da riparare
  • Un legislatore britannico fa causa a xAI per deepfake espliciti generati da Grok
  • Apple inizia ad applicare la legge sulla verifica dell’età in Texas

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Notizia
  • Industria
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.