Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

PDDL-instruction del MIT migliora la validità del piano Llama-3-8b

byEmre Çıtak
22 Settembre 2025
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

I ricercatori del laboratorio di informatica e intelligenza artificiale del MIT hanno sviluppato PDDL-instruct, un framework che utilizza ragionamento logico e validazione esterna per migliorare il modo in cui i modelli linguistici di grandi dimensioni generano piani in più fasi, ottenendo una validità fino al 94% su riferimenti specifici. Il framework affronta il fallimento comune dei modelli di grandi dimensioni (LLMS) di produrre piani logicamente validi, che spesso sembrano plausibili ma sono errati. PDDL-Istruct contrasta questo integrando una semantica esplicita dello stato e dell’azione con il controllo della verità di terra. Attraverso “Error Education”, i modelli sono addestrati per spiegare i fallimenti del piano, tra cui precondizioni insoddisfatte, effetti errati, violazioni del telaio o un obiettivo non raggiunto. Un metodo di spinta a catena logica (COT) guida anche il modello per eseguire l’inferenza passo-passo, producendo tracce dettagliate sullo stato-azione-stato formattate come ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩ basate su semantica formale. Per garantire la correttezza, ogni fase di un piano generato viene verificata dal validatore del piano Val esterno. Il sistema può ricevere un feedback binario (valido/non valido) o un feedback dettagliato che specifica quale preliminare o effetto non è riuscito. La ricerca ha indicato che un feedback dettagliato ha prodotto i più forti guadagni delle prestazioni. PDDL-Instruct utilizza anche un processo di ottimizzazione a due stadi. La prima fase ottimizza le catene di ragionamento del modello penalizzando gli errori di transizione di stato. La seconda fase ottimizza quindi l’accuratezza finale del piano end-task, creando un regime di allenamento sistematico. Il sistema è stato valutato sul benchmark Planbench, che include i domini di Blocksworld, Mystery Blocksworld e logistics Planning. Mystery Blocksworld è particolarmente impegnativo in quanto offusca i nomi predicati per prevenire la corrispondenza dei modelli; I modelli precedenti hanno riportato una validità inferiore al 5% su questa attività senza supporto per gli strumenti. Con PDDL-Instruct, un modello LLAMA-3-8B ha ottenuto piani validi fino al 94% su Blocksworld. Su Mystery Blocksworld, il framework ha prodotto miglioramenti degli ordini di magnitudine, riportati fino a 64 volte meglio dei modelli di base. Sono stati anche registrati aumenti sostanziali nei piani validi nel dominio logistico. In tutti i settori, il framework ha dimostrato fino a un miglioramento assoluto del 66% nella generazione di piani validi rispetto alle baseline non fatte. Le prestazioni sono state ulteriormente migliorate utilizzando un feedback valido dettagliato e budget di feedback più lunghi durante la formazione. Questo approccio neuro-simbolico fonda il ragionamento di un LLM in semantica formale che viene controllata automaticamente. Il suo ambito attuale è limitato ai domini del linguaggio di definizione del dominio di pianificazione classica (PDDL) e richiede VAL come oracolo esterno. Il metodo mostra l’utilità per le condutture degli agenti che possono ospitare un verificatore, mentre le estensioni per la pianificazione temporale, numerica e sensibile ai costi rimangono sfide aperte.


Credito d’immagine in primo piano

Tags: Llama-3-8bMITPDDL-instruct

Related Posts

Slackbot ora ha capacità di agente grazie ad Anthropic

Slackbot ora ha capacità di agente grazie ad Anthropic

14 Gennaio 2026
Cowork di Anthropic offre agenti IA di livello sviluppatore ai non programmatori

Cowork di Anthropic offre agenti IA di livello sviluppatore ai non programmatori

13 Gennaio 2026
Amazon: il 97% dei nostri dispositivi è pronto per Alexa+

Amazon: il 97% dei nostri dispositivi è pronto per Alexa+

13 Gennaio 2026
Ufficiale: Google Gemini alimenterà Apple Intelligence e Siri

Ufficiale: Google Gemini alimenterà Apple Intelligence e Siri

13 Gennaio 2026
Zuckerberg lancia Meta Compute per costruire un'enorme rete energetica AI

Zuckerberg lancia Meta Compute per costruire un'enorme rete energetica AI

13 Gennaio 2026
Nessuna lista d'attesa: Claude Health arriva per gli utenti US Pro e Max

Nessuna lista d'attesa: Claude Health arriva per gli utenti US Pro e Max

12 Gennaio 2026

Recent Posts

  • Slackbot ora ha capacità di agente grazie ad Anthropic
  • Microsoft risponde alla reazione negativa con le promesse di nuovi data center
  • Netflix prepara un’offerta interamente in contanti per siglare l’accordo con la Warner Bros
  • Il co-fondatore di Instagram Mike Krieger si trasferisce ad Anthropic Labs
  • EA rinvia la stagione 2 di Battlefield 6 al 17 febbraio

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.