I ricercatori del laboratorio di informatica e intelligenza artificiale del MIT hanno sviluppato PDDL-instruct, un framework che utilizza ragionamento logico e validazione esterna per migliorare il modo in cui i modelli linguistici di grandi dimensioni generano piani in più fasi, ottenendo una validità fino al 94% su riferimenti specifici. Il framework affronta il fallimento comune dei modelli di grandi dimensioni (LLMS) di produrre piani logicamente validi, che spesso sembrano plausibili ma sono errati. PDDL-Istruct contrasta questo integrando una semantica esplicita dello stato e dell’azione con il controllo della verità di terra. Attraverso “Error Education”, i modelli sono addestrati per spiegare i fallimenti del piano, tra cui precondizioni insoddisfatte, effetti errati, violazioni del telaio o un obiettivo non raggiunto. Un metodo di spinta a catena logica (COT) guida anche il modello per eseguire l’inferenza passo-passo, producendo tracce dettagliate sullo stato-azione-stato formattate come ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩ basate su semantica formale. Per garantire la correttezza, ogni fase di un piano generato viene verificata dal validatore del piano Val esterno. Il sistema può ricevere un feedback binario (valido/non valido) o un feedback dettagliato che specifica quale preliminare o effetto non è riuscito. La ricerca ha indicato che un feedback dettagliato ha prodotto i più forti guadagni delle prestazioni. PDDL-Instruct utilizza anche un processo di ottimizzazione a due stadi. La prima fase ottimizza le catene di ragionamento del modello penalizzando gli errori di transizione di stato. La seconda fase ottimizza quindi l’accuratezza finale del piano end-task, creando un regime di allenamento sistematico. Il sistema è stato valutato sul benchmark Planbench, che include i domini di Blocksworld, Mystery Blocksworld e logistics Planning. Mystery Blocksworld è particolarmente impegnativo in quanto offusca i nomi predicati per prevenire la corrispondenza dei modelli; I modelli precedenti hanno riportato una validità inferiore al 5% su questa attività senza supporto per gli strumenti. Con PDDL-Instruct, un modello LLAMA-3-8B ha ottenuto piani validi fino al 94% su Blocksworld. Su Mystery Blocksworld, il framework ha prodotto miglioramenti degli ordini di magnitudine, riportati fino a 64 volte meglio dei modelli di base. Sono stati anche registrati aumenti sostanziali nei piani validi nel dominio logistico. In tutti i settori, il framework ha dimostrato fino a un miglioramento assoluto del 66% nella generazione di piani validi rispetto alle baseline non fatte. Le prestazioni sono state ulteriormente migliorate utilizzando un feedback valido dettagliato e budget di feedback più lunghi durante la formazione. Questo approccio neuro-simbolico fonda il ragionamento di un LLM in semantica formale che viene controllata automaticamente. Il suo ambito attuale è limitato ai domini del linguaggio di definizione del dominio di pianificazione classica (PDDL) e richiede VAL come oracolo esterno. Il metodo mostra l’utilità per le condutture degli agenti che possono ospitare un verificatore, mentre le estensioni per la pianificazione temporale, numerica e sensibile ai costi rimangono sfide aperte.





