I ricercatori di Alibaba hanno sviluppato SkillWeaver, un framework volto a migliorare l’instradamento delle attività secondarie nei sistemi di intelligenza artificiale aziendale. SkillWeaver crea grafici di esecuzione per le attività e seleziona le competenze appropriate per ciascun nodo. Il framework incorpora Skill-Aware Decomposition (SAD), una tecnica che utilizza un ciclo di feedback per la selezione iterativa degli strumenti, distinguendola dai framework che scelgono gli strumenti in modo one-shot.
SkillWeaver è progettato specificamente per applicazioni IA del mondo reale, ad esempio l’orchestrazione di più strumenti tramite il Model Context Protocol (MCP) per varie operazioni aziendali, tra cui la gestione e il reporting dei dati. I test dimostrano che l’approccio di SkillWeaver aumenta la precisione riducendo al contempo il consumo di token di oltre il 99% rispetto all’esposizione degli agenti a un’intera libreria di strumenti.
La sfida principale affrontata dai sistemi di intelligenza artificiale è la granularità della scomposizione dei compiti, poiché le query pratiche spesso implicano richieste compositive che richiedono molteplici competenze. Le competenze sono definite come specifiche modulari e riutilizzabili che utilizzano documentazione strutturata in linguaggio naturale. Gli attuali framework di intelligenza artificiale spesso faticano a trattare il routing degli strumenti come un compito di selezione di una singola competenza, il che non è sufficiente per flussi di lavoro complessi.
Il funzionamento di SkillWeaver consiste in tre fasi: Decompose, Retrieve e Compose. Nella fase di decomposizione, un LLM suddivide le complesse query degli utenti in sottoattività gestibili. Successivamente, la fase di recupero utilizza un modello di incorporamento per identificare gli strumenti candidati per ciascuna attività secondaria da una libreria di competenze. Infine, la fase di composizione valuta la compatibilità di questi strumenti e formula un grafico aciclico diretto (DAG) che delinea il piano di esecuzione.
SkillWeaver affronta anche il problema dei LLM che generano descrizioni generiche implementando il ciclo di feedback SAD. Questo meccanismo prevede che il LLM rediga un piano iniziale, recuperi le competenze corrispondenti e affini la sua scomposizione in base agli strumenti recuperati, garantendo l’allineamento con vocabolari tecnici specifici.
Per valutare l’efficacia, i ricercatori hanno creato CompSkillBench, un benchmark contenente 300 query in più fasi basate su 2.209 competenze del mondo reale. Il motore principale ha utilizzato un modello da 7 miliardi di parametri (Qwen2.5-7B-Instruct) per il processo di decomposizione e un search retriever semantico. I test hanno rivelato che il ciclo di feedback del SAD ha aumentato la precisione della decomposizione dal 51,0% al 67,7%, con modelli più elevati che hanno raggiunto una precisione del 92%.
I risultati hanno evidenziato che meno indicazioni possono portare a una riduzione delle prestazioni nei modelli più grandi. Una configurazione vanilla che utilizza un modello più grande ha ottenuto risultati peggiori rispetto al modello più piccolo a causa di inutili interruzioni delle attività. La ricerca ha dimostrato che il corretto allineamento con il vocabolario degli strumenti è spesso più efficace rispetto al semplice utilizzo di un modello più ampio.
Sono stati rilevati risparmi significativi sui token, con SkillWeaver che ha ridotto il consumo della finestra di contesto da circa 884.000 token a circa 1.160 token per query, con conseguente riduzione dei costi API e tempi di risposta più rapidi. Al contrario, il metodo LLM-Direct ha gestito solo un tasso di precisione del 21,1% nel recupero degli strumenti, mentre gli agenti di stile ReAct hanno raggiunto una precisione dello 0%.
Sebbene il codice sorgente di SkillWeaver non sia stato rilasciato, i ricercatori hanno fornito modelli di prompt che gli sviluppatori possono implementare utilizzando librerie esistenti come LangChain e LlamaIndex. Il framework richiede la vettorizzazione iniziale della libreria degli strumenti e la creazione di un indice FAIISS, che può essere completato in breve tempo, riducendo al minimo la latenza durante il recupero.
Una limitazione di SkillWeaver è la mancanza di recupero degli errori nelle catene di strumenti a più passaggi. Lo studio ha indicato che se un passaggio fallisce, compromette l’intera catena, evidenziando la necessità di miglioramenti nei meccanismi di gestione degli errori all’interno del quadro.





