Tencent ha rilasciato Hunyuan 2.0, un modello linguistico di grandi dimensioni con 406 miliardi di parametri totali, il 5 dicembre. Questo aggiornamento mira ai progressi nella matematica, nella codifica e nel ragionamento complesso attraverso un’architettura mista di esperti e metodi di formazione perfezionati. Il modello è disponibile in due varianti: Think e Instruct. La sua architettura attiva 32 miliardi di parametri durante ciascuna inferenza, consentendo un’elaborazione efficiente. Supporta una finestra di contesto di 256.000 token, consentendo la gestione di input estesi senza troncamento. Posizioni Tencent HY 2.0 Pensate come tra i “top tier a livello nazionale” per compiti di ragionamento complessi. Questa versione supera il suo predecessore, Hunyuan-T1-20250822, in molteplici aree di valutazione. Nel benchmark matematico IMO-AnswerBench, HY 2.0 Think ha registrato un punteggio di 73,4, riflettendo forti capacità di risoluzione dei problemi nei settori matematici. Nelle valutazioni dell’ingegneria del software, le prestazioni sono migliorate notevolmente sul benchmark SWE-bench Verified, passando da 6,0 per il modello precedente a 53,0. Questo miglioramento dimostra una maggiore precisione nella generazione e nel debug del codice per le sfide di programmazione del mondo reale. https://twitter.com/TencentHunyuan/status/1996948083377332614 Tencent attribuisce questi progressi al miglioramento della qualità dei dati di pre-addestramento e a un approccio di apprendimento per rinforzo a doppia fase. Questa strategia integra RLVR, o apprendimento per rinforzo con ricompense verificabili, che utilizza metriche oggettive per la formazione, e RLHF, o apprendimento per rinforzo dal feedback umano, che incorpora valutazioni umane per perfezionare i risultati. HY 2.0 Think applica strategie di penalizzazione della lunghezza per prevenire un’eccessiva verbosità nelle risposte, risultando in quella che Tencent chiama efficienza computazionale “leader del settore” per token. Questo design ottimizza l’utilizzo delle risorse durante la generazione, riducendo tempi e costi di elaborazione. Anche le funzionalità di codifica e agente sono migliorate, con il punteggio Tau2-Bench che è salito da 17,1 a 72,4. Queste metriche valutano l’esecuzione autonoma delle attività e le interazioni relative al codice. L’integrazione si estende alle applicazioni consumer di Tencent, come Yuanbao e ima, dove il modello migliora le interazioni dell’utente. Gli sviluppatori possono accedervi tramite la piattaforma API di Tencent Cloud per implementazioni personalizzate. Tencent prevede di rendere open source tecnologie e modelli correlati per l’uso da parte della comunità.





