I ricercatori di intelligenza artificiale di Apple hanno pubblicato in sordina tre nuovi studi che alzano il sipario su una nuova grande ambizione: automatizzare le parti più noiose e critiche dello sviluppo del software. Gli articoli, pubblicati sul blog Machine Learning Research di Apple, descrivono in dettaglio i nuovi sistemi di intelligenza artificiale in grado di prevedere dove potrebbero apparire i bug, scrivere automaticamente interi piani di test e persino correggere da soli il codice danneggiato. Questo è importante perché non è solo un’altra demo “L’intelligenza artificiale scrive codice”. Apple sta creando una suite di ingegneri specializzati nella qualità dell’intelligenza artificiale per trovare e correggere i difetti prima che raggiungano il tuo telefono o computer, il che potrebbe portare a enormi guadagni in produttività e (si spera) a un software più stabile.
Articolo 1: Il predittore dei bug dell’IA
Il primo studio”Previsione dei difetti del software utilizzando il modello del trasformatore del codificatore automatico,” dai ricercatori Seshu Barma, Mohanakrishnan Hariharan e Satish Arvapalliaffronta il problema del codice “buggy”. Invece di far leggere a un’intelligenza artificiale milioni di righe di codice – un processo incline alle “allucinazioni” dell’intelligenza artificiale – hanno creato un diverso tipo di strumento. Il loro modello, ADE-QVAETagisce meno come un revisore del codice e più come un analista di dati. Non legge il codice stesso. Invece, analizza metriche sul codicecome la sua complessità, dimensione e struttura. È addestrato a trovare modelli nascosti in questi parametri che prevedono in modo affidabile dove è più probabile che si nascondano i bug. I risultati sono incredibilmente efficaci. Su un set di dati standard per la previsione dei bug, il modello ha raggiunto Precisione del 98,08%.. Ha ottenuto ottimi risultati anche in termini di precisione e richiamo, un modo tecnico per dire che è estremamente bravo a trovare bug reali evitando “falsi positivi” che fanno perdere tempo agli sviluppatori.
Paper 2: L’ingegnere automatizzato della qualità
Trovare bug è fantastico, ma che dire della montagna di documenti che accompagnano i test del software? Il secondo studio “Agentic RAG per il test del software,” affronta questo problema frontalmente. I ricercatori notano che gli ingegneri della qualità spendono 30-40% del loro tempo semplicemente creando “artefatti di test fondamentali”, un termine aziendale per piani di test, casi e script. La loro soluzione è un agente AI che fa questo lavoro automaticamente. Il sistema legge i requisiti del progetto e la logica di business, quindi genera autonomamente l’intera suite di documenti di test. Questo sistema mantiene la piena “tracciabilità”, nel senso che registra esattamente quale caso di test corrisponde a quale requisito aziendale. L’impatto qui si misura in tempo e denaro. Il sistema ha mostrato un notevole Precisione del 94,8%. nei test generati. Nei progetti di validazione, ha portato ad un Riduzione dell’85% nella tempistica dei test e un Miglioramento dell’85% nell’efficienza della suite di test. Per un progetto, ciò significava accelerare la data di avvio del progetto di ben due mesi.
Paper 3: La “palestra” dell’intelligenza artificiale che insegna a correggere i codici
Il terzo e più ambizioso studio è “Formazione di agenti e verificatori di ingegneria del software con SWE-Gym.” Questo articolo pone la domanda logica successiva: perché limitarsi a trovare i bug quando è possibile risolverli? Per fare ciò, il team ha costruito una “palestra” per gli agenti IA. Questo ambiente di formazione, SWE-Gymè un sandbox costruito da 2.438 attività Python reali estratto da 11 progetti open source. Ogni attività viene fornita con il proprio ambiente eseguibile e la propria suite di test. Ciò consente a un agente AI di esercitarsi nell’intero flusso di lavoro dello sviluppatore: leggere la segnalazione del bug, scrivere il codice per risolverlo e quindi eseguire i test per vedere se la correzione ha effettivamente funzionato (e non ha danneggiato nient’altro). La formazione ha dato i suoi frutti. Agenti IA addestrati in questa “palestra” risolto correttamente il 72,5% dei compiti con erroriun risultato che ha sovraperformato i parametri di riferimento precedenti di oltre 20 punti percentuali. Si tratta di strumenti specializzati, non di un programmatore AI generico. I ricercatori del test automatizzato (documento 2) notano che il loro lavoro si è concentrato solo su specifici “sistemi dei dipendenti, finanza e ambienti SAP”, il che significa che non è ancora una soluzione valida per tutti. Allo stesso modo, la “palestra” di correzione dei bug era focalizzata sulle attività Python. Ciò che questi tre studi mostrano è una strategia chiara e su più fronti. Apple non sta solo cercando di costruire un’intelligenza artificiale “tuttofare”. Stanno invece costruendo un team di specialisti dell’intelligenza artificiale: un analista che prevede i bug, un “passacarte” che scrive i test e un “meccanico” che risolve i bug. Questo approccio potrebbe cambiare radicalmente l’economia dello sviluppo software, portando a tempistiche più rapide, costi inferiori e prodotti più affidabili.





