Tra le capacitร dei modelli di intelligenza artificiale cโรจ la generazione del codice in vari linguaggi di programmazione (sfruttata anche per attacchi informatici). Un studio pubblicato sul numero di giugno di IEEE Transactions on Software Engineering conferma gli ottimi risultati ottenuti da ChatGPT, ma solo per problemi antecedenti al 2021.
ChatGPT: poco esperto di programmazione
Cinque ricercatori di varie universitร hanno esaminato il codice prodotto da ChatGPT in termini di funzionalitร , complessitร e sicurezza. I risultati mostrano un range di successo estremamente ampio (tra lo 0,66% allโ89%) quando si tratta di produrre codice funzionale, a seconda della difficoltร dellโattivitร , del linguaggio di programmazione e una serie di altri fattori. In alcuni casi, il chatbot genera codice migliore di quello umano, ma in altri si evidenziano gravi problemi di sicurezza.
Per un analisi approfondita รจ stata valutata la capacitร del modello GPT-3.5 nella risoluzione di 728 problemi presenti sulla piattaforma LeetCode in cinque linguaggi di programmazione: C, C++, Java, JavaScript e Python. ChatGPT ha fornito soluzioni corrette per la maggioranza dei problemi antecedenti al 2021. Le percentuali di successo sono 89%, 71% e 40% per problemi di livello facile, medio e difficile.
La correttezza del codice รจ crollata a picco con i problemi successivi al 2021. La percentuale รจ diminuita al 52% per i problemi di livello facile e allo 0,66% per quelli di livello difficile. Ciรฒ รจ dovuto quasi certamente alla mancanza di dati usati per lโaddestramento. A differenza del programmatore umano, ChatGPT non puรฒ risolvere problemi che non ha mai incontrato.
I ricercatori hanno inoltre notato che il chatbot non riesce sempre a correggere i propri errori di programmazione, in quanto non ha compreso il problema originario. Nel codice generato sono anche presenti varie vulnerabilitร , ma la maggioranza di esse sono state corrette. Non รจ noto se i risultati sono migliori con GPT-4 e GPT-4o.


