Occhi umani per insegnare a “vedere” alle macchine
Dietro l’annuncio c’è una dinamica ormai consolidata nell’industria dell’intelligenza artificiale: per far sì che i modelli imparino a “vedere”, servono migliaia di esseri umani disposti a insegnargli come si fa. È il cosiddetto RLHF, Reinforcement Learning from Human Feedback, e nel caso specifico di Grok riguarda la componente multimodale: la capacità del modello di analizzare, descrivere e generare immagini, video e contenuti visivi complessi. Un’area in cui i modelli di ultima generazione (da GPT-4o a Gemini 1.5 Pro) si stanno sfidando a colpi di benchmark, e in cui xAI ha tutto l’interesse ad accelerare.
Non aspettatevi però di un lavoretto che si limita a descrivere una semplice immagine. “Annotare un’immagine” non significa semplicemente descriverne il contenuto: significa capirne la composizione, il contesto culturale, l’intenzione comunicativa. Competenze che, a 260 euro al giorno in modalità completamente remota, potrebbero diventare un’offerta difficile da ignorare per molti professionisti, che magari hanno visto – o sicuramente vedranno – erodere l’offerta lavorativa proprio per colpa dell’AI.
L’apertura verso gli “umanisti”
Stroppa ha anticipato nei commenti che le prossime aperture potrebbero riguardare profili in ambito finanziario e umanistico. Un segnale che xAI sta lavorando per ampliare le capacità di Grok ben oltre la dimensione visiva: ragionamento economico, comprensione del testo in contesti culturalmente specifici, forse anche linguaggi locali.


