HomeCommunication & Tecnologies

Una nuova tecnica permette all’ intelligenza artificiale di vedere in 3D

Partendo da immagini in 2D gli algoritmi sono ora in grado di realizzare rappresentazioni tridimensionali, con applicazioni che vanno dalla robotica alla guida autonoma

Una nuova tecnica permette all’ intelligenza artificiale di vedere in 3D

Il grande fermento che vive attualmente il settore dell'intelligenza artificiale (Ai) può essere ricondotto a un anno in particolare, e a un

Le rotte del commercio mondiale e il trasporto marittimo
Rivoluzione Fintech: al centro c’è la tecnologia DLT con un ruolo di spicco della Banca d’Italia nella UE e non solo
Il made in Italy punti allo spazio

Il grande fermento che vive attualmente il settore dell’intelligenza artificiale (Ai) può essere ricondotto a un anno in particolare, e a un concorso accademico per determinare quanto gli algoritmi fossero in grado riconoscere gli oggetti nelle fotografie. Nel 2012 alcuni ricercatori scoprirono che fornire migliaia di immagini a un algoritmo vagamente ispirato al modo in cui nel cervello i neuroni rispondono agli stimoli portava a un enorme salto in avanti in termini di accuratezza. La scoperta ha dato il là a un’improvvisa e rapida espansione di ricerche accademiche e attività commerciali che stanno trasformando alcune aziende e settori.

È il tema del momento, ne parlano tutti“, ha raccontato Ken Goldberg, un esperto di robotica della University of California, Berkeley, che sta impiegando la tecnologia per migliorare la capacità dei robot potenziati dall’Ai di afferrare oggetti dalle forme non familiari. Goldberg sostiene che la tecnologia abbia “centinaia di applicazioni“, in campi che spaziano dall’intrattenimento all’architettura.
Il nuovo approccio usa una rete neurale per catturare e generare immagini 3D a partire da alcune foto in 2D, una tecnica soprannominata rendering neurale. La tecnica è nata dalla fusione di diverse idee che circolavano nella computer grafica e nell’Ai, anche se l’interesse è esploso nell’aprile del 2020, quando i ricercatori di Berkeley e Google hanno dimostrato che una rete neurale era in grado di registrare fotorealisticamente una scena in 3D semplicemente visualizzandone diverse immagini bidimensionali.

L’algoritmo sfrutta il modo in cui la luce viaggia attraverso l’aria ed esegue calcoli che misurano la densità e il colore dei punti nello spazio 3D. In questo modo è possibile convertire le immagini 2D in una rappresentazione 3D fotorealistica, che può essere visualizzata da qualsiasi punto. Alla base c’è lo stesso tipo di rete neurale dell’algoritmo per il riconoscimento delle immagini del 2012, che analizza i pixel di un’immagine 2D. I nuovi algoritmi convertono i pixel 2D nel loro equivalente 3D, i cosiddetti voxel. I video che mostrano il procedimento, che i ricercatori hanno ribatezzato Neural Radiance Fields, o Nerf, hanno lasciato a bocca aperta la comunità dei ricercatori.

Per chiunque lavori nell’ambito della computer grafica, spiega Dellaert, l’approccio rappresenta una grande innovazione. La creazione di una scena 3D dettagliata e realistica richiede normalmente ore di minuzioso lavoro manuale. Il nuovo metodo permette di generare scene nel giro di pochi minuti partendo da semplici fotografie, e offre un nuovo metodo per creare e manipolare scene sintetiche. “È una novità importante e destinata ad avere grande influenza per lo sviluppo del settore, il che è assurdo da dire per un lavoro che ha solo due anni“, ha detto Dellaert.

Il lavoro ha ottenuto il sostegno del settore con una velocità sorprendente. Ben Mildenhall, uno dei ricercatori dietro Nerf che ora lavora per Google, ha descritto il grande sviluppo di attività di ricerca e sviluppo come “una lenta ondata“.

I ricercatori di Nvidia, che produce chip informatici sia per l’Ai che per i videogiochi, hanno pubblicato degli articoli in cui Nerf viene utilizzata per generare immagini 3D partendo da raccolte di foto o per produrre texture più realistiche nell’animazione, e puntano a fare progressi anche nel settore dei videogiochi. Meta ha sviluppato un approccio simile a quello di Nerf, che potrebbe essere utilizzato per arricchire le ambientazioni nel tanto sbandierato Metaverso di Mark Zuckerberg. Yann LeCun, capo scienziato per l’Ai di Meta e uno dei precursori dell’approccio che ha trasformato il settore nel 2012, ha definito i nuovi sviluppi “affascinanti” e i risultati “davvero notevoli“.

Possibili applicazioni e futuro dell’Ai
Nerf può essere particolarmente utile anche per le macchine che operano nel mondo reale. Goldberg, uno dei maggiori esperti al mondo nel campo della presa robotica, ha usato Nerf con alcuni colleghi per addestrare i robot a capire come gestire gli oggetti trasparenti, che di solito rappresentano una difficoltà a causa del modo in cui riflettono la luce, consentendo loro di dedurre la forma di un oggetto sulla base di un’immagine video.

Anche le case produttrici di auto a guida autonoma stanno trovando applicazioni per l’idea. Durante una presentazione nell’agosto 2021, Andrej Karpathy, direttore dell’intelligenza artificiale di Tesla, ha raccontato che la società stava usando la tecnologia per generare scene 3D, allo scopo addestrare i suoi algoritmi di guida autonoma a riconoscere e reagire a un numero di maggiore di situazioni in strada.

Questi metodi, che arrivano dalla computer grafica, stanno avendo un enorme impatto sull’Ai“, ha spiegato Josh Tenenbaum, un professore del Massachusetts Institute of Technology (Mit) che studia i principi computazionali dietro l’apprendimento e la capacità di deduzione degli esseri umani.

Tenenbaum ha fatto riferimento al lavoro di Vincent Sitzmann, un assistente professore assunto di recente dal Mit. Nel 2019, Sitzmann e alcuni colleghi furono i primi a introdurre l’idea di utilizzare il rendering neurale per creare rappresentazioni 3D di oggetti sulla base di un numero limitato di immagini in 2D.

Il lavoro di Sitzmann non produce un’immagine 3D fotorealistica completa: l’algoritmo deduce la forma approssimativa di un oggetto partendo da un’immagine incompleta. Una cosa che gli esseri umani fanno abitualmente, ha fatto notare Tenenbaum:Se voglio prendere in mano un oggetto, come la tazza di caffè di fronte a me, il mio sistema percettivo fa implicitamente un’ipotesi su dove si trovi il retro della tazza mentre chiudo la mano intorno ad essa“, ha spiegato.

Recentemente, Sitzmann, il ricercatore di Harvard Semon Rezchikov e altri ancora hanno dimostrato un metodo più efficiente dal punto di vista computazionale per far sì che una rete neurale riproduca una scena. I metodi su cui stanno lavorando potrebbero permettere ai programmi di Ai di identificare gli oggetti dalla loro forma in 3D, riconoscendo un’auto o una tazza anche se il loro design è radicalmente diverso da quanto visto in passato dall’intelligenza artificiale.

In altre parole, Nerf e le idee collegate a questa tecnica potrebbero consentire all’Ai di imparare a conoscere il mondo in modo più sofisticato, aprendo la strada alla possibilità che i robot operino in ambienti complessi e sconosciuti senza commettere errori.

Tenenbaum ha spiegato che le prove fornite dalla scienza cognitiva suggeriscono che quando ci guardiamo intorno anche il cervello umano si comporta in modo simile. “È complicato – ha detto parlando degli stadi computazionali del processo – ma anche il nostro cervello lo è“.

Fonte: Wired.it

Commenti