Una nuova tecnica permette all' intelligenza artificiale di vedere in 3D

Una nuova tecnica permette all’ intelligenza artificiale di vedere in 3D

Partendo da immagini in 2D gli algoritmi sono ora in grado di realizzare rappresentazioni tridimensionali, con applicazioni che vanno dalla robotica alla guida autonoma

Il grande fermento che vive attualmente il settore dell'intelligenza artificiale (Ai) può essere ricondotto a un anno in particolare, e a un

Le rotte del commercio mondiale e il trasporto marittimo

Rivoluzione Fintech: al centro c’è la tecnologia DLT con un ruolo di spicco della Banca d’Italia nella UE e non solo

Il made in Italy punti allo spazio

Il grande fermento che vive attualmente il settore dell’intelligenza artificiale (Ai) può essere ricondotto a un anno in particolare, e a un concorso accademico per determinare quanto gli algoritmi fossero in grado riconoscere gli oggetti nelle fotografie. Nel 2012 alcuni ricercatori scoprirono che fornire migliaia di immagini a un algoritmo vagamente ispirato al modo in cui nel cervello i neuroni rispondono agli stimoli portava a un enorme salto in avanti in termini di accuratezza. La scoperta ha dato il là a un’improvvisa e rapida espansione di ricerche accademiche e attività commerciali che stanno trasformando alcune aziende e settori.

Oggi una nuova tecnica, che prevede di addestrare lo stesso tipo di algoritmo di intelligenza artificiale a trasformare immagini bidimensionali in una dettagliata visuale 3D di una scena, sta alimentando l’entusiasmo nel mondo della computer grafica e dell’Ai. Il nuovo sistema ha le potenzialità per rivoluzionare i videogiochi, la realtà virtuale, la robotica e la guida autonoma. Secondo alcuni esperti potrebbe anche aiutare le macchine a percepire e ragionare sul mondo in modo più intelligente – o perlomeno più simile agli esseri umani.

“È il tema del momento, ne parlano tutti“, ha raccontato Ken Goldberg, un esperto di robotica della University of California, Berkeley, che sta impiegando la tecnologia per migliorare la capacità dei robot potenziati dall’Ai di afferrare oggetti dalle forme non familiari. Goldberg sostiene che la tecnologia abbia “centinaia di applicazioni“, in campi che spaziano dall’intrattenimento all’architettura.

Il nuovo approccio usa una rete neurale per catturare e generare immagini 3D a partire da alcune foto in 2D, una tecnica soprannominata rendering neurale. La tecnica è nata dalla fusione di diverse idee che circolavano nella computer grafica e nell’Ai, anche se l’interesse è esploso nell’aprile del 2020, quando i ricercatori di Berkeley e Google hanno dimostrato che una rete neurale era in grado di registrare fotorealisticamente una scena in 3D semplicemente visualizzandone diverse immagini bidimensionali.

L’algoritmo sfrutta il modo in cui la luce viaggia attraverso l’aria ed esegue calcoli che misurano la densità e il colore dei punti nello spazio 3D. In questo modo è possibile convertire le immagini 2D in una rappresentazione 3D fotorealistica, che può essere visualizzata da qualsiasi punto. Alla base c’è lo stesso tipo di rete neurale dell’algoritmo per il riconoscimento delle immagini del 2012, che analizza i pixel di un’immagine 2D. I nuovi algoritmi convertono i pixel 2D nel loro equivalente 3D, i cosiddetti voxel. I video che mostrano il procedimento, che i ricercatori hanno ribatezzato Neural Radiance Fields, o Nerf, hanno lasciato a bocca aperta la comunità dei ricercatori.

Per chiunque lavori nell’ambito della computer grafica, spiega Dellaert, l’approccio rappresenta una grande innovazione. La creazione di una scena 3D dettagliata e realistica richiede normalmente ore di minuzioso lavoro manuale. Il nuovo metodo permette di generare scene nel giro di pochi minuti partendo da semplici fotografie, e offre un nuovo metodo per creare e manipolare scene sintetiche. “È una novità importante e destinata ad avere grande influenza per lo sviluppo del settore, il che è assurdo da dire per un lavoro che ha solo due anni“, ha detto Dellaert.

Il lavoro ha ottenuto il sostegno del settore con una velocità sorprendente. Ben Mildenhall, uno dei ricercatori dietro Nerf che ora lavora per Google, ha descritto il grande sviluppo di attività di ricerca e sviluppo come “una lenta ondata“.

I ricercatori di Nvidia, che produce chip informatici sia per l’Ai che per i videogiochi, hanno pubblicato degli articoli in cui Nerf viene utilizzata per generare immagini 3D partendo da raccolte di foto o per produrre texture più realistiche nell’animazione, e puntano a fare progressi anche nel settore dei videogiochi. Meta ha sviluppato un approccio simile a quello di Nerf, che potrebbe essere utilizzato per arricchire le ambientazioni nel tanto sbandierato Metaverso di Mark Zuckerberg. Yann LeCun, capo scienziato per l’Ai di Meta e uno dei precursori dell’approccio che ha trasformato il settore nel 2012, ha definito i nuovi sviluppi “affascinanti” e i risultati “davvero notevoli“.

Possibili applicazioni e futuro dell’Ai

Nerf può essere particolarmente utile anche per le macchine che operano nel mondo reale. Goldberg, uno dei maggiori esperti al mondo nel campo della presa robotica, ha usato Nerf con alcuni colleghi per addestrare i robot a capire come gestire gli oggetti trasparenti, che di solito rappresentano una difficoltà a causa del modo in cui riflettono la luce, consentendo loro di dedurre la forma di un oggetto sulla base di un’immagine video.

Anche le case produttrici di auto a guida autonoma stanno trovando applicazioni per l’idea. Durante una presentazione nell’agosto 2021, Andrej Karpathy, direttore dell’intelligenza artificiale di Tesla, ha raccontato che la società stava usando la tecnologia per generare scene 3D, allo scopo addestrare i suoi algoritmi di guida autonoma a riconoscere e reagire a un numero di maggiore di situazioni in strada.

“Questi metodi, che arrivano dalla computer grafica, stanno avendo un enorme impatto sull’Ai“, ha spiegato Josh Tenenbaum, un professore del Massachusetts Institute of Technology (Mit) che studia i principi computazionali dietro l’apprendimento e la capacità di deduzione degli esseri umani.

Tenenbaum ha fatto riferimento al lavoro di Vincent Sitzmann, un assistente professore assunto di recente dal Mit. Nel 2019, Sitzmann e alcuni colleghi furono i primi a introdurre l’idea di utilizzare il rendering neurale per creare rappresentazioni 3D di oggetti sulla base di un numero limitato di immagini in 2D.

Il lavoro di Sitzmann non produce un’immagine 3D fotorealistica completa: l’algoritmo deduce la forma approssimativa di un oggetto partendo da un’immagine incompleta. Una cosa che gli esseri umani fanno abitualmente, ha fatto notare Tenenbaum: “Se voglio prendere in mano un oggetto, come la tazza di caffè di fronte a me, il mio sistema percettivo fa implicitamente un’ipotesi su dove si trovi il retro della tazza mentre chiudo la mano intorno ad essa“, ha spiegato.

Recentemente, Sitzmann, il ricercatore di Harvard Semon Rezchikov e altri ancora hanno dimostrato un metodo più efficiente dal punto di vista computazionale per far sì che una rete neurale riproduca una scena. I metodi su cui stanno lavorando potrebbero permettere ai programmi di Ai di identificare gli oggetti dalla loro forma in 3D, riconoscendo un’auto o una tazza anche se il loro design è radicalmente diverso da quanto visto in passato dall’intelligenza artificiale.

In altre parole, Nerf e le idee collegate a questa tecnica potrebbero consentire all’Ai di imparare a conoscere il mondo in modo più sofisticato, aprendo la strada alla possibilità che i robot operino in ambienti complessi e sconosciuti senza commettere errori.

Tenenbaum ha spiegato che le prove fornite dalla scienza cognitiva suggeriscono che quando ci guardiamo intorno anche il cervello umano si comporta in modo simile. “È complicato – ha detto parlando degli stadi computazionali del processo – ma anche il nostro cervello lo è“.

Fonte: Wired.it

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 mesi	Questo cookie è impostato dal plugin GDPR Cookie Consent. Il cookie viene utilizzato per memorizzare il consenso dell'utente per i cookie della categoria "Analitici".
cookielawinfo-checkbox-functional	11 mesi	Il cookie è impostato dal GDPR cookie consent per registrare il consenso dell'utente per i cookie della categoria "Funzionali".
cookielawinfo-checkbox-necessary	11 mesi	Questo cookie è impostato dal plugin GDPR Cookie Consent. Il cookie viene utilizzato per memorizzare il consenso dell'utente per i cookie della categoria "Necessario".
cookielawinfo-checkbox-others	11 mesi	Questo cookie è impostato dal plugin GDPR Cookie Consent. Il cookie viene utilizzato per memorizzare il consenso dell'utente per i cookie della categoria "Altro".
cookielawinfo-checkbox-performance	11 mesi	Questo cookie è impostato dal plugin GDPR Cookie Consent. Il cookie viene utilizzato per memorizzare il consenso dell'utente per i cookie della categoria "Prestazioni".
viewed_cookie_policy	11 mesi	Il cookie è impostato dal plugin GDPR Cookie Consent ed è utilizzato per memorizzare se l'utente ha acconsentito o meno all'uso dei cookie. Non memorizza alcun dato personale.

Cookie	Durata	Descrizione
__atuvc	1 anno 1 mese	AddThis imposta questo cookie per garantire che il conteggio aggiornato venga visualizzato quando si condivide una pagina e si ritorna ad essa, prima che la cache del conteggio delle condivisioni venga aggiornata.
__atuvs	30 minuti	AddThis imposta questo cookie per garantire che il conteggio aggiornato venga visualizzato quando si condivide una pagina e si ritorna ad essa, prima che la cache del conteggio delle condivisioni venga aggiornata.

Cookie	Durata	Descrizione
__gads	1 anno 24 giorni	Il cookie __gads, impostato da Google, viene memorizzato nel dominio DoubleClick e tiene traccia del numero di volte in cui gli utenti vedono un annuncio pubblicitario, misura il successo della campagna e ne calcola i ricavi. Questo cookie può essere letto solo dal dominio in cui è stato impostato e non traccia alcun dato durante la navigazione in altri siti.
_ga	2 anni	Il cookie _ga, installato da Google Analytics, calcola i dati dei visitatori, delle sessioni e delle campagne e tiene anche traccia dell'utilizzo del sito per il rapporto analitico del sito. Il cookie memorizza le informazioni in forma anonima e assegna un numero generato in modo casuale per riconoscere i visitatori unici.
_gat_gtag_UA_64767110_8	1 minuto	Impostato da Google per distinguere gli utenti.
_gid	1 giorno	Installato da Google Analytics, il cookie _gid memorizza informazioni sulle modalità di utilizzo di un sito web da parte dei visitatori e crea un rapporto analitico sulle prestazioni del sito. Alcuni dei dati raccolti includono il numero di visitatori, la loro provenienza e le pagine visitate in forma anonima.
uvc	1 anno 1 mese	Impostato da addthis.com per determinare l'utilizzo del servizio addthis.com.

Cookie	Durata	Descrizione
loc	1 anno 1 mese	AddThis imposta questo cookie di geolocalizzazione per aiutare a capire la posizione degli utenti che condividono le informazioni.
test_cookie	15 minuti	Il test_cookie è impostato da doubleclick.net e viene utilizzato per determinare se il browser dell'utente supporta i cookie.

Cookie	Durata	Descrizione
__gpi	1 anno 24 giorni	Nessuna descrizione
xtc	1 anno 1 mese	Nessuna descrizione

Una nuova tecnica permette all’ intelligenza artificiale di vedere in 3D

Partendo da immagini in 2D gli algoritmi sono ora in grado di realizzare rappresentazioni tridimensionali, con applicazioni che vanno dalla robotica alla guida autonoma

Commenti

AUTHOR: Direzione

Una nuova tecnica permette all’ intelligenza artificiale di vedere in 3D

Partendo da immagini in 2D gli algoritmi sono ora in grado di realizzare rappresentazioni tridimensionali, con applicazioni che vanno dalla robotica alla guida autonoma

Commenti

AUTHOR: Direzione

RECOMMENDED FOR YOU