Transformer Representasi Adegan: Sintesis Tampilan Novel Bebas Geometri Melalui Representasi Adegan Set-Laten
Uncategorized

Transformer Representasi Adegan: Sintesis Tampilan Novel Bebas Geometri Melalui Representasi Adegan Set-Laten

Sebuah studi baru-baru ini di arXiv.org mengusulkan metode untuk sintesis tampilan novel interaktif. Dalam tugas ini, mengingat beberapa gambar RGB dari adegan yang sebelumnya tidak terlihat, tampilan baru dari adegan yang sama disintesis dengan kecepatan interaktif dan tanpa pemrosesan per adegan yang mahal.

Contoh deteksi objek otomatis dan pengenalan objek. Kredit gambar: MTheiler melalui Wikimedia, CC-BY-SA-4.0

Para peneliti menggunakan model encoder-decoder yang dibangun di atas transformer untuk mempelajari representasi implisit yang dapat diskalakan. Operasi geometris eksplisit diganti dengan mekanisme perhatian yang dipelajari. Model yang diusulkan memiliki keunggulan kemampuan generalisasi yang lebih kuat dan lebih efisien daripada model sebelumnya, karena informasi global diproses sekali per adegan daripada sekali atau ratusan kali per piksel yang dirender.

Evaluasi model pada beberapa set data menunjukkan bahwa model tersebut dapat diskalakan untuk adegan yang kompleks, kuat untuk pose kamera yang bising, dan efisien dalam aplikasi interaktif. Ini dapat berguna untuk eksplorasi virtual ruang perkotaan dan aplikasi AR/VR lainnya.

Masalah klasik dalam visi komputer adalah untuk menyimpulkan representasi adegan 3D dari beberapa gambar yang dapat digunakan untuk membuat tampilan baru dengan kecepatan interaktif. Pekerjaan sebelumnya berfokus pada merekonstruksi representasi 3D yang telah ditentukan sebelumnya, misalnya mesh bertekstur, atau representasi implisit, misalnya bidang pancaran, dan seringkali membutuhkan gambar masukan dengan pose kamera yang tepat dan waktu pemrosesan yang lama untuk setiap adegan baru.
Dalam karya ini, kami mengusulkan Scene Representation Transformer (SRT), sebuah metode yang memproses gambar RGB yang diposkan atau tidak diposkan dari area baru, menyimpulkan “representasi adegan set-latent”, dan mensintesis tampilan baru, semuanya dalam satu feed-forward lulus. Untuk menghitung representasi adegan, kami mengusulkan generalisasi Vision Transformer ke set gambar, memungkinkan integrasi informasi global, dan karenanya penalaran 3D. Transformator dekoder yang efisien membuat parameter medan cahaya dengan memperhatikan representasi pemandangan untuk membuat tampilan baru. Pembelajaran diawasi dari ujung ke ujung dengan meminimalkan kesalahan rekonstruksi tampilan baru.
Kami menunjukkan bahwa metode ini mengungguli baseline baru-baru ini dalam hal PSNR dan kecepatan pada kumpulan data sintetis, termasuk kumpulan data baru yang dibuat untuk makalah ini. Lebih lanjut, kami mendemonstrasikan bahwa skala SRT untuk mendukung visualisasi interaktif dan segmentasi semantik dari lingkungan luar ruang dunia nyata menggunakan citra Street View.

Makalah penelitian: Sajjadi, MSM, “Transformer Representasi Adegan: Sintesis Tampilan Novel Geometri Melalui Representasi Adegan Set-Latent”, 2021. Link: https://arxiv.org/abs/2111.13152



Posted By : togel hongkon