Jaringan Sekilas dan Fokus untuk Pengenalan Visual Dinamis
Uncategorized

Jaringan Sekilas dan Fokus untuk Pengenalan Visual Dinamis

Algoritme pembelajaran mendalam dapat mencapai kinerja tingkat manusia super pada tugas pengenalan visual, baik dalam gambar maupun video. Namun, ini menantang dalam praktiknya karena biaya komputasi yang tinggi dan jejak memori yang tinggi.

Pengenalan vVisual berbasis pembelajaran mendalam penting dalam memproses video dan gambar diam.

Pengenalan visual berbasis pembelajaran mendalam penting dalam memproses video dan gambar diam. Kredit gambar: honeycombhc melalui Pixabay, lisensi gratis

Sebuah makalah baru-baru ini yang diterbitkan di arXiv.org bertujuan untuk mengurangi biaya komputasi pengenalan visual resolusi tinggi dari perspektif redundansi spasial.

Model dalam dapat mengenali objek secara akurat hanya dengan beberapa tambalan diskriminatif kelas, seperti kepala anjing. Mengandalkan ide ini, peneliti mempresentasikan pandangan dan fokus, kerangka kerja dua tahap. Pada lirikan langkah, model menghasilkan prediksi cepat dengan fitur global. Wilayah yang paling diskriminatif dipilih untuk fokus panggung. Ini berlangsung secara progresif dengan melokalisasi dan memproses wilayah diskriminatif kelas secara iteratif.

Metode yang diusulkan menunjukkan peningkatan yang signifikan dari efisiensi keseluruhan dengan mengalokasikan perhitungan tidak merata di berbagai gambar.

Redundansi spasial ada secara luas dalam tugas pengenalan visual, yaitu, fitur diskriminatif dalam bingkai gambar atau video biasanya hanya sesuai dengan sebagian piksel, sedangkan wilayah yang tersisa tidak relevan dengan tugas yang ada. Oleh karena itu, model statis yang memproses semua piksel dengan jumlah komputasi yang sama menghasilkan redundansi yang cukup besar dalam hal konsumsi waktu dan ruang. Dalam makalah ini, kami merumuskan masalah pengenalan gambar sebagai proses pembelajaran fitur kasar-ke-halus berurutan, meniru sistem visual manusia. Secara khusus, Glance and Focus Network (GFNet) yang diusulkan pertama-tama mengekstrak representasi global cepat dari gambar input pada skala resolusi rendah, dan kemudian secara strategis memperhatikan serangkaian wilayah (kecil) yang menonjol untuk mempelajari fitur yang lebih baik. Proses sekuensial secara alami memfasilitasi inferensi adaptif pada waktu pengujian, karena dapat dihentikan setelah model cukup yakin tentang prediksinya, menghindari komputasi redundan lebih lanjut. Perlu dicatat bahwa masalah menemukan daerah diskriminan dalam model kami dirumuskan sebagai tugas pembelajaran penguatan, sehingga tidak memerlukan anotasi manual tambahan selain label klasifikasi. GFNet bersifat umum dan fleksibel karena kompatibel dengan model backbone yang tersedia (seperti MobileNets, EfficientNets, dan TSM), yang dapat dengan mudah digunakan sebagai ekstraktor fitur. Eksperimen ekstensif pada berbagai klasifikasi gambar dan tugas pengenalan video dan dengan berbagai model tulang punggung menunjukkan efisiensi luar biasa dari metode kami. Misalnya, ini mengurangi latensi rata-rata MobileNet-V3 yang sangat efisien pada iPhone XS Max sebesar 1,3x tanpa mengorbankan akurasi. Kode dan model terlatih tersedia di URL https ini.

Makalah penelitian: Huang, G., “Glance and Focus Networks for Dynamic Visual Recognition”, 2021. Tautan: https://arxiv.org/abs/2201.03014



Posted By : togel hongkon