TransMix: Hadir untuk Mix untuk Vision Transformers
Uncategorized

TransMix: Hadir untuk Mix untuk Vision Transformers

Arsitektur berbasis transformator banyak digunakan dalam bidang visi komputer. Namun, jaringan berbasis transformer sulit untuk dioptimalkan dan dapat dengan mudah di-overfit jika data pelatihan tidak mencukupi. Solusi umum untuk masalah ini adalah menggunakan teknik augmentasi dan regularisasi data.

Kredit gambar: Wikitude melalui Flickr, CC BY-SA 2.0

Sebuah makalah baru-baru ini di arXiv.org berpendapat bahwa pendekatan ini memiliki kekurangan karena tidak semua piksel dibuat sama.

Alih-alih menyelidiki cara mencampur gambar dengan lebih baik pada tingkat input, para peneliti fokus pada bagaimana mengurangi kesenjangan antara input dan ruang label. Peta perhatian yang dihasilkan secara alami di Vision Transformers terbukti sangat cocok untuk pekerjaan ini.

Metode ini dapat digabungkan ke dalam alur pelatihan tanpa parameter tambahan dan overhead komputasi minimal. Hal ini menunjukkan bahwa pendekatan mengarah pada peningkatan yang konsisten dan luar biasa untuk berbagai tugas dan model, seperti deteksi objek atau segmentasi instance.

Augmentasi berbasis campuran telah terbukti efektif untuk menggeneralisasi model selama pelatihan, terutama untuk Vision Transformers (ViTs) karena mereka dapat dengan mudah overfit. Namun, metode berbasis campuran sebelumnya memiliki pengetahuan awal yang mendasari bahwa rasio target yang diinterpolasi secara linier harus dijaga sama dengan rasio yang diusulkan dalam interpolasi masukan. Hal ini dapat menyebabkan fenomena aneh bahwa terkadang tidak ada objek yang valid dalam gambar campuran karena proses acak dalam augmentasi tetapi masih ada respons di ruang label. Untuk menjembatani kesenjangan antara input dan ruang label, kami mengusulkan TransMix, yang mencampur label berdasarkan peta perhatian Vision Transformers. Keyakinan label akan lebih besar jika gambar input yang sesuai diberi bobot lebih tinggi oleh peta perhatian. TransMix sangat sederhana dan dapat diimplementasikan hanya dalam beberapa baris kode tanpa memasukkan parameter tambahan dan FLOP ke model berbasis ViT. Hasil eksperimen menunjukkan bahwa metode kami dapat secara konsisten meningkatkan berbagai model berbasis ViT pada skala klasifikasi ImageNet. Setelah dilatih sebelumnya dengan TransMix di ImageNet, model berbasis ViT juga menunjukkan kemampuan transfer yang lebih baik ke segmentasi semantik, deteksi objek, dan segmentasi instan. TransMix juga terbukti lebih kuat saat mengevaluasi pada 4 tolok ukur yang berbeda. Kode akan tersedia untuk umum di URL https ini.

Makalah penelitian: Chen, J.-N., Sun, S., He, J., Torr, P., Yuille, A., dan Bai, S., “TransMix: Attend to Mix for Vision Transformers”, 2021. Tautan: https ://arxiv.org/abs/2111.09833



Posted By : togel hongkon