Ilmu Warga, Superkomputer, dan AI
Uncategorized

Ilmu Warga, Superkomputer, dan AI

Ilmuwan warga telah membantu para peneliti menemukan jenis galaksi baru, merancang obat untuk melawan COVID-19, dan memetakan dunia burung. Istilah ini menggambarkan berbagai cara agar publik dapat berkontribusi secara berarti pada penelitian ilmiah dan teknik, serta pemantauan lingkungan.

Sebagai anggota Computing Community Consortium (CCC) baru-baru ini berpendapat dalam Makalah Empat Tahunan, “Bayangkan Semua Orang: Ilmu Pengetahuan Warga, Kecerdasan Buatan, dan Penelitian Komputasi,” non-ilmuwan dapat membantu memajukan sains dengan “menyediakan atau menganalisis data pada resolusi spasial dan temporal atau skala dan kecepatan yang tidak mungkin dilakukan dengan staf dan sumber daya yang terbatas,” tulis mereka.

Tangkapan layar dari aplikasi sains warga ‘Penjelajah Energi Gelap’ yang memungkinkan non-ahli membedakan galaksi nyata dari positif palsu, dalam prosesnya melatih model pembelajaran mesin untuk membantu mencari energi gelap. Kredit gambar: Karl Gebhardt, UT Austin

Baru-baru ini, upaya ilmuwan warga telah menemukan tujuan baru: membantu peneliti mengembangkan model pembelajaran mesin, menggunakan data dan algoritme berlabel, untuk melatih komputer guna menyelesaikan tugas tertentu.

Pendekatan ini dipelopori oleh proyek astronomi crowdsourced Galaxy Zoo, yang mulai memanfaatkan ilmuwan warga pada 2007. Pada 2019, para peneliti menggunakan data berlabel untuk melatih model jaringan saraf guna mengklasifikasikan ratusan juta galaksi tak berlabel.

“Menggunakan jutaan klasifikasi yang dilakukan oleh publik dalam proyek Galaxy Zoo untuk melatih jaringan saraf adalah penggunaan program sains warga yang menginspirasi,” kata Elise Jennings, ilmuwan komputer di Argonne Leadership Computing Facility (ALCF) yang berkontribusi pada usaha.

TACC mendukung sejumlah proyek — mulai dari mengidentifikasi berita palsu hingga menunjukkan struktur yang berbahaya selama bencana alam — yang menggunakan ilmu pengetahuan warga untuk melatih model AI dan memungkinkan keberhasilan ilmiah baru.

TINDER UNTUK GALAXY

Eksperimen Energi Gelap Teleskop Hobby-Eberly, atau HETDEX, adalah eksperimen besar pertama yang mencari evolusi dalam energi gelap. Berbasis di Observatorium McDonald di Texas Barat, itu melihat lebih dalam ke masa lalu daripada sebelumnya untuk menentukan dengan sangat akurat seberapa cepat alam semesta berakselerasi.

Eksperimen bergantung pada kemampuan untuk mengidentifikasi lokasi, jarak, dan pergeseran merah dari puluhan juta galaksi. Tetapi Karl Gebhardt, seorang profesor Astronomi di The University of Texas di Austin (UT Austin) dan ilmuwan utama dalam proyek tersebut, menghadapi masalah. Algoritma komputasi mengalami kesulitan memisahkan galaksi target nyata dari positif palsu.

Anehnya, manusia bisa mendeteksi perbedaan dengan mudah. Jadi, bekerja dengan mahasiswa pascasarjana Lindsay House dan Dustin Davis, dan ilmuwan data Erin Mentuch Cooper, mereka menciptakan aplikasi sains warga yang disebut ‘Dark Energy Explorers’ untuk melatih algoritme pembelajaran mesin guna membantu proses tersebut.

Individu dengan pelatihan minimal dapat melihat garis spektral dan gambar sumber titik dan menggesek ke kiri atau kanan, tergantung pada apakah mereka percaya itu adalah galaksi nyata atau sesuatu yang lain seperti artefak dari algoritma atau setitik debu pada sensor. Aplikasi ini bercanda disebut “Tinder untuk Galaksi,” kata Gebhardt. Sampai saat ini, ilmuwan warga telah membuat hampir 2 juta klasifikasi dan lebih banyak lagi yang dibutuhkan.

Setelah cukup banyak penentuan ini dibuat, Gebhardt akan menggunakan superkomputer Maverick yang berpusat pada pembelajaran mesin TACC untuk melatih model pendeteksian galaksi. Analisis ini akan memetakan lebih dari 1 juta galaksi target dan menentukan tingkat percepatan kosmik.

LABEL UNTUK MENYELAMATKAN HIDUP

Contoh utama lain dari ilmu warga adalah proyek “Detektif Bangunan untuk Kesiapsiagaan Bencana” yang dikembangkan oleh SimCenter dari UC Berkeley. Ini mengundang publik untuk mengidentifikasi fitur arsitektur tertentu dari bangunan, seperti atap, jendela, dan cerobong asap. Label ini kemudian digunakan untuk melatih modul AI tambahan untuk simulasi kejadian bencana alam di seluruh kota oleh para peneliti.

Proyek, yang dihosting di portal web ilmu pengetahuan warga Zooniverse, telah sukses tanpa pengecualian. “Kami meluncurkan proyek pada bulan Maret dan dalam beberapa minggu kami memiliki seribu sukarelawan, dan 20.000 gambar diberi keterangan,” kata Charles Wang, asisten profesor di College of Design, Construction and Planning di University of Florida dan pengembang utama sebuah rangkaian alat AI yang disebut BRAILS — Membangun Pengenalan menggunakan AI dalam Skala Besar.

BRAILS menerapkan pembelajaran mendalam — beberapa lapisan algoritme yang secara progresif mengekstrak fitur tingkat yang lebih tinggi dari input mentah — untuk secara otomatis mengklasifikasikan fitur dalam jutaan struktur di sebuah kota. Arsitek, insinyur, dan profesional perencanaan dapat menggunakan klasifikasi ini untuk menilai risiko terhadap bangunan dan infrastruktur, dan mereka bahkan dapat mensimulasikan konsekuensi dari bahaya alam.

“Untuk berhasil mengatasi tantangan ilmiah dan sosial yang mendesak, kita membutuhkan kemampuan pelengkap dari manusia dan mesin,” tulis para penulis CCC. “Pemerintah Federal dapat mempercepat prioritasnya di berbagai bidang melalui integrasi yang bijaksana dari ilmu pengetahuan warga dan crowdsourcing dengan kecerdasan buatan (AI), Internet of Things (IoT), dan strategi cloud.”

BIAS DAN DATA BURUK

Ada tantangan, tentu saja, untuk kumpulan data yang dihasilkan oleh ilmuwan warga atau amatir lainnya (berbayar atau sukarelawan). Matt Lease, seorang profesor asosiasi di School of Information di UT Austin, mempekerjakan tenaga kerja crowdsourced untuk pelatihan AI. Dia juga mempelajari dinamika interaksi manusia-komputer ini.

Sewa baru-baru ini membayar non-profesional untuk memberi label apakah tweet harus dianggap sebagai ujaran kebencian atau tidak, dan menggunakan data ini untuk melatih model klasifikasi ujaran kebencian. Timnya juga mengumpulkan data dari pekerja kerumunan tentang apakah artikel itu berita palsu, yang mereka gunakan untuk melatih model prediksi.

Lease mengatakan dia yakin data berpotensi menjadi aspek yang paling tidak dihargai dalam mengembangkan model AI yang akurat (Dia menyempurnakan perspektif ini dalam artikel arxiv baru-baru ini yang akan muncul di edisi Maret/April Interaksi ACM).

“Penelitian untuk meningkatkan model sering diprioritaskan daripada penelitian untuk meningkatkan lingkungan data di mana model beroperasi, meskipun ketidakcocokan antara kumpulan data dan dunia nyata dapat menyebabkan kegagalan pemodelan yang signifikan dalam praktiknya,” katanya. “Peningkatan akurasi prediksi dari data yang lebih baik dapat melebihi peningkatan dari model yang lebih baik.”

Dia menunjuk sebuah studi baru-baru ini yang menunjukkan bahwa sepuluh set data AI yang paling banyak dikutip penuh dengan kesalahan label. “Kualitas data sangat penting untuk memastikan bahwa sistem AI dapat secara akurat mewakili dan memprediksi fenomena yang diklaim akan diukur,” katanya.

Namun, terkadang bias itu sendiri dapat diperoleh dari mempelajari kumpulan data dan dapat menyarankan cara yang lebih baik untuk mengumpulkan data. “Ada temuan bahwa model pendeteksi ujaran kebencian mungkin bias terhadap pidato Afrika-Amerika,” kata Lease. “Sama seperti perusahaan harus mempekerjakan pekerja yang beragam untuk menciptakan produk yang menggabungkan perspektif yang beragam, demikian juga data AI harus diberi label oleh pekerja yang beragam sehingga model AI yang dipelajari dari data juga akan mencerminkan perspektif yang beragam.”

MENGOBATI BATAS ILMU WARGA NEGARA

Ben Goldstein, seorang kandidat PhD di UC Berkeley, sedang menulis disertasi yang dimotivasi oleh pertanyaan: jenis informasi apa yang dapat kita peroleh dari kekayaan data keanekaragaman hayati sains warga yang tersedia?

Goldstein dan kolaboratornya Sara Stoudt dan Perry de Valpine membandingkan data iNaturalist dengan eBird untuk memperkirakan spesies mana yang dilaporkan berlebihan atau kurang dibandingkan dengan data dasar.

Goldstein dianugerahi alokasi oleh Extreme Science and Engineering Discovery Environment yang didanai NSF untuk menggunakan Jetstream, cloud sains dan teknik nasional yang berlokasi bersama di TACC dan Indiana University, untuk penelitian ini.

“Kami berpendapat bahwa ‘indeks pelaporan berlebihan’ ini menangkap preferensi manusia,” katanya. “Kami menggunakannya untuk mengidentifikasi spesies dan sifat mana – ukuran, warna, kelangkaan – yang dianggap karismatik.” Mereka mempublikasikan hasil studi mereka di Biorxiv.

Ilmu pengetahuan warga sama tuanya dengan ilmu itu sendiri, namun ia memiliki lebih banyak trik untuk diajarkan kepada kita, jika kita dapat belajar memanfaatkannya dengan benar. Dengan menggunakan alat komputasi mutakhir, ilmu pengetahuan warga siap untuk menambah nilai lebih untuk perusahaan ilmiah tradisional.

Sumber: TACC



Posted By : togel hongkon