Ini adalah artikel yang memenuhi kriteria penghapusan cepat artikel tentang orang, hewan individu, organisasi (grup musik, klub, perusahaan, dll.), konten web, atau peristiwa yang terselenggara yang tidak mengindikasikan kepentingan subjeknya. Lihat KPC A7.%5B%5BWP%3ACSD%23A7%7CA7%5D%5D%3A+Artikel+yang+tidak+dapat+memberikan+klaim+kepentingan+subjekA7
Jika artikel ini tidak memenuhi syarat KPC, atau Anda ingin memperbaikinya, silakan hapus pemberitahuan ini, tetapi tidak dibenarkan menghapus pemberitahuan ini dari halaman yang Anda buat sendiri. Jika Anda membuat halaman ini tetapi Anda tidak setuju, Anda boleh mengeklik tombol di bawah ini dan menjelaskan mengapa Anda tidak setuju halaman itu dihapus. Silakan kunjungi halaman pembicaraan untuk memeriksa jika sudah menerima tanggapan pesan Anda.
Ingat bahwa artikel ini dapat dihapus kapan saja jika sudah tidak diragukan lagi memenuhi kriteria penghapusan cepat, atau penjelasan dikirim ke halaman pembicaraan Anda tidak cukup meyakinkan kami.
Mask R-CNN jaringan saraf dalam dunia machine learning atau computer vision yang dirancang untuk memecahkan masalah segmentasi instance. Dengan kata lain, ini dapat memisahkan objek-objek berbeda dalam suatu gambar atau video. Anda memberikan gambar, dan itu memberikan kotak pembatas objek, kelas, dan masker. Jadi, sekarang pertanyaannya adalah apa itu segmentasi instance?
Segmentasi instance adalah tugas mengidentifikasi garis tepi objek pada tingkat piksel. Dibandingkan dengan tugas-tugas computer vision serupa, ini merupakan salah satu tugas visi yang paling sulit. Pertimbangkan tugas-tugas berikut:
Segmentasi Semantik: Ini adalah semua piksel balon.
Deteksi Objek: Ada 7 balon dalam gambar ini di lokasi-lokasi ini. Kami mulai mempertimbangkan objek-objek yang tumpang tindih.
Segmentasi Instance: Ada 7 balon di lokasi-lokasi ini, dan ini adalah piksel-piksel yang dimiliki oleh masing-masingnya.
Mask R-CNN (jaringan saraf konvolusional regional) adalah kerangka kerja dua tahap: tahap pertama memindai gambar dan menghasilkan proposal (area yang kemungkinan berisi objek). Dan tahap kedua mengklasifikasikan proposal dan menghasilkan kotak pembatas dan masker. Kedua tahap terhubung ke struktur backbone.
Apa itu Backbone?
Backbone adalah jaringan saraf konvolusional standar (biasanya ResNet50 atau ResNet101) yang berfungsi sebagai ekstraktor fitur. Lapisan awal mendeteksi fitur rendah (seperti tepi dan sudut), sedangkan lapisan kemudian mendeteksi fitur tingkat tinggi (seperti mobil, orang, langit).
Melalui jaringan backbone, gambar diubah dari 1024x1024px x 3 (RGB) menjadi peta fitur berbentuk 32x32x2048. Peta fitur ini menjadi input untuk tahapan-tahapan berikutnya.
Meskipun backbone yang dijelaskan di atas sudah bagus, masih dapat ditingkatkan. Feature Pyramid Network (FPN) diperkenalkan oleh penulis yang sama dari Mask R-CNN sebagai ekstensi yang dapat lebih baik merepresentasikan objek pada berbagai skala.
FPN meningkatkan piramida ekstraksi fitur standar dengan menambahkan piramida kedua yang mengambil fitur tingkat tinggi dari piramida pertama dan meneruskannya ke lapisan lebih rendah. Dengan melakukan hal tersebut, ini memungkinkan fitur pada setiap tingkat memiliki akses baik ke fitur tingkat rendah maupun tingkat tinggi.
Tahap Dalam Mask R-CNN:
Tahap Pertama: Sebuah jaringan saraf ringan yang disebut sebagai region proposal network (RPN) [1]memindai semua FPN dari atas ke bawah dan mengusulkan wilayah yang mungkin berisi objek. Meskipun memindai peta fitur adalah cara yang efisien, diperlukan metode untuk mengaitkan fitur dengan lokasi gambar mentahnya. Solusinya disebut anchors. Anchors adalah set kotak dengan lokasi dan skala yang telah ditentukan relatif terhadap gambar. Kelas ground-truth (hanya objek atau latar belakang yang diklasifikasikan biner pada tahap ini) dan bounding boxes ditetapkan untuk setiap anchor. Karena anchors dengan skala yang berbeda terikat pada tingkat yang berbeda pada peta fitur, RPN menggunakan anchors ini untuk menentukan di mana peta fitur 'seharusnya' mendapatkan objek dan ukuran bounding box-nya.
Tahap Kedua: Prosedurnya mirip dengan RPN, satu-satunya perbedaan adalah bahwa tanpa bantuan anchors, tahap ini menggunakan trik yang disebut ROIAlign untuk menemukan area yang relevan dalam peta fitur, dan ada sebuah cabang yang menghasilkan masker untuk setiap objek pada tingkat piksel. ROIAlign, di mana mereka melakukan sampling pada peta fitur di titik-titik yang berbeda dan menerapkan interpolasi bilinear.
Hal yang paling menarik yang saya temukan tentang Mask R-CNN adalah kita sebenarnya dapat memaksa lapisan-lapisan berbeda dalam jaringan saraf untuk mempelajari fitur dengan skala yang berbeda, sama seperti anchors dan ROIAlign, alih-alih memperlakukan lapisan sebagai kotak hitam.