Jaringan Syaraf Tiruan Berbasis Wilayah

Jaringan Syaraf Tiruan Berbasis Wilayah (bahasa Inggris: Region-based Convolutional Neural Networks) adalah keluarga model pembelajaran mesin untuk visi komputer dan khususnya deteksi objek

Mask R-CNN

Mask R-CNN jaringan saraf dalam dunia machine learning atau computer vision yang dirancang untuk memecahkan masalah segmentasi instance. Dengan kata lain, ini dapat memisahkan objek-objek berbeda dalam suatu gambar atau video. Anda memberikan gambar, dan itu memberikan kotak pembatas objek, kelas, dan masker. Jadi, sekarang pertanyaannya adalah apa itu segmentasi instance?

Segmentasi instance adalah tugas mengidentifikasi garis tepi objek pada tingkat piksel. Dibandingkan dengan tugas-tugas computer vision serupa, ini merupakan salah satu tugas visi yang paling sulit. Pertimbangkan tugas-tugas berikut:

Segmentasi Semantik: Ini adalah semua piksel balon.
Deteksi Objek: Ada 7 balon dalam gambar ini di lokasi-lokasi ini. Kami mulai mempertimbangkan objek-objek yang tumpang tindih.
Segmentasi Instance: Ada 7 balon di lokasi-lokasi ini, dan ini adalah piksel-piksel yang dimiliki oleh masing-masingnya.

Mask R-CNN (jaringan saraf konvolusional regional) adalah kerangka kerja dua tahap: tahap pertama memindai gambar dan menghasilkan proposal (area yang kemungkinan berisi objek). Dan tahap kedua mengklasifikasikan proposal dan menghasilkan kotak pembatas dan masker. Kedua tahap terhubung ke struktur backbone.

Apa itu Backbone?

Backbone adalah jaringan saraf konvolusional standar (biasanya ResNet50 atau ResNet101) yang berfungsi sebagai ekstraktor fitur. Lapisan awal mendeteksi fitur rendah (seperti tepi dan sudut), sedangkan lapisan kemudian mendeteksi fitur tingkat tinggi (seperti mobil, orang, langit).

Melalui jaringan backbone, gambar diubah dari 1024x1024px x 3 (RGB) menjadi peta fitur berbentuk 32x32x2048. Peta fitur ini menjadi input untuk tahapan-tahapan berikutnya.

Meskipun backbone yang dijelaskan di atas sudah bagus, masih dapat ditingkatkan. Feature Pyramid Network (FPN) diperkenalkan oleh penulis yang sama dari Mask R-CNN sebagai ekstensi yang dapat lebih baik merepresentasikan objek pada berbagai skala.

FPN meningkatkan piramida ekstraksi fitur standar dengan menambahkan piramida kedua yang mengambil fitur tingkat tinggi dari piramida pertama dan meneruskannya ke lapisan lebih rendah. Dengan melakukan hal tersebut, ini memungkinkan fitur pada setiap tingkat memiliki akses baik ke fitur tingkat rendah maupun tingkat tinggi.

Tahap Dalam Mask R-CNN:

Tahap Pertama: Sebuah jaringan saraf ringan yang disebut sebagai region proposal network (RPN) ^[1]memindai semua FPN dari atas ke bawah dan mengusulkan wilayah yang mungkin berisi objek. Meskipun memindai peta fitur adalah cara yang efisien, diperlukan metode untuk mengaitkan fitur dengan lokasi gambar mentahnya. Solusinya disebut anchors. Anchors adalah set kotak dengan lokasi dan skala yang telah ditentukan relatif terhadap gambar. Kelas ground-truth (hanya objek atau latar belakang yang diklasifikasikan biner pada tahap ini) dan bounding boxes ditetapkan untuk setiap anchor. Karena anchors dengan skala yang berbeda terikat pada tingkat yang berbeda pada peta fitur, RPN menggunakan anchors ini untuk menentukan di mana peta fitur 'seharusnya' mendapatkan objek dan ukuran bounding box-nya.

Tahap Kedua: Prosedurnya mirip dengan RPN, satu-satunya perbedaan adalah bahwa tanpa bantuan anchors, tahap ini menggunakan trik yang disebut ROIAlign untuk menemukan area yang relevan dalam peta fitur, dan ada sebuah cabang yang menghasilkan masker untuk setiap objek pada tingkat piksel. ROIAlign, di mana mereka melakukan sampling pada peta fitur di titik-titik yang berbeda dan menerapkan interpolasi bilinear.

Hal yang paling menarik yang saya temukan tentang Mask R-CNN adalah kita sebenarnya dapat memaksa lapisan-lapisan berbeda dalam jaringan saraf untuk mempelajari fitur dengan skala yang berbeda, sama seperti anchors dan ROIAlign, alih-alih memperlakukan lapisan sebagai kotak hitam.

^ Vandy, Ahmad Misry Ar Razy (2021-01-01). "Implementasi Mask R-CNN Dan CNN Untuk Identifikasi Merek Mobil Berdasarkan Citra". Institut Teknologi Telkom Purwokerto.

[1] Vandy, Ahmad Misry Ar Razy (2021-01-01). "Implementasi Mask R-CNN Dan CNN Untuk Identifikasi Merek Mobil Berdasarkan Citra". Institut Teknologi Telkom Purwokerto.

[1]