Jaringan Syaraf Tiruan Berbasis Wilayah: Perbedaan antara revisi

Konten dihapus Konten ditambahkan
Saya meminta untuk penghapusan cepat
Tag: Suntingan perangkat seluler Suntingan peramban seluler Suntingan seluler lanjutan
Ariyanto (bicara | kontrib)
k Menambah Kategori:Komputer menggunakan HotCat
 
(11 revisi perantara oleh satu pengguna lainnya tidak ditampilkan)
Baris 1:
{{db-a7}}
'''Jaringan Syaraf Tiruan Berbasis Wilayah''' ({{Lang-en|Region-based Convolutional Neural Networks}}) adalah keluarga model pembelajaran mesin untuk [[visi komputer]] dan khususnya [[deteksi objek]]
 
== Mask R-CNNSejarah ==
Mask R-CNN jaringan saraf dalam dunia machine learning atau computer vision yang dirancang untuk memecahkan masalah segmentasi instance. Dengan kata lain, ini dapat memisahkan objek-objek berbeda dalam suatu gambar atau video. Anda memberikan gambar, dan itu memberikan kotak pembatas objek, kelas, dan masker. Jadi, sekarang pertanyaannya adalah apa itu segmentasi instance?
 
Tujuan awal dari R-CNN adalah untuk mengambil gambar input dan menghasilkan sekumpulan kotak pembatas sebagai output, di mana setiap kotak pembatas berisi objek dan juga kategori (misalnya mobil atau pejalan kaki) dari objek tersebut. Baru-baru ini, R-CNN telah diperluas untuk melakukan tugas-tugas visi komputer lainnya. Berikut ini adalah beberapa versi R-CNN yang telah dikembangkan.
Segmentasi instance adalah tugas mengidentifikasi garis tepi objek pada tingkat piksel. Dibandingkan dengan tugas-tugas computer vision serupa, ini merupakan salah satu tugas visi yang paling sulit. Pertimbangkan tugas-tugas berikut:
 
* November 2013: '''R-CNN'''. Diberikan sebuah gambar input, R-CNN dimulai dengan menerapkan mekanisme yang disebut Pencarian Selektif untuk mengekstrak [[Region of interest]] (ROI), di mana setiap ROI adalah sebuah persegi panjang yang dapat merepresentasikan batas sebuah objek dalam gambar. Tergantung pada skenarionya, mungkin ada sebanyak dua ribu ROI. Setelah itu, setiap ROI dimasukkan melalui jaringan syaraf untuk menghasilkan fitur keluaran. Untuk setiap fitur keluaran ROI, kumpulan pengklasifikasi [[mesin vektor pendukung]] digunakan untuk menentukan jenis objek (jika ada) yang terkandung dalam ROI.<ref>{{Cite news|last=Gandhi|first=Rohith|url=https://towardsdatascience.com/r-cnn-fast-r-cnn-faster-r-cnn-yolo-object-detection-algorithms-36d53571365e|title=R-CNN, Fast R-CNN, Faster R-CNN, YOLO — Object Detection Algorithms|date=9 Juli 2018|work=Towards Data Science|access-date=12 Maret 2020}}</ref>
# Segmentasi Semantik: Ini adalah semua piksel balon.
* April 2015: '''Fast R-CNN'''. Sementara R-CNN yang asli secara independen menghitung fitur jaringan saraf pada masing-masing sebanyak dua ribu wilayah yang diminati, Fast R-CNN menjalankan jaringan saraf satu kali pada seluruh gambar. Pada akhir jaringan terdapat metode baru yang disebut ROIPooling, yang memotong setiap ROI dari tensor keluaran jaringan, membentuk ulang, dan mengklasifikasikannya. Seperti pada R-CNN asli, Fast R-CNN menggunakan Pencarian Selektif untuk menghasilkan proposal wilayahnya.<ref name=":0">{{Cite news|last=Bhatia|first=Richa|url=https://analyticsindiamag.com/what-is-region-of-interest-pooling/|title=What is region of interest pooling?|date=10 September 2018|work=Analytics India|access-date=12 Maret 2020}}</ref>
# Deteksi Objek: Ada 7 balon dalam gambar ini di lokasi-lokasi ini. Kami mulai mempertimbangkan objek-objek yang tumpang tindih.
* Juni 2015: '''Faster R-CNN'''. Sementara Fast R-CNN menggunakan Pencarian Selektif untuk menghasilkan ROI, Faster R-CNN mengintegrasikan generasi ROI ke dalam jaringan saraf itu sendiri.<ref name=":0" />
# Segmentasi Instance: Ada 7 balon di lokasi-lokasi ini, dan ini adalah piksel-piksel yang dimiliki oleh masing-masingnya.
* Maret 2017: '''Mask R-CNN'''. Sementara versi R-CNN sebelumnya berfokus pada deteksi objek, Mask R-CNN menambahkan segmentasi instance. Mask R-CNN juga menggantikan ROIPooling dengan metode baru yang disebut ROIAlign, yang dapat merepresentasikan pecahan piksel.<ref>{{Cite news|last=Farooq|first=Umer|url=https://medium.com/@umerfarooq_26378/from-r-cnn-to-mask-r-cnn-d6367b196cfd|title=From R-CNN to Mask R-CNN|date=February 15, 2018|work=Medium|access-date=12 Maret 2020}}</ref><ref>{{Cite news|last=Weng|first=Lilian|url=https://lilianweng.github.io/lil-log/2017/12/31/object-recognition-for-dummies-part-3.html|title=Object Detection for Dummies Part 3: R-CNN Family|date=31 Desember 2017|work=Lil'Log|access-date=12 Maret 2020}}</ref>
* Juni 2019: '''Mesh R-CNN''' menambahkan kemampuan untuk menghasilkan mesh 3D dari gambar 2D.<ref>{{Cite news|last=Wiggers|first=Kyle|url=https://venturebeat.com/2019/10/29/facebook-highlights-ai-that-converts-2d-objects-into-3d-shapes/|title=Facebook highlights AI that converts 2D objects into 3D shapes|date=October 29, 2019|work=VentureBeat|access-date=March 12, 2020}}</ref>
 
== Penerapan ==
Jaringan syaraf tiruan berbasis wilayah telah digunakan untuk melacak objek dari kamera yang dipasang di [[pesawat nirawak]],<ref>{{Cite news|last=Nene|first=Vidi|url=https://dronebelow.com/2019/08/02/deep-learning-based-real-time-multiple-object-detection-and-tracking-via-drone/|title=Deep Learning-Based Real-Time Multiple-Object Detection and Tracking via Drone|date=2 Agustus 2019|work=Drone Below|access-date=28 Maret 2020}}</ref> locating text in an image,<ref>{{Cite news|last=Ray|first=Tiernan|url=https://www.zdnet.com/article/facebook-pumps-up-character-recognition-to-mine-memes/|title=Facebook pumps up character recognition to mine memes|date=Sep 11, 2018 |publisher=[[ZDNET]] |access-date=Mar 28, 2020}}</ref> dan memungkinkan pendeteksian objek di [[Google Lens]].<ref>{{Cite news|last=Sagar|first=Ram|url=https://analyticsindiamag.com/these-machine-learning-techniques-make-google-lens-a-success/|title=These machine learning methods make google lens a success|date=Sep 9, 2019|work=Analytics India|access-date=Mar 28, 2020}}</ref> Mask R-CNN berfungsi sebagai salah satu dari tujuh tugas dalam MLPerf Training Benchmark, yang merupakan kompetisi untuk mempercepat pelatihan jaringan saraf.<ref>{{cite arXiv|eprint=1910.01500v3|class=math.LG|first=Peter|last=Mattson|title=MLPerf Training Benchmark|date=2019|display-authors=etal}}</ref>
 
==Referensi==
Mask R-CNN (jaringan saraf konvolusional regional) adalah kerangka kerja dua tahap: tahap pertama memindai gambar dan menghasilkan proposal (area yang kemungkinan berisi objek). Dan tahap kedua mengklasifikasikan proposal dan menghasilkan kotak pembatas dan masker. Kedua tahap terhubung ke struktur backbone.
{{Reflist}}
[[Berkas:Mask R-CNN.webp|jmpl]]
 
[[Kategori:Komputer]]
== Apa itu Backbone? ==
[https://www.atalanews.com/mask-r-cnn-dalam-konteks-segmentasi-instance-pada-computer-vision/ Backbone] adalah jaringan saraf konvolusional standar (biasanya ResNet50 atau ResNet101) yang berfungsi sebagai ekstraktor fitur. Lapisan awal mendeteksi fitur rendah (seperti tepi dan sudut), sedangkan lapisan kemudian mendeteksi fitur tingkat tinggi (seperti mobil, orang, langit).
 
Melalui jaringan backbone, gambar diubah dari 1024x1024px x 3 (RGB) menjadi peta fitur berbentuk 32x32x2048. Peta fitur ini menjadi input untuk tahapan-tahapan berikutnya.
 
Meskipun backbone yang dijelaskan di atas sudah bagus, masih dapat ditingkatkan. Feature Pyramid Network (FPN) diperkenalkan oleh penulis yang sama dari Mask R-CNN sebagai ekstensi yang dapat lebih baik merepresentasikan objek pada berbagai skala.
 
FPN meningkatkan piramida ekstraksi fitur standar dengan menambahkan piramida kedua yang mengambil fitur tingkat tinggi dari piramida pertama dan meneruskannya ke lapisan lebih rendah. Dengan melakukan hal tersebut, ini memungkinkan fitur pada setiap tingkat memiliki akses baik ke fitur tingkat rendah maupun tingkat tinggi.
 
== Tahap Dalam Mask R-CNN: ==
Tahap Pertama: Sebuah jaringan saraf ringan yang disebut sebagai region proposal network (RPN) <ref>{{Cite journal|last=Vandy|first=Ahmad Misry Ar Razy|date=2021-01-01|title=Implementasi Mask R-CNN Dan CNN Untuk Identifikasi Merek Mobil Berdasarkan Citra|url=https://repository.ittelkom-pwt.ac.id/7132/|language=id|publisher=Institut Teknologi Telkom Purwokerto}}</ref>memindai semua FPN dari atas ke bawah dan mengusulkan wilayah yang mungkin berisi objek. Meskipun memindai peta fitur adalah cara yang efisien, diperlukan metode untuk mengaitkan fitur dengan lokasi gambar mentahnya. Solusinya disebut anchors. Anchors adalah set kotak dengan lokasi dan skala yang telah ditentukan relatif terhadap gambar. Kelas ground-truth (hanya objek atau latar belakang yang diklasifikasikan biner pada tahap ini) dan bounding boxes ditetapkan untuk setiap anchor. Karena anchors dengan skala yang berbeda terikat pada tingkat yang berbeda pada peta fitur, RPN menggunakan anchors ini untuk menentukan di mana peta fitur 'seharusnya' mendapatkan objek dan ukuran bounding box-nya.
 
Tahap Kedua: Prosedurnya mirip dengan RPN, satu-satunya perbedaan adalah bahwa tanpa bantuan anchors, tahap ini menggunakan trik yang disebut ROIAlign untuk menemukan area yang relevan dalam peta fitur, dan ada sebuah cabang yang menghasilkan masker untuk setiap objek pada tingkat piksel. ROIAlign, di mana mereka melakukan sampling pada peta fitur di titik-titik yang berbeda dan menerapkan interpolasi bilinear.
 
Hal yang paling menarik yang saya temukan tentang Mask R-CNN adalah kita sebenarnya dapat memaksa lapisan-lapisan berbeda dalam jaringan saraf untuk mempelajari fitur dengan skala yang berbeda, sama seperti anchors dan ROIAlign, alih-alih memperlakukan lapisan sebagai kotak hitam.