Jaringan Syaraf Tiruan Berbasis Wilayah

Revisi sejak 24 Mei 2024 08.13 oleh Ariyanto (bicara | kontrib) (Menambah Kategori:Komputer menggunakan HotCat)
(beda) ← Revisi sebelumnya | Revisi terkini (beda) | Revisi selanjutnya → (beda)

Jaringan Syaraf Tiruan Berbasis Wilayah (bahasa Inggris: Region-based Convolutional Neural Networks) adalah keluarga model pembelajaran mesin untuk visi komputer dan khususnya deteksi objek

Sejarah

sunting

Tujuan awal dari R-CNN adalah untuk mengambil gambar input dan menghasilkan sekumpulan kotak pembatas sebagai output, di mana setiap kotak pembatas berisi objek dan juga kategori (misalnya mobil atau pejalan kaki) dari objek tersebut. Baru-baru ini, R-CNN telah diperluas untuk melakukan tugas-tugas visi komputer lainnya. Berikut ini adalah beberapa versi R-CNN yang telah dikembangkan.

  • November 2013: R-CNN. Diberikan sebuah gambar input, R-CNN dimulai dengan menerapkan mekanisme yang disebut Pencarian Selektif untuk mengekstrak Region of interest (ROI), di mana setiap ROI adalah sebuah persegi panjang yang dapat merepresentasikan batas sebuah objek dalam gambar. Tergantung pada skenarionya, mungkin ada sebanyak dua ribu ROI. Setelah itu, setiap ROI dimasukkan melalui jaringan syaraf untuk menghasilkan fitur keluaran. Untuk setiap fitur keluaran ROI, kumpulan pengklasifikasi mesin vektor pendukung digunakan untuk menentukan jenis objek (jika ada) yang terkandung dalam ROI.[1]
  • April 2015: Fast R-CNN. Sementara R-CNN yang asli secara independen menghitung fitur jaringan saraf pada masing-masing sebanyak dua ribu wilayah yang diminati, Fast R-CNN menjalankan jaringan saraf satu kali pada seluruh gambar. Pada akhir jaringan terdapat metode baru yang disebut ROIPooling, yang memotong setiap ROI dari tensor keluaran jaringan, membentuk ulang, dan mengklasifikasikannya. Seperti pada R-CNN asli, Fast R-CNN menggunakan Pencarian Selektif untuk menghasilkan proposal wilayahnya.[2]
  • Juni 2015: Faster R-CNN. Sementara Fast R-CNN menggunakan Pencarian Selektif untuk menghasilkan ROI, Faster R-CNN mengintegrasikan generasi ROI ke dalam jaringan saraf itu sendiri.[2]
  • Maret 2017: Mask R-CNN. Sementara versi R-CNN sebelumnya berfokus pada deteksi objek, Mask R-CNN menambahkan segmentasi instance. Mask R-CNN juga menggantikan ROIPooling dengan metode baru yang disebut ROIAlign, yang dapat merepresentasikan pecahan piksel.[3][4]
  • Juni 2019: Mesh R-CNN menambahkan kemampuan untuk menghasilkan mesh 3D dari gambar 2D.[5]

Penerapan

sunting

Jaringan syaraf tiruan berbasis wilayah telah digunakan untuk melacak objek dari kamera yang dipasang di pesawat nirawak,[6] locating text in an image,[7] dan memungkinkan pendeteksian objek di Google Lens.[8] Mask R-CNN berfungsi sebagai salah satu dari tujuh tugas dalam MLPerf Training Benchmark, yang merupakan kompetisi untuk mempercepat pelatihan jaringan saraf.[9]

Referensi

sunting
  1. ^ Gandhi, Rohith (9 Juli 2018). "R-CNN, Fast R-CNN, Faster R-CNN, YOLO — Object Detection Algorithms". Towards Data Science. Diakses tanggal 12 Maret 2020. 
  2. ^ a b Bhatia, Richa (10 September 2018). "What is region of interest pooling?". Analytics India. Diakses tanggal 12 Maret 2020. 
  3. ^ Farooq, Umer (February 15, 2018). "From R-CNN to Mask R-CNN". Medium. Diakses tanggal 12 Maret 2020. 
  4. ^ Weng, Lilian (31 Desember 2017). "Object Detection for Dummies Part 3: R-CNN Family". Lil'Log. Diakses tanggal 12 Maret 2020. 
  5. ^ Wiggers, Kyle (October 29, 2019). "Facebook highlights AI that converts 2D objects into 3D shapes". VentureBeat. Diakses tanggal March 12, 2020. 
  6. ^ Nene, Vidi (2 Agustus 2019). "Deep Learning-Based Real-Time Multiple-Object Detection and Tracking via Drone". Drone Below. Diakses tanggal 28 Maret 2020. 
  7. ^ Ray, Tiernan (Sep 11, 2018). "Facebook pumps up character recognition to mine memes". ZDNET. Diakses tanggal Mar 28, 2020. 
  8. ^ Sagar, Ram (Sep 9, 2019). "These machine learning methods make google lens a success". Analytics India. Diakses tanggal Mar 28, 2020. 
  9. ^ Mattson, Peter (2019). "MLPerf Training Benchmark". arΧiv:1910.01500v3 [math.LG].