Proyek ImageNet adalah sebuah pangkalan data visual berskala besar yang dirancang untuk penelitian perangkat lunak pengenalan objek visual. Proyek ini telah berhasil mengumpulkan lebih dari 14 juta[1][2] citra yang telah dianotasi secara manual untuk menunjukkan objek apa yang ada pada setiap citra. Selain itu, kotak pembatas (bounding box) juga disediakan setidaknya untuk satu juta citra.[3] ImageNet berisi lebih dari 20.000 kategori [2] umum, seperti "balon" atau "stroberi" yang masing-masing terdiri dari beberapa ratus citra.[4] Meskipun citra tersebut sebenarnya tidak dimiliki oleh ImageNet, basis data anotasi URL citra pihak ketiga tersedia secara gratis langsung dari ImageNet.[5] Sejak tahun 2010, ImageNet telah mengadakan kontes perangkat lunak tahunan, yaitu ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Dalam kontes ini, program perangkat lunak bersaing untuk mengklasifikasi dan mendeteksi objek serta adegan dengan benar menggunakan seribu daftar kelas yang telah “disederhanakan” dan tidak tumpang tindih.[6]

Signifikansi untuk pemelajaran dalam

sunting

Pada 30 September 2012, sebuahjaringan saraf konvolusional (CNN), AlexNet[7] berhasil mencapai galat 5 besar terbaik sebesar 15,3% dalam Tantangan ImageNet 2012, lebih dari 10,8 poin persentase lebih rendah dibandingkan peringkat kedua. Penggunaan jaringan ini dapat dilakukan karena menggunakan unit pemrosesan grafis (GPU) selama pelatihan,[7] yang merupakan unsur penting dari revolusi pemelajaran mendalam. Menurut The Economist, "Tiba-tiba orang-orang mulai menaruh perhatian, tidak hanya pada komunitas AI, tetapi juga pada industri teknologi secara keseluruhan." [4][8][9]

Pada tahun 2015, AlexNet dikalahkan oleh Very Deep CNN dari Microsoft yang menggunakan lebih dari 100 lapisan dan berhasil memenangkan kontes ImageNet 2015.[10]

Sejarah basis data

sunting

Pada tahun 2006, peneliti AI, Fei-Fei Li mulai mengerjakan idenya terkait ImageNe. Di saat sebagian besar penelitian AI berfokus pada pengembangan model dan algoritma, Li ingin memperluas dan memperbaiki data yang tersedia untuk melatih algoritma AI.[11] Pada tahun 2007, Li bertemu dengan profesor Princeton Christiane Fellbaum, salah satu pencipta WordNet, untuk membahas proyek tersebut. Sebagai hasil dari pertemuan ini, Li melanjutkan pengembangan ImageNet mulai dari basis data kata yang ada dalam WordNet dan juga menggunakan banyak fiturnya.[12]

Sebagai asisten profesor di Princeton, Li mengumpulkan tim peneliti untuk mengerjakan proyek ImageNet. Selama proyek tersebut, mereka menggunakan Amazon Mechanical Turk untuk membantu mengklasifikasikan citra.[12]

Tim ini pertama kali mempresentasikan basis data mereka dalam bentuk poster pada Conference on Computer Vision and Pattern Recognition (CVPR) tahun 2009 di Florida.[12][13][14]

Himpunan data

sunting

ImageNet melakukan urun daya dalam proses anotasinya. Anotasi tingkat citra menunjukkan ada atau tidaknya kelas objek dalam suatu citra, seperti "ada harimau di gambar ini" atau "tidak ada harimau di gambar ini". Sementara itu, anotasi tingkat objek berupa pemberian kotak pembatas di sekitar (bagian yang terlihat dari) objek yang ditunjukkan. ImageNet menggunakan varian skema WordNet yang luas untuk mengkategorikan objek, ditambah dengan 120 kategori ras anjing untuk menampilkan klasifikasi yang lebih terperinci.[6] Salah satu kelemahan penggunaan WordNet adalah kategorinya yang mungkin "lebih tinggi" daripada yang optimalnya untuk ImageNet, seperti "Kebanyakan orang lebih tertarik pada Lady Gaga atau iPod Mini daripada jenis diplodocus yang langka."[butuh klarifikasi] Pada tahun 2012, ImageNet adalah pengguna akademis Mechanical Turk terbesar di dunia. Rata-rata relawan mengidentifikasi 50 gambar per menit.[2]

Subhimpunan dari kumpulan data

sunting

Ada berbagai subset dari kumpulan data ImageNet yang digunakan untuk berbagai konteks. Salah satu subset ImageNet yang paling banyak digunakan adalah ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012–2017 image classification and localization dataset. Pangkalan data ini juga disebut dalam literatur penelitian dengan nama ImageNet-1K atau ILSVRC2017, yang mencerminkan tantangan ILSVRC asli yang melibatkan 1.000 kelas. ImageNet-1K berisi 1.281.167 citra pelatihan, 50.000 citravalidasi, dan 100.000 citra uji. [15] Kumpulan data asli lengkap disebut sebagai ImageNet-21K. ImageNet-21k berisi 14.197.122 gambar yang dibagi menjadi 21.841 kelas. Beberapa artikel merujuknya sebagai ImageNet-22k.

Sejarah tantangan ImageNet

sunting
 
Riwayat tingkat galat pada ImageNet (menampilkan hasil terbaik per-tim dan hingga 10 entri per tahun)

ILSVRC bertujuan untuk "mengikuti jejak" tantangan PASCAL VOC yang berskala lebih kecil. PASCAL VOC dibentuk pada tahun 2005, yang hanya berisi sekitar 20.000 citra dan dua puluh kelas objek.[6] Untuk "mendemokratisasikan" ImageNet, Fei-Fei Li mengusulkan kolaborasi kepada tim PASCAL VOC, dimulai pada tahun 2010 dengan tim peneliti akan mengevaluasi algoritma mereka pada kumpulan data tertentu, dan bersaing untuk mencapai akurasi yang lebih tinggi pada beberapa tugas pengenalan visual.[12]

Kompetisi tahunan tersebut sekarang dikenal sebagai ImageNet Large Scale Visual Recognition Challenge (ILSVRC). ILSVRC menggunakan daftar "yang disederhanakan" yang hanya berisi 1000 kategori citra atau "kelas", termasuk 90 dari 120 ras anjing yang diklasifikasikan berdasarkan skema ImageNet lengkap. [6] Pda tahun 2010-an, kemajuan dramatis dalam pemrosesan citra mengalami kemajuan dramatis. Sekitar tahun 2011, tingkat kesalahan 5 terbaik klasifikasi ILSVRC yang baik adalah 25%. Pada tahun 2012, jaringan saraf konvolusional dalam, AlexNet mencapai 16% galat. Beberapa tahun selanjutnya, tingkat kesalahan 5 terbaik turun menjadi hanya beberapa persen.[16] Meskipun terobosan pada tahun 2012 merupakan "gabungan dari semua hal yang sudah ada sebelumnya", peningkatan kuantitatif yang dramatis menandai dimulainya ledakan kecerdasan buatan di seluruh industri.[4] Pada tahun 2015, para peneliti di Microsoft memberitakan bahwa CNN mereka melebihi kemampuan manusia dalam tugas-tugas ILSVRC yang sempit.[10][17] Namun, seperti yang ditunjukkan oleh salah satu penyelenggara tantangan, Olga Russakovsky pada tahun 2015, program tersebut hanya perlu mengidentifikasi citra apakah termasuk dalam salah satu dari seribu kategori, sementara manusia dapat mengenali lebih banyak kategori, dan juga (tidak seperti program) dapat menilai konteks suatu gambar.[18]

Pada tahun 2014, lebih dari lima puluh institusi berpartisipasi dalam ILSVRC.[6] Pada tahun 2017, 29 dari 38 tim yang bertanding memiliki akurasi lebih dari 95%.[19] Pada tahun 2017, ImageNet menyatakan akan meluncurkan tantangan baru yang jauh lebih sulit pada tahun 2018 yang melibatkan pengklasifikasian objek 3D menggunakan bahasa alami. Karena pembuatan data 3D lebih mahal dibanding pembuatan anotasi pada gambar 2D yang sudah ada, kumpulan datanya diharapkan lebih sedikit. Penerapan kemajuan di bidang ini akan berkisar dari navigasi robot hingga realitas berimbuh.[1]

Bias di ImageNet

sunting

Sebuah studi tentang sejarah beberapa lapisan (taksonomi, kelas objek, dan pelabelan) ImageNet dan WordNet pada tahun 2019 menjelaskan bagaimana bias[butuh klarifikasi] tertanam kuat di sebagian besar pendekatan klasifikasi untuk semua jenis citra.[20][21][22] Meskipun begitu, ImageNet tetap berupaya mengatasi berbagai sumber bias yang ada.[23]

Lihat juga

sunting

Referensi

sunting
  1. ^ a b "New computer vision challenge wants to teach robots to see in 3D". New Scientist. 7 April 2017. Diakses tanggal 3 February 2018. 
  2. ^ a b c Markoff, John (19 November 2012). "For Web Images, Creating New Technology to Seek and Find". The New York Times. Diakses tanggal 3 February 2018. 
  3. ^ "ImageNet". 2020-09-07. Diarsipkan dari versi asli tanggal 2020-09-07. Diakses tanggal 2022-10-11. 
  4. ^ a b c "From not working to neural networking". The Economist. 25 June 2016. Diakses tanggal 3 February 2018. 
  5. ^ "ImageNet Overview". ImageNet. Diakses tanggal 15 October 2022. 
  6. ^ a b c d e Olga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg and Li Fei-Fei. (* = equal contribution) ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015.
  7. ^ a b Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (June 2017). "ImageNet classification with deep convolutional neural networks" (PDF). Communications of the ACM. 60 (6): 84–90. doi:10.1145/3065386. ISSN 0001-0782. Diakses tanggal 24 May 2017. 
  8. ^ "Machines 'beat humans' for a growing number of tasks". Financial Times. 30 November 2017. Diakses tanggal 3 February 2018. 
  9. ^ Gershgorn, Dave (18 June 2018). "The inside story of how AI got good enough to dominate Silicon Valley". Quartz. Diakses tanggal 10 December 2018. 
  10. ^ a b He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Deep Residual Learning for Image Recognition". 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). hlm. 770–778. arXiv:1512.03385 . doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1. 
  11. ^ Hempel. Wired.  Tidak memiliki atau tanpa |title= (bantuan);
  12. ^ a b c d Gershgorn, Dave (26 July 2017). "The data that transformed AI research—and possibly the world". Quartz. Atlantic Media Co. Diakses tanggal 26 July 2017. Having read about WordNet's approach, Li met with professor Christiane Fellbaum, a researcher influential in the continued work on WordNet, during a 2006 visit to Princeton. 
  13. ^ Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (2009), "ImageNet: A Large-Scale Hierarchical Image Database" (PDF), 2009 conference on Computer Vision and Pattern Recognition, diarsipkan dari versi asli (PDF) tanggal 15 January 2021, diakses tanggal 26 July 2017 
  14. ^ Li, Fei-Fei (23 March 2015), How we're teaching computers to understand pictures, diakses tanggal 16 December 2018 
  15. ^ "ImageNet". www.image-net.org. Diakses tanggal 2022-10-19. 
  16. ^ Robbins, Martin (6 May 2016). "Does an AI need to make love to Rembrandt's girlfriend to make art?". The Guardian. Diakses tanggal 22 June 2016. 
  17. ^ Markoff, John (10 December 2015). "A Learning Advance in Artificial Intelligence Rivals Human Abilities". The New York Times. Diakses tanggal 22 June 2016. 
  18. ^ Aron, Jacob (21 September 2015). "Forget the Turing test – there are better ways of judging AI". New Scientist. Diakses tanggal 22 June 2016. 
  19. ^ Gershgorn, Dave (10 September 2017). "The Quartz guide to artificial intelligence: What is it, why is it important, and should we be afraid?". Quartz. Diakses tanggal 3 February 2018. 
  20. ^ Wired. ISSN 1059-1028.  Tidak memiliki atau tanpa |title= (bantuan);
  21. ^ Wong, Julia Carrie (18 September 2019). "The viral selfie app ImageNet Roulette seemed fun – until it called me a racist slur". The Guardian. ISSN 0261-3077. Diakses tanggal 22 September 2019. 
  22. ^ Crawford, Kate; Paglen, Trevor (19 September 2019). "Excavating AI: The Politics of Training Sets for Machine Learning". -. Diakses tanggal 22 September 2019. 
  23. ^ "Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy". image-net.org. 17 September 2019. Diakses tanggal 22 September 2019. 

Tautan eksternal

sunting