Jaringan saraf konvolusional: Perbedaan antara revisi

Konten dihapus Konten ditambahkan
Dibuat dengan menerjemahkan halaman "Convolutional neural network"
Tag: halaman dengan galat kutipan pranala ke halaman disambiguasi [Konten] [Konten v2]
 
Tag: halaman dengan galat kutipan
 
(6 revisi perantara oleh satu pengguna lainnya tidak ditampilkan)
Baris 1:
{{Other uses|CNN (disambiguasi)}}{{Pemelajaran mesin}}
 
'''Jaringan saraf konvolusional''' ([[bahasa Inggris]]: ''Convolutional neural network'' atau disingkat '''CNN''') adalah salah satu kelas [[Jaringan saraf umpan maju|jaringan saraf umpan-maju]] [[Regularisasi (matematika)|teregulasi]] yang secara mandiri mampu mempelajari [[rekayasa fitur]] melalui optimasi [[Filter (pemrosesan sinyal)|filter]] (atau kernel). Keunggulan CNN dibandingkan jaringan saraf terdahulusebelumnya terletak pada kemampuannya untuk mengatasi permasalahan gradientgradien menghilang dan gradientgradien meledak yang kerap muncul saat [[Algoritma perambatan mundur|propagasi balik]]. Hal ini dimungkinkan karena CNN menggunakan bobot terregularisasi pada koneksi yang lebih sedikit. <ref name="auto3">{{Cite book|last=Venkatesan|first=Ragav|last2=Li|first2=Baoxin|date=2017-10-23|url=https://books.google.com/books?id=bAM7DwAAQBAJ&q=vanishing+gradient|title=Convolutional Neural Networks in Visual Computing: A Concise Guide|publisher=CRC Press|isbn=978-1-351-65032-8|language=en|access-date=2020-12-13|archive-url=https://web.archive.org/web/20231016190415/https://books.google.com/books?id=bAM7DwAAQBAJ&q=vanishing+gradient#v=snippet&q=vanishing%20gradient&f=false|archive-date=2023-10-16|url-status=live}}</ref> <ref name="auto2">{{Cite book|last=Balas|first=Valentina E.|last2=Kumar|first2=Raghvendra|last3=Srivastava|first3=Rajshree|date=2019-11-19|url=https://books.google.com/books?id=XRS_DwAAQBAJ&q=exploding+gradient|title=Recent Trends and Advances in Artificial Intelligence and Internet of Things|publisher=Springer Nature|isbn=978-3-030-32644-9|language=en|access-date=2020-12-13|archive-url=https://web.archive.org/web/20231016190414/https://books.google.com/books?id=XRS_DwAAQBAJ&q=exploding+gradient#v=snippet&q=exploding%20gradient&f=false|archive-date=2023-10-16|url-status=live}}</ref> Misalnya, untuk ''setiap'' neuron di lapisan yang sepenuhnya terhubung (''fully connected layers''), diperlukan 10.000 bobot untuk memproses gambar berukuran 100 × 100 piksel. Namun, dengan menerapkan kernel ''konvolusi'' berjenjang (atau korelasi silang),<ref>{{Cite journal|last=Zhang|first=Yingjie|last2=Soon|first2=Hong Geok|last3=Ye|first3=Dongsen|last4=Fuh|first4=Jerry Ying Hsi|last5=Zhu|first5=Kunpeng|date=September 2020|title=Powder-Bed Fusion Process Monitoring by Machine Vision With Hybrid Convolutional Neural Networks|url=https://ieeexplore.ieee.org/document/8913613|journal=IEEE Transactions on Industrial Informatics|volume=16|issue=9|pages=5769–5779|doi=10.1109/TII.2019.2956078|issn=1941-0050|archive-url=https://web.archive.org/web/20230731120013/https://ieeexplore.ieee.org/document/8913613/|archive-date=2023-07-31|access-date=2023-08-12|url-status=live}}</ref><ref>{{Cite journal|last=Chervyakov|first=N.I.|last2=Lyakhov|first2=P.A.|last3=Deryabin|first3=M.A.|last4=Nagornov|first4=N.N.|last5=Valueva|first5=M.V.|last6=Valuev|first6=G.V.|date=September 2020|title=Residue Number System-Based Solution for Reducing the Hardware Cost of a Convolutional Neural Network|url=https://linkinghub.elsevier.com/retrieve/pii/S092523122030583X|journal=Neurocomputing|language=en|volume=407|pages=439–453|doi=10.1016/j.neucom.2020.04.018|archive-url=https://web.archive.org/web/20230629155646/https://linkinghub.elsevier.com/retrieve/pii/S092523122030583X|archive-date=2023-06-29|access-date=2023-08-12|quote=Convolutional neural networks represent deep learning architectures that are currently used in a wide range of applications, including computer vision, speech recognition, malware dedection, time series analysis in finance, and many others.|url-status=live}}</ref> hanya diperlukan 25 neuron untuk memproses petak berukuran 5x5.<ref name="auto1">{{Cite book|last=Habibi|first=Aghdam, Hamed|date=2017-05-30|title=Guide to convolutional neural networks : a practical application to traffic-sign detection and classification|location=Cham, Switzerland|isbn=9783319575490|others=Heravi, Elnaz Jahani|oclc=987790957}}</ref><ref>{{Cite journal|last=Atlas, Homma, and Marks|title=An Artificial Neural Network for Spatio-Temporal Bipolar Patterns: Application to Phoneme Classification|url=https://papers.nips.cc/paper/1987/file/98f13708210194c475687be6106a3b84-Paper.pdf|journal=Neural Information Processing Systems (NIPS 1987)|volume=1|archive-url=https://web.archive.org/web/20210414091306/https://papers.nips.cc/paper/1987/file/98f13708210194c475687be6106a3b84-Paper.pdf|archive-date=2021-04-14|url-status=live}}</ref> Arsitektur CNN ini memungkinkan ekstraksi fitur tingkat tinggi dari jendela konteks yang lebih luas pada lapisan yang lebih tinggi dibanding lapisan sebelumnya.
 
CNN memiliki aplikasipenerapan di:
 
* [[Visi komputer|pengenalan citra dan video]], <ref name="Valueva Nagornov Lyakhov Valuev 2020 pp. 232–243">{{Cite journal|last=Valueva|first=M.V.|last2=Nagornov|first2=N.N.|last3=Lyakhov|first3=P.A.|last4=Valuev|first4=G.V.|last5=Chervyakov|first5=N.I.|year=2020|title=Application of the residue number system to reduce hardware costs of the convolutional neural network implementation|journal=Mathematics and Computers in Simulation|publisher=Elsevier BV|volume=177|pages=232–243|doi=10.1016/j.matcom.2020.04.031|issn=0378-4754|quote=Convolutional neural networks are a promising tool for solving the problem of pattern recognition.}}</ref>
Baris 28:
CNN secara relatif menggunakan pra-pemrosesan yang lebih sedikit dibandingkan dengan [[Visi komputer|algoritma klasifikasi citra]] lainnya. Artinya, jaringan pada CNN mempelajari optimasi [[Filter (pemrosesan sinyal)|filter]] (atau kernel) melalui pemelajaran otomatis. Berbeda dengan algoritma tradisional yang mengandalkan rekayasa filter ini[[Rekayasa fitur|secara manual]]. Kemampuan ini menjadikan penggunaan CNN memberikan keuntungan yang besar karena independensinya terhadap pra-pengetahuan manusia dalam tahap ekstraksi fitur.
 
== Arsitektur ==
{{Other uses|CNN (disambiguasi)}}
[[File:Comparison image neural networks.svg|thumb|480px|Perbandingan lapisan konvolusi, penggabungan, dan lapisan sepenuhnya terhubung pada [[LeNet]] dan [[AlexNet]]<br>(Perlu dicatat bahwa ukuran citra yang digunakan pada AlexNet dalam artikel ini adalah 227x227x3, bukan 224x224x3 seperti yang disebutkan pada penelitian awal. Koreksi ini berdasarkan saran Andrej Karpathy, kepala divisi visi komputer di Tesla. Alasan pemilihan ukuran gambar 224x224x3 dalam penelitian awal AlexNet tidak dijelaskan secara rinci oleh Alex. Lapisan konvolusi selanjutnya berukuran 11x11 dengan langkah (''stride'') 4: 55×55×96 (bukan 54×54×96). Akan dihitung dengan contoh sebagai berikut: [(lebar masukan 227 - lebar kernel 11) / langkah 4] + 1 = [(227 - 11) / 4] + 1 = 55. Karena keluaran kernel memiliki panjang dan lebar yang sama, maka luasnya adalah 55x55.)]]
 
{{Main|Lapisan (pemelajaran dalam)}}
CNN terdiri dari satu lapisan masukan (''input layer''), beberapa [[Jaringan saraf tiruan#Organisasi|lapisan tersembunyi]] (''hidden layers''), dan satu lapisan keluaran (''output layer''). Lapisan tersembunyi tersebut terdiri dari minimal satu lapisan yang melakukan operasi konvolusi. Konvolusi ini biasanya melibatkan lapisan yang melakukan [[produk dot|perkalian titik (''dot product'')]] antara kernel konvolusi dengan matriks masukan lapisan tersebut. Hasil perkalian ini umumnya berupa [[perkalian dalam Frobenius]], dan [[rectifier (jaringan saraf)|ReLU]] sebagai fungsi aktivasinya. Saat kernel konvolusi bergerak di sepanjang matriks masukan lapisan, operasi konvolusi ini menghasilkan peta fitur (''feature map''), yang selanjutnya menjadi masukan lapisan berikutnya. Lapisan konvolusi ini kemudian dilanjutkan dengan lapisan lain, seperti lapisan penggabungan (''pooling''), lapisan sepenuhnya terhubung (''fully connected''), dan lapisan normalisasi. Perlu dicatat di sini terkait kemiripan antara jaringan saraf konvolusi dengan ''[[matched filter]]''.
<ref>Convolutional Neural Networks Demystified: A Matched Filtering Perspective Based Tutorial https://arxiv.org/abs/2108.11663v3</ref>
 
=== Lapisan konvolusi ===
Dalam CNN, masukan berupa [[Tensor (pemelajaran mesin)|tensor]] dengan ukuran:
 
(jumlah masukan) × (tinggi masukan) × (lebar masukan) × (masukan [[Kanal (citra digital)|kanal]])
 
Setelah melewati lapisan konvolusi, gambar menjadi terabstraksi menjadi peta fitur, disebut juga peta aktivasi, dengan ukuran:
 
(jumlah masukan) × (tinggi peta fitur) × (lebar peta fitur) × (peta fitur [[kanal (citra digital)|kanal]]).
 
Lapisan konvolusi melakukan konvolusi pada masukan dan meneruskan hasilnya ke lapisan berikutnya. Operasi ini mirip dengan respon neuron di korteks visual terhadap stimulus tertentu.<ref name="deeplearning">{{cite web |title=Convolutional Neural Networks (LeNet) – DeepLearning 0.1 documentation |url=http://deeplearning.net/tutorial/lenet.html |work=DeepLearning 0.1 |publisher=LISA Lab |access-date=31 August 2013 |archive-date=28 December 2017 |archive-url=https://web.archive.org/web/20171228091645/http://deeplearning.net/tutorial/lenet.html |url-status=dead }}</ref> Setiap neuron konvolusi hanya memproses data untuk [[bidang reseptif]]-nya sendiri.
 
[[File:1D Convolutional Neural Network feed forward example.png|thumb|Contoh jaringan saraf konvolusi umpan-balik 1 dimensi]]
Meskipun [[multilayer perceptron|jaringan saraf lapisan umpan-balik yang sepenuhnya terhubung]] dapat digunakan untuk mempelajari fitur dan mengklasifikasikan data, arsitektur ini umumnya tidak praktis untuk masukan yang lebih besar (misalnya, citra beresolusi tinggi), yang membutuhkan neuron dalam jumlah besar karena setiap piksel adalah fitur masukan yang relevan. Lapisan yang sepenuhnya terhubung untuk citra berukuran 100 × 100 memiliki 10.000 bobot untuk setiap neuron di lapisan kedua. Konvolusi mengurangi jumlah parameter bebas, memungkinkan jaringan menjadi lebih dalam.<ref name="auto1" /> Misalnya, menggunakan area petak 5 x 5, masing-masing dengan bobot yang sama, hanya membutuhkan 25 neuron. Penggunaan bobot teregulasi pada parameter yang lebih sedikit untuk menghindari masalah gradien melenyap dan gradien yang meledak yang terjadi selama [[Algoritma perambatan mundur|propagasi balik]] pada jaringan saraf sebelumnya.<ref name="auto3" /><ref name="auto2" />
 
Untuk mempercepat pemrosesan, lapisan konvolusi standar dapat diganti dengan lapisan konvolusi yang dapat dipisahkan kedalaman (''depthwise separable convolutional layers''),<ref>{{Cite arXiv |last=Chollet |first=François |date=2017-04-04 |title=Xception: Deep Learning with Depthwise Separable Convolutions |class=cs.CV |eprint=1610.02357 }}</ref>, yang didasarkan pada konvolusi kedalaman yang diikuti oleh ''konvolusi pointwise''. ''Pointwise convolution'' adalah konvolusi spasial yang diterapkan secara independen pada setiap channel dari tensor input, sedangkan konvolusi pointwise adalah konvolusi standar yang dibatasi untuk menggunakan kernel berukuran <math>1\times1</math>.
 
=== Lapisan penggabungan ===
Jaringan konvolusi dapat mencakup lapisan penggabungan lokal dan/atau global bersama dengan lapisan konvolusi tradisional. Lapisan penggabungan (''pooling layer'') mengurangi dimensi data dengan menggabungkan keluaran dari kelompok neuron pada satu lapisan menjadi satu neuron di lapisan berikutnya. Penggabungan lokal menggabungkan kelompok kecil, ukuran petak seperti 2 × 2 biasanya digunakan. Penggabungan global bekerja pada semua neuron pada peta fitur.<ref name="flexible"/><ref>{{cite web |last=[[Alex Krizhevsky|Krizhevsky]] |first=Alex |title=ImageNet Classification with Deep Convolutional Neural Networks |url=https://image-net.org/static_files/files/supervision.pdf |access-date=17 November 2013 |archive-date=25 April 2021 |archive-url=https://web.archive.org/web/20210425025127/http://www.image-net.org/static_files/files/supervision.pdf |url-status=live }}</ref> Ada dua jenis penggabungan yang umum digunakan: maksimum dan rata-rata. ''Penggabungan maksimum'' atau ''max pooling'' menggunakan nilai maksimum dari setiap kelompok neuron lokal di peta fitur,<ref name=Yamaguchi111990>{{cite conference |title=A Neural Network for Speaker-Independent Isolated Word Recognition |last1=Yamaguchi |first1=Kouichi |last2=Sakamoto |first2=Kenji |last3=Akabane |first3=Toshio |last4=Fujimoto |first4=Yoshiji |date=November 1990 |location=Kobe, Japan |conference=First International Conference on Spoken Language Processing (ICSLP 90) |url=https://www.isca-speech.org/archive/icslp_1990/i90_1077.html |access-date=2019-09-04 |archive-date=2021-03-07 |archive-url=https://web.archive.org/web/20210307233750/https://www.isca-speech.org/archive/icslp_1990/i90_1077.html |url-status=dead }}</ref><ref name="mcdns">{{cite book |last1=Ciresan |first1=Dan |first2=Ueli |last2=Meier |first3=Jürgen |last3=Schmidhuber |title=2012 IEEE Conference on Computer Vision and Pattern Recognition |chapter=Multi-column deep neural networks for image classification |date=June 2012 |pages=3642–3649 |doi=10.1109/CVPR.2012.6248110 |arxiv=1202.2745 |isbn=978-1-4673-1226-4 |oclc=812295155 |publisher=[[Institute of Electrical and Electronics Engineers]] (IEEE) |location=New York, NY |citeseerx=10.1.1.300.3283 |s2cid=2161592}}</ref> sedangkan ''penggabungan rata-rata'' mengambil nilai rata-rata.
 
=== Lapisan sepenuhnya terhubung ===
 
Lapisan sepenuhnya terhubung (''fully connected layer'') menghubungkan setiap neuron di satu lapisan ke setiap neuron di lapisan lain. Proses ini sama dengan yang digunakan di [[multilayer perceptron| jaringan saraf multilapis (MLP)]]. Matriks yang diratakan (''flattened'') melewati lapisan sepenuhnya terhubung untuk mengklasifikasikan citra.
 
=== Bidang reseptif ===
Dalam jaringan saraf, setiap neuron menerima masukan dari sejumlah lokasi di lapisan sebelumnya. Dalam lapisan konvolusi, setiap neuron hanya menerima masukan dari area terbatas dari lapisan sebelumnya yang disebut ''bidang reseptif'' saraf. Biasanya areanya berbentuk persegi (misalnya 5 x 5 neuron). Sedangkan pada lapisan yang terhubung penuh, medan reseptif adalah "seluruh lapisan sebelumnya". Jadi, di setiap lapisan konvolusi, setiap neuron mengambil masukan dari area yang lebih luas pada masukan daripada lapisan sebelumnya. Hal ini disebabkan oleh penerapan konvolusi berulang kali, yang memperhitungkan nilai piksel, serta piksel di sekitarnya. Saat menggunakan lapisan yang melebar, (''dilated'') jumlah piksel di bidang reseptif tetap konstan, tetapi medan tersebut lebih jarang diisi karena dimensinya bertambah ketika menggabungkan efek dari beberapa lapisan.
 
Untuk memanipulasi ukuran bidang reseptif sesuai keinginan, ada beberapa alternatif dari lapisan konvolusi standar. Misalnya, konvolusi atrofi (''atrous'') atau dilatasi<ref>{{Cite arXiv|last1=Yu |first1=Fisher |last2=Koltun |first2=Vladlen |date=2016-04-30 |title=Multi-Scale Context Aggregation by Dilated Convolutions |class=cs.CV |eprint=1511.07122 }}</ref><ref>{{Cite arXiv|last1=Chen |first1=Liang-Chieh |last2=Papandreou |first2=George |last3=Schroff |first3=Florian |last4=Adam |first4=Hartwig |date=2017-12-05 |title=Rethinking Atrous Convolution for Semantic Image Segmentation |class=cs.CV |eprint=1706.05587 }}</ref>yang memperluas ukuran bidang reseptif tanpa meningkatkan jumlah parameter dengan menyisipkan wilayah yang terlihat dan buta. Selain itu, lapisan konvolusi tunggal yang melebar dapat terdiri dari filter dengan beberapa rasio pelebaran,<ref>{{Cite arXiv|last1=Duta |first1=Ionut Cosmin |last2=Georgescu |first2=Mariana Iuliana |last3=Ionescu |first3=Radu Tudor |date=2021-08-16 |title=Contextual Convolutional Neural Networks |class=cs.CV |eprint=2108.07387 }}</ref> sehingga memiliki ukuran bidang reseptif yang bervariasi.
 
=== Bobot ===
Dalam jaringan saraf tiruan, setiap neuron menghitung nilai keluaran dengan menerapkan fungsi tertentu pada nilai masukan yang diterima dari bidang reseptif di lapisan sebelumnya. Fungsi yang diterapkan pada nilai input ditentukan oleh vektor bobot dan bias (biasanya berupa bilangan riil). Pemelajaran terdiri dari penyesuaian bias dan bobot ini secara berulang.
 
Vektor bobot dan bias disebut ''filter'' dan mewakili fitur tertentu dari masukan (misalnya, bentuk tertentu). Ciri khas CNN adalah banyak neuron dapat berbagi filter yang sama. Cara ini dapat mengurangi penggunaan memori karena bias tunggal dan vektor bobot tunggal digunakan di semua bidang reseptif yang berbagi filter itu, dibandingkan dengan setiap bidang reseptif yang memiliki bias dan bobot sendiri.<ref name="LeCun">{{cite web |url=http://yann.lecun.com/exdb/lenet/ |title=LeNet-5, convolutional neural networks |last=LeCun |first=Yann |access-date=16 November 2013 |archive-date=24 February 2021 |archive-url=https://web.archive.org/web/20210224225707/http://yann.lecun.com/exdb/lenet/ |url-status=live }}</ref>
 
== Sejarah ==
 
CNN sering dibandingkan dengan cara otak memproses penglihatan pada [[organisme]] makhluk hidup.<ref>{{Cite journal |last1=van Dyck |first1=Leonard Elia |last2=Kwitt |first2=Roland |last3=Denzler |first3=Sebastian Jochen |last4=Gruber |first4=Walter Roland |date=2021 |title=Comparing Object Recognition in Humans and Deep Convolutional Neural Networks—An Eye Tracking Study |journal=Frontiers in Neuroscience |volume=15 |page=750639 |doi=10.3389/fnins.2021.750639 |pmid=34690686 |pmc=8526843 |issn=1662-453X |doi-access=free }}</ref>
 
=== Bidang reseptif di korteks visual===
Penelitian oleh [[David H. Hubel|Hubel]] dan [[Torsten Wiesel|Wiesel]] pada tahun 1950-an dan 1960-an menunjukkan bahwa [[korteks visual]] kucing mengandung neuron yang secara individu dapat merespons wilayah-wilayah kecil dari [[bidang visual]]. Asalkan mata tidak bergerak, wilayah ruang visual yang menjadi tempat rangsangan visual memengaruhi pengaktifan satu neuron yang dikenal seabagai [[bidang visual]].<ref name=":4"/> Sel-sel yang bertetangga memiliki bidang reseptif yang serupa dan tumpang tindih. Ukuran dan lokasi bidang reseptif bervariasi secara sistematis di seluruh korteks untuk membentuk peta lengkap ruang visual.{{citation needed|date=October 2017}} Korteks di setiap belahan otak mewakili [[bidang visual]] yang berlawanan.{{citation needed|date=October 2017}}
 
Makalah penelitian mereka pada tahun 1968 mengidentifikasi dua jenis sel visual dasar di otak:<ref name="hubelwiesel1968">{{cite journal |title=Receptive fields and functional architecture of monkey striate cortex |journal=The Journal of Physiology |date=1968-03-01 |issn=0022-3751 |pmc=1557912 |pmid=4966457 |pages=215–243 |volume=195 |issue=1 |first1=D. H. |last1=Hubel |first2=T. N. |last2=Wiesel |doi=10.1113/jphysiol.1968.sp008455}}</ref>
 
*[[sel sederhana]], yang keluarannya dimaksimalkan oleh tepi lurus dengan orientasi tertentu dalam bidang reseptifnya
*[[sel kompleks]], yang memiliki [[bidang reseptif|bidang-bidang reseptif]] lebih besar, dan keluarannya tidak sensitif terhadap posisi pasti tepi dalam bidang tersebut.
 
Hubel dan Wiesel juga mengusulkan model berjenjang dari jua jenis sel ini untuk digunakan dalam pengenalan pola.<ref>{{cite book
|title=Brain and visual perception: the story of a 25-year collaboration
|author=David H. Hubel and Torsten N. Wiesel
|publisher=Oxford University Press US
|year=2005
|isbn=978-0-19-517618-6
|page=106
|url=https://books.google.com/books?id=8YrxWojxUA4C&pg=PA106
|access-date=2019-01-18
|archive-date=2023-10-16
|archive-url=https://web.archive.org/web/20231016190414/https://books.google.com/books?id=8YrxWojxUA4C&pg=PA106#v=onepage&q&f=false
|url-status=live
}}</ref><ref name=":4">{{cite journal |pmc=1363130 |pmid=14403679 |volume=148 |issue=3 |title=Receptive fields of single neurones in the cat's striate cortex |date=October 1959 |journal=J. Physiol. |pages=574–91 |last1=Hubel |first1=DH |last2=Wiesel |first2=TN |doi=10.1113/jphysiol.1959.sp006308}}</ref>
 
=== ''Neocognitron'', asal muasal arsitektur CNN ===
 
''"[[Neocognitron]]"''<ref name=fukuneoscholar>{{cite journal |last1=Fukushima |first1=K. |year=2007 |title=Neocognitron |journal=Scholarpedia |volume=2 |issue=1 |page=1717 |doi=10.4249/scholarpedia.1717 |bibcode=2007SchpJ...2.1717F |doi-access=free}}</ref> adalah model jaringan saraf yang diperkenalkan oleh [[Kunihiko Fukushima]] pada tahun 1980.<ref name="intro">{{cite journal |last=Fukushima |first=Kunihiko |title=Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position |journal=Biological Cybernetics |year=1980 |volume=36 |issue=4 |pages=193–202 |url=https://www.cs.princeton.edu/courses/archive/spr08/cos598B/Readings/Fukushima1980.pdf |access-date=16 November 2013 |doi=10.1007/BF00344251 |pmid=7370364 |s2cid=206775608 |archive-date=3 June 2014 |archive-url=https://web.archive.org/web/20140603013137/http://www.cs.princeton.edu/courses/archive/spr08/cos598B/Readings/Fukushima1980.pdf |url-status=live }}</ref><ref name=mcdns/><ref>{{cite journal |first1=Yann |last1=LeCun |first2=Yoshua |last2=Bengio |first3=Geoffrey |last3=Hinton |title=Deep learning |journal=Nature |volume=521 |issue=7553 |year=2015 |pages=436–444 |doi=10.1038/nature14539 |pmid=26017442 |bibcode=2015Natur.521..436L |s2cid=3074096|url=https://hal.science/hal-04206682/file/Lecun2015.pdf }}</ref>
Model ini terinsipirasi oleh penelitian Hubel dan Wiesel di atas mengenai sel-sel sederhana dan kompleks di korteks visual. ''Neurocognitron'' memiliki dua tipe lapisan dasar:
 
* Sebuah '''lapisan konvolusi''' yang mengandung unit-unit dengan bidang reseptifnya mencakup sebagian kecil lapisan sebelumnya. Vektor bobot (suatu kumpulan parameter adaptif) dari unit tersebutlah yang disebut sebagai filter. Unit-unit dalam lapisan konvolusi dapat berbagi filter yang sama.
* Beberapa '''lapisan ''downsampling''''' yang mengandung unit-unit dengan bidang reseptifnya mencakup sebagian kecil lapisan konvolusi sebelumnya. Setiap unit biasanya menghitung rata-rata aktivasi unit di bidang reseptifnya. ''Downsampling'' membantu pengenalan objek secara tepat meskipun objek tersebut mengalami pergeseran.
 
Pada 1969, [[Kunihiko Fukushima]] juga memperkenalkan [[fungsi aktivasi]] [[rectifier (jaringan saraf)|ReLU]] (''rectified linear unit'').<ref name="Fukushima1969">{{cite journal |first1=K. |last1=Fukushima |title=Visual feature extraction by a multilayered network of analog threshold elements |journal=IEEE Transactions on Systems Science and Cybernetics |volume=5 |issue=4 |date=1969 |pages=322–333 |doi=10.1109/TSSC.1969.300225}}</ref><ref name=DLhistory>{{cite arXiv|last=Schmidhuber|first=Juergen|author-link=Juergen Schmidhuber|date=2022|title=Annotated History of Modern AI and Deep Learning |class=cs.NE|eprint=2212.11279}}</ref> ReLU kini menjadi fungsi aktivasi paling populer untuk CNN dan [[pemelajaran dalam|jaringan saraf dalam]] secara umum.<ref>{{cite arXiv |last1=Ramachandran |first1=Prajit |last2=Barret |first2=Zoph |last3=Quoc |first3=V. Le |date=October 16, 2017 |title=Searching for Activation Functions |eprint=1710.05941 |class=cs.NE}}</ref>
 
Varian lain dari ''neurocognitron'' yang disebut ''cresreptron'' menggunakan metode ''max-pooling'' untuk ''downsampling'', diperkenalkan oleh J. Weng, dkk. pada 1993. ''Max-pooling'' menghitung nilai maksimum aktivasi unit di bidang reseptifnya. Metode ini berbeda dengan ''neurocognitron'' yang menggunakan rerata spasial dalam perhitungan ''downsampling''-nya.<ref name="weng1993">{{cite book| title=1993 (4th) International Conference on Computer Vision| first1=J |last1=Weng |first2=N |last2=Ahuja |first3=TS |last3=Huang| chapter=Learning recognition and segmentation of 3-D objects from 2-D images | chapter-url=https://ieeexplore.ieee.org/document/378228| publisher=IEEE| pages=121–128 | date=1993| doi=10.1109/ICCV.1993.378228 | isbn=0-8186-3870-2| s2cid=8619176 }}</ref> ''Max-pooling'' ini lebih umum digunakan pada CNN modern dibanding rata-rata.<ref name="schdeepscholar"/>
 
Pelatihan bobot dalam ''neurocognitron'' menggunakan algoritma [[pemelajaran terarah]] (''supervised learning'') dan [[Pemelajaran tak terarah]] (''unsupervised learning'') telah diajukan selama beberapa dekade.<ref name=fukuneoscholar/> Namun, saat ini arsitektur CNN umumnya dilatih menggunakan [[algoritma perambatan mundur|propagasi balik]].
 
[[Neocognitron]] merupakan CNN pertama yang mensyaratkan unit di berbagai posisi jaringan untuk berbagi bobot.
 
CNN dipresentasikan di '''Neural Information Processing Workshop''' pada 1987. Dalam presentasi tersebut, CNN didemonstrasikan dapat secara otomatis menganalisis sinyal yang bervariasi dalam waktu (''time-varying'') dengan mengganti perkalian yang telah dipelajari dengan konvolusi dalam waktu (''convolution in time''), dan didemonstrasikan untuk pengenalan suara.<ref name=homma>{{cite journal |last=Homma |first=Toshiteru |author2=Les Atlas |author3=Robert Marks II |year=1987 |title=An Artificial Neural Network for Spatio-Temporal Bipolar Patterns: Application to Phoneme Classification |url=https://proceedings.neurips.cc/paper/1987/file/98f13708210194c475687be6106a3b84-Paper.pdf |journal=Advances in Neural Information Processing Systems |volume=1 |pages=31–40 |access-date=2022-03-31 |archive-date=2022-03-31 |archive-url=https://web.archive.org/web/20220331211142/https://proceedings.neurips.cc/paper/1987/file/98f13708210194c475687be6106a3b84-Paper.pdf |url-status=live }}</ref>
 
== Lihat juga ==
Baris 42 ⟶ 124:
 
== Referensi ==
{{Reflist|30em|refs=<ref name="ICDAR19">}}
{{citation |surname1=Hubert Mara and Bartosz Bogacz |periodical=Proceedings of the 15th International Conference on Document Analysis and Recognition (ICDAR) |title=Breaking the Code on Broken Tablets: The Learning Challenge for Annotated Cuneiform Script in Normalized 2D and 3D Datasets |location=Sydney, Australien |date=2019 |pages=148–153 |language=de |doi=10.1109/ICDAR.2019.00032 |isbn=978-1-7281-3014-9 |s2cid=211026941}}
</ref>
<ref name="HeiCuBeDa_Hilprecht">
{{citation |surname1=[[Hubert Mara]] |title=HeiCuBeDa Hilprecht – Heidelberg Cuneiform Benchmark Dataset for the Hilprecht Collection |publisher=heiDATA – institutional repository for research data of Heidelberg University |date=2019-06-07 |language=de |doi=10.11588/data/IE8CCN}}
</ref><ref name="ICFHR20">
{{citation
|last1=Bogacz|first1=Bartosz
|last2=Mara|first2=Hubert
|periodical=Proceedings of the 17th International Conference on Frontiers of Handwriting Recognition (ICFHR)
|title=Period Classification of 3D Cuneiform Tablets with Geometric Neural Networks
|location=Dortmund, Germany
|date=2020
}}</ref>
<ref name="ICFHR20_Presentation">{{YouTube
|id=-iFntE51HRw
|title=Presentation of the ICFHR paper on Period Classification of 3D Cuneiform Tablets with Geometric Neural Networks
}}</ref>}}
 
== Tautan eksternal ==