[[File:Comparison image neural networks.svg|thumb|480px|Perbandingan lapisan konvolusi (convolution), pengumpul (pooling), rapat (dense) dari [[LeNet]] dan [[AlexNet]]<br>(Ukuran citra masukan AlexNet seharusnya 227×227×3, bukan 224×224×3 agar perhitungannya benar. Publikasi aslinya menyebutkan angka yang berbeda, tetapi Andrej Karpathy, kepala visi komputer Tesla mengatakan bahwa seharusnya ukuran citra masukannya adalah 227×227×3 (dia mengatakan bahwa Alex tidak menjelaskan mengapa dia menggunakan 224×224×3). Konvolusi berikutnya seharusnya 11×11 dengan langkah (''stride'') 4: 55×55×96 (bukan 54×54×96). Sehingga jika dihitung sebagai contoh: [(lebar input 227 - lebar kernel 11) / ''stride'' 4] + 1 = [(227 - 11) / 4] + 1 = 55. Karena luaran kernel memiliki panjang yang sama dengan lebar, maka luasnya adalah 55×55).]]
{{Main|Lapisan (pemelajaran dalam)}}
CNN terdiri atas satu lapisan masukan (''input layer''), [[jaringan saraf tiruan#organisasi|lapisan-lapisan tersembunyi]], dan satu lapisan luaran (''output layer''). Lapisan-lapisan tersembunyi CNNtersebut di dalamnya termasuk satu atau lebih lapisan yang melakukandapat konvolusimengkonvolusi. Lapisan ini biasanya menghitung [[Produk dot|perkalian titik]] kernel konvolusi dengan matriks masukan lapisan masukan. Lapisan ini melakukan perkalian titik ini umumnya dengan [[produk titik frobenius|produk titik Frobenius]] dan menggunakan [[rectifier (jaringan saraf)|ReLU]] sebagai fungsi aktivasinya. Proses konvolusi dilakukan dengan pergeseran kernel konvolusi pada matriks masukan pada layerlapisan tersebut, lalu menghasilkan peta fitur (''feature maps'') danyang digunakan sebagai masukan untuk lapisan selanjutnya. Lapisan konvolusi ini dilanjutkan olehdiikuti lapisan-lapisan lainnya, seperti lapisan pengumpul (''pooling layer''), lapisan terhubung sepenuhnya ''(fully-connected layer''), dan lapisan normalisasi (''normalization layer''). Di sini perludapat diperhatikandilihat kemiripan antara CNN dengan [[matched filter]].<ref>Convolutional Neural Networks Demystified: A Matched Filtering Perspective Based Tutorial https://arxiv.org/abs/2108.11663v3</ref>
=== Lapisan konvolusi ===
PadaMasukan CNN,pada masukannyaCNN berupa [[Tensor (penelajaran mesin)|tensor]] dengan bentuk:
(Jumlah masukan) × (tinggi masukan) × (lebar masukan) × (masukan [[saluran (citra digital)|saluran]])
Setelah melewati sebuah lapisan konvolusi, citra tersebut diabstraksi menjadi sebuah peta fitur (''feature map''), disebut juga sebagai peta aktivasi (''activation map''), dengan bentuk:
(Jumlah masukan) × (tinggi peta fitur) × (lebar peta fitur) × (peta fitur [[saluran (citra digital)|saluran]]).
Lapisan konvolusi melakukan proses konvolusi padamengkonvolusi masukan dan melemparkan hasilnya kepada lapisan selanjutnya. Proses ini mirip dengan respons sebuah neuron dalam korteks visual terhadap rangsangan tertentu.<ref name="deeplearning">{{cite web |title=Convolutional Neural Networks (LeNet) – DeepLearning 0.1 documentation |url=http://deeplearning.net/tutorial/lenet.html |work=DeepLearning 0.1 |publisher=LISA Lab |access-date=31 August 2013 |archive-date=28 December 2017 |archive-url=https://web.archive.org/web/20171228091645/http://deeplearning.net/tutorial/lenet.html |url-status=dead }}</ref> Setiap neuron konvolusi memproses data hanya untuk [[bidang reseptif|bidang reseptifnya]].
[[File:1D Convolutional Neural Network feed forward example.png|thumb|'''1D Convolutional Neural Network feed forward example''']]
AlthoughMeskipun [[multilayerperseptron perceptronmulti-lapisan|fullyjaringan connectedumpan-maju feedforwardyang neuralterhubung networkssepenuhnya]] candapat bedigunakan useduntuk tomempelajari learnfitur-fitur featuresdan and classifymengklasifikasi data, thisarsitektur architectureini isumumnya generallytidak impracticalpraktis foruntuk largermasukan inputsyang (e.g.lebih besar, high-resolutioncontohnya images),citra whichberesolusi wouldtinggi requireyang massivemembutuhkan numbersneuron ofdalam neuronsjumlah becausebesar; eachsetiap pixelpikselnya ismerupakan asatu relevantfitur masukan (''input feature''). ASebuah fullylapisan connectedterhubung layersepenuhnya foruntuk ansatu imagecitra ofdengan sizeukuran 100 × 100 hasmemiliki 10,.000 weights forbobot ''eachuntuk'' setiap neuron in thedi secondlapisan layerkedua. ConvolutionProses reduceskonvolusi thedapat numbermengurangi ofjumlah freeparameter parameters,bebas allowingsehingga thejaringan networkdapat tomenjadi belebih deeperdalam.<ref name="auto1" /> ForSebagai examplecontoh, usingdengan menggunakan asebuah 5 × 5 tiling region, each with the same shared weights, requires only 25 neurons. Using regularized weights over fewer parameters avoids the vanishing gradients and exploding gradients problems seen during [[backpropagation]] in earlier neural networks.<ref name="auto3" /><ref name="auto2" />
To speed processing, standard convolutional layers can be replaced by depthwise separable convolutional layers,<ref>{{Cite arXiv |last=Chollet |first=François |date=2017-04-04 |title=Xception: Deep Learning with Depthwise Separable Convolutions |class=cs.CV |eprint=1610.02357 }}</ref> which are based on a depthwise convolution followed by a pointwise convolution. The ''depthwise convolution'' is a spatial convolution applied independently over each channel of the input tensor, while the ''pointwise convolution'' is a standard convolution restricted to the use of <math>1\times1</math> kernels.
|