Pemelajaran mesin daring: Perbedaan antara revisi

Konten dihapus Konten ditambahkan
Koreksi
Tag: Suntingan perangkat seluler Suntingan peramban seluler Suntingan seluler lanjutan
HsfBot (bicara | kontrib)
k v2.05b - Perbaikan untuk PW:CW (Pranala sama dengan teksnya)
 
(16 revisi perantara oleh 3 pengguna tidak ditampilkan)
Baris 2:
{{short description|Metode dalam pemelajaran mesin}}
{{Pemelajaran mesin|Paradigma}}
Dalam [[ilmu komputer]], '''pemelajaran mesin daring''' ([[bahasa Inggris]]: ''online machine learning'' atau ''online learning'') adalah suatu [[paradigma]] dalam pemelajaran mesin yang menekankan pembaruan atau penyesuaian model secara dinamis seiring dengan masuknya data baru secara real-time. <ref>{{Cite journal|title=Online learning: A comprehensive survey|journal=Neurocomputing|url=https://www.sciencedirect.com/science/article/pii/S0925231221006706|last=Hoi|first=Steven C. H.|date=2021-10-12|issue=|doi=10.1016/j.neucom.2021.04.112|volume=459|pages=|last2=Sahoo|first2=Doyen|last3=Lu|first3=Jing|last4=Zhao|first4=Peilin}}</ref> Dalam metode ini, pemelajar bertujuan untuk mempelajari dan meningkatkan prediktor terbaik untuk data masa depan pada setiap langkah, berbeda dengan pemelajaran lompok (''batch learning'') yang menggunakan seluruh [[Himpunan data pelatihan, validasi, dan pengujian|himpunan data pelatihan]] sekaligus. Pemelajaran mesin daring umumnya digunakan ketika tidak memungkinkan secara komputasional untuk melakukan proses pelatihan di keseluruhan data himpunan sehingga memerlukan algoritma [[Algoritma memori eksternal|''out-of-core'']]. Selain itu, metode ini juga diterapkan dalam kondisi ketika algoritma perlu beradaptasi secara dinamis dengan pola-pola baru dalam data, atau ketika data itu sendiri dihasilkan sebagai fungsi waktu, misalnya, [[Prediksi pasar saham|prediksi harga saham]]. Namun, perlu dicatat bahwa algoritma pemelajaran daring dapat menghadapi tantangan seperti ''[[Catastrophic interference|catastrophic interference]]'', suatu fenomena dengan pemelajaran informasi baru menghapus pengetahuan yang sudah diperoleh sebelumnya. Masalah ini dapat diatasi dengan menggunakan pendekatan ''[[incremental learning]]'', memungkinkan algoritma untuk belajar dan beradaptasi secara iteratif tanpa mengakibatkan gangguan yang signifikan pada pola-pola yang telah dipelajari sebelumnya.
 
== Pengenalan ==
Dalam konteks paradigma [[pemelajaran terarah]], fungsi yang akan dipelajari oleh model adalah <math> f : X \to Y</math> dengan <math>X</math> sebagai ruang masukan (''input'') dan <math>Y</math> sebagai label atau ruang keluaran (''output''). Fungsi ini diharapkan dapat memprediksi dengan baik titik-titik data yang diambil dari [[distribusi probabilitas bersama]] <math>p(x,y)</math> pada <math>X \times Y</math>. Namun dalam kenyataannya, pemelajar atau model tidak mengetahui ''true distribution'' <math>p(x,y)</math> terhadap titik-titik data dan biasanya hanya mengakses [[himpunan pelatihan]] yang berisi titik-titik data <math>(x_1, y_1), \ldots, (x_n, y_n)</math>. Untuk mengukur seberapa baik prediksi model, digunakan [[fungsi kerugian]] <math>V : Y \times Y \to \mathbb{R}</math>, yang memberikan nilai dari selisih antara prediksi <math>f(x)</math> dan nilai sebenarnya <math>y</math>. Ide utamanya adalah mengubah parameter dalam fungsi <math>f</math> sedemikian rupa sehingga kesalahan (''loss'') pada [[himpunan data pelatihan]] menjadi sekecil mungkin. Dengan cara ini, model dapat memberikan prediksi yang lebih akurat pada data yang belum pernah dilihat sebelumnya. Bergantung pada jenis model yang digunakan, baik itu bersifat statistis maupun adversarial, dapat dirancang berbagai konsep kerugian (''loss'') yang mengarah pada algoritma pembelajaran yang berbeda.
 
== Pandangan statistik pemelajaran daring ==
Dalam model pemelajaran statistik, sampel pelatihan <math> (x_i,y_i) </math> diasumsikan diambil dari ''true distribution'' <math>p(x,y)</math> dengan tujuan meminimalkan "risiko" harapan
:<math>I[f] = \mathbb{E}[V(f(x), y)] = \int V(f(x), y)\,dp(x, y) \ .</math>
Pendekatan yang umum digunakan di situasi ini adalah memperkirakan sebuah fungsi <math>\hat{f}</math> melalui [[minimasi risiko empiris]] atau minimasi risiko empiris yang teregularisasi (biasanya [[regularisasi Tikhonov]]). Pemilihan fungsi kerugian di sini menyebabkan munculnya beberapa algoritma terkenal, seperti algoritma ''least squares'' yang teregularisasi dan [[support-vector machines]].
 
Model pembelajaran daring murni dalam kategori ini akan belajar hanya berdasarkan input baru <math>(x_{t+1}, y_{t+1})</math>, prediktor terbaik saat ini <math>f_{t}</math>, dan beberapa informasi tambahan yang disimpan (yang biasanya diharapkan memiliki kebutuhan penyimpanan yang independen dari ukuran data pelatihan). Untuk beberapa formulasi, misalnya [[metode kernel]], pemelajaran daring murni tidak mungkin dilakukan. Namun, terdapat suatu bentuk pemelajaran daring campuran dengan menggunakan algoritma rekursif dengan <math>f_{t+1}</math> diperbolehkan bergantung pada <math>f_t</math> dan semua titik data sebelumnya <math>(x_1, y_1), \ldots, (x_t, y_t)</math>. Dalam kasus ini, kebutuhan ruang penyimpanan tidak lagi dapat dijamin bernilai konstan karena ruang penyimpanan tersebut memerlukan penyimpanan titik-titik data sebelumnya. Namun, solusi ini mungkin saja membutuhkan waktu komputasi yang lebih sedikit jika dibandingkan dengan teknik pemelajaran lompok (''batch learning'').
 
Strategi yang umumnya digunakan untuk menyelesaikan permasalahan di atas adalah dengan belajar menggunakan kelompok kecil (''mini-batch)'' yang memproses sebuah kelompok kecil dari <math> b \ge 1 </math> titik-titik data dalam satu waktu. Strategi ini bisa dianggap sebagai pemelajaran daring semu (''pseudo-online'') untuk <math> b </math> yang jauh lebih kecil dari total jumlah data pelatihan. Teknik ini biasanya digunakan dengan memanggil berulang pada data pelatihan untuk mendapatkan versi [[out-of-core]] yang teroptimasi dari algoritma pemelajaran mesin, seperti [[penurunan gradien stokastik]] yang ketika digabungkan dengan [[algoritme perambatan mundur|perambatan mundur]], merupakan strategi metode pelatihan ''de facto'' untuk [[jaringan saraf tiruan]].
 
=== Contoh: ''linear least squares'' ===
{{Main| Linear least squares (matematika)}}
Contoh sederhana dari ''linear least squares'' digunakan untuk menjelaskan berbagai konsep dalam pemelajaran daring. Konsep-konsep tersebut cukup umum sehingga dapat diterapkan pada pendekatan lain. Contohnya, dengan fungsi kerugian konveks yang berbeda.
 
=== Pemelajaran ''batch'' ===
Pertimbangkan terdapat fungsi linear <math>f</math> dalam pemelajaran diawasi yang akan dipelajari:
: <math> f(x_j) = \langle w,x_j\rangle = w \cdot x_j </math>
dengan <math> x_j \in \mathbb{R}^d</math> adalah vektor masukan (titik-titik data atau ''data points'') dan <math>w \in \mathbb{R}^d </math> adalah vektor filter linear.
Di sini tujuan yang ingin dicapai adalah menghitung vektor filter <math>w</math> dengan fungsi kerugian kuadrat (''square loss function''):
:<math> V(f(x_j), y_j) = (f(x_j) - y_j)^2 = (\langle w,x_j\rangle - y_j)^2 </math>
Fungsi tersebut digunakan untuk menghitung vektor <math>w</math> yang meminimalkan kerugian empiris:
: <math> I_n[w] = \sum_{j=1}^{n} V(\langle w,x_j\rangle,y_j) = \sum_{j=1}^{n} (x_j^Tw-y_j)^2 </math>
dengan
: <math>y_j \in \mathbb{R} </math>.
Di sini, <math>y_j</math> adalah nilai target yang bersesuaian dengan masukan <math>x_j</math> dan berada di ruang <math>\mathbb{R} </math>.
 
Misal, <math>X</math> adalah matriks data berukuran <math> i \times d </math> dan <math>y \in \mathbb{R}^i</math> adalah kolom nilai target setelah kedatangan <math>i</math> titik-titik data.
Asumsikan matriks kovarian <math> \Sigma_i = X^T X</math> dapat diinvers (jika tidak, pendekatan dengan regularisasi Tikhonov lebih disukai), solusi terbaik <math> f^*(x) = \langle w^*, x \rangle </math> untuk masalah ''linear least squares'' diberikan oleh
: <math> w^* = (X^TX)^{-1}X^T y = \Sigma_i^{-1} \sum_{j=1}^{i} x_j y_j </math>.
 
Sekarang, perhitungan kovarian matriks <math> \Sigma_i = \sum_{j=1}^{i} x_j x_j^T </math> memerlukan waktu <math> O(id^2) </math>, menginverskan matriks <math>d \times d</math> memerlukan waktu <math>O(d^3)</math>, sementara perkalian sisanya memerlukan waktu <math>O(d^2)</math>, memberikan total waktu yang diperlukan sebesar <math>O(id^2 + d^3)</math>. Ketika terdapat total <math>n</math> titik di himpunan data, untuk menghitung ulang solusi setelah kedatangan dari setiap titik data <math>i=1, \ldots, n</math>, pendekatan naif akan membutuhkan waktu <math>O(n^2d^2 + nd^3)</math>. Di sini bisa dilakukan alternatif dengan menyimpan matriks <math> \Sigma_i </math>, kemudian memperbarui solusi dengan menambahkan <math> x_{i+1}x_{i+1}^T </math> setiap kali kedatangan titik data baru, dapat menurunkan kompleksitas menjadi <math> O(d^2) </math>. Pendekatan ini menurunkan kompleksitas waktu secara keseluruhan menjadi <math>O(nd^2 + nd^3) = O(nd^3)</math>, tetapi dengan tambahan penyimpanan sebesar <math> O(d^2) </math> untuk <math> \Sigma_i </math>.<ref name="lorenzo">L. Rosasco, T. Poggio, Machine Learning: a Regularization Approach, MIT-9.520 Lectures Notes, Manuscript, Dec. 2015. Chapter 7 - Online Learning</ref>
 
===Pemelajaran daring dengan ''least squares'' rekursif===
Algoritma ''Recursive Least Squares'' (RLS) merupakan pendekatan daring (''online approach'') terhadap masalah ''least squares''. Algoritma ini memungkinkan untuk menghitung solusi dari masalah ''least squares'' secara bertahap dengan memperbarui solusi setiap kali ada ''datapoint'' baru. Hal tersebut dapat ditunjukkan dengan menginisialisasi
:<math> \textstyle w_0 = 0 \in \mathbb{R}^d</math> dan <math>\textstyle \Gamma_0 = I \in \mathbb{R}^{d \times d}</math>
dengan <math>I</math> adalah matriks identitas.
 
Di setiap iterasi ke-<math>i</math>, algoritma akan menghitung <math>\Gamma_i</math> dan <math>w_i</math> dengan memperbarui solusi dari iterasi sebelumnya.
 
Solusi dari masalah ''linear least square'' yang diberikan pada bagian sebelumnya dapat dihitung dengan iterasi berikut:
: <math> \Gamma_i=\Gamma_{i-1}-\frac{\Gamma_{i-1}x_i x_i^T \Gamma_{i-1}}{1+x_i^T\Gamma_{i-1}x_i} </math>
dengan <math>x_i</math> merupakan vektor masukan dari ''datapoint'' ke-<math>i</math> dan <math>\Gamma_{i-1}</math> merupakan matriks kovarian dari iterasi sebelumnya. Adapun untuk vektor bobot <math>w_i</math> diperbarui dengan rumus
: <math>w_i = w_{i-1}-\Gamma_ix_i(x_i^T w_{i-1}-y_i)</math>
dengan <math>y_i</math> adalah nilai target yang sesuai dengan ''datapoint'' ke-<math>i</math>.
 
Algoritma iterasi di atas dibuktikan dengan menggunakan induksi pada <math> i </math>.<ref>{{cite book|last1=Yin|first1=Harold J. Kushner, G. George|title=Stochastic approximation and recursive algorithms and applications|url=https://archive.org/details/stochasticapprox00yinh|url-access=limited|date=2003|publisher=Springer|location=New York|isbn=978-0-387-21769-7|pages=[https://archive.org/details/stochasticapprox00yinh/page/n30 8]–12|edition=Second}}</ref> Pembuktian tersebut juga menyatakan bahwa <math> \Gamma_i = \Sigma_i^{-1} </math>. Algoritma RLS juga dapat dinilai dalam konteks filter adaptif (lihat [[Recursive least squares|RLS]]).
 
Kompleksitas waktu untuk <math>n</math> langkah dari algoritma ini adalah <math>O(nd^2)</math>, yang jauh lebih cepat daripada kompleksitas pemelajaran ''batch'' yang sesuai. Di setiap langkah <math>i</math>, perlu menyimpan matriks <math>\Gamma_i</math>, keperluan penyimpanan ini konstan pada <math>O(d^2)</math>. Untuk kasus ketika matriks kovarian <math> \Sigma_i </math> tidak bisa diinvers, algoritma dapat disesuaikan dengan menggunakan versi teregulasi dari fungsi kerugian <math> \sum_{j=1}^{n} (x_j^Tw - y_j)^2 + \lambda || w ||_2^2 </math>. Kemudian, akan mudah menunjukkan algoritma yang sama dapat bekerja dengan <math> \Gamma_0 = (I + \lambda I)^{-1} </math> dan ketika iterasi berlangsung akan menghasilkan <math> \Gamma_i = (\Sigma_i + \lambda I)^{-1} </math>.<ref name="lorenzo" />
 
===''Stochastic gradient descent''===
{{Main|Stochastic gradient descent}}
Ketika formula berikut
: <math>\textstyle w_i = w_{i-1}-\Gamma_ix_i(x_i^T w_{i-1}-y_i)</math>
diganti dengan
: <math> \textstyle w_i = w_{i-1}-\gamma_i x_i(x_i^T w_{i-1}-y_i) = w_{i-1} - \gamma_i \nabla V(\langle w_{i-1}, x_i \rangle, y_i)</math>
atau <math>\Gamma_i \in \mathbb{R}^{d\times d}</math> dengan <math>\gamma_i \in \mathbb{R}</math>, maka algoritma tersebut berubah menjadi algoritma ''stochastic gradient descent'' (SGD). Dalam kasus ini, kompleksitas waktu untuk langkah <math>n</math> berkurang menjadi <math>O(nd)</math> dan kebutuhan ruang untuk setiap langkah <math>i</math> adalah konstan di <math>O(d)</math>.
 
Meskipun begitu, besarnya langkah <math>\gamma_i</math> harus dipilih dengan hati-hati untuk menyelesaikan masalah minimasi risiko harapan, sebagaimana yang telah dijelaskan di atas. Dengan memilih besar langkah peluruhan <math> \gamma_i \approx \frac{1}{\sqrt{i}}, </math> didapatkan pembuktian konvergensi dari iterasi rata-rata <math> \overline{w}_n = \frac{1}{n} \sum_{i=1}^{n} w_i </math>. Skema ini merupakan salah satu kasus khusus dari [[optimasi stokastik]] yang mana merupakan salah satu masalah optimasi terkenal.<ref name="lorenzo" />
 
===''Incremental stochastic gradient descent''===
Dalam praktiknya, seseorang dapat melakukan pemanggilan beberapa SGD (juga dinamakan sebagai siklus atau ''epoch'') pada data. Algoritma yang kemudian didapatkan tersebut dinamakan sebagai ''incremental stochastic gradient descent'' dan mengikut pada iterasi
: <math> \textstyle w_i = w_{i-1} - \gamma_i \nabla V(\langle w_{i-1}, x_{t_i} \rangle, y_{t_i})</math>
Perbedaan utama algoritma ini dengan SGD adalah pada algoritma ini terdapat sebuah sekuens <math> t_i </math> yang dipilih untuk memutuskan titik pelatihan mana yang akan dikunjungi pada langkah ke-<math> i </math> yang mana sekuens ini dapat bersifat stokastik atau deterministik. Banyaknya iterasi kemudian dipisah menjadi banyak titik (tiap titik dapat dipertimbangkan lebih dari sekali). Algoritma ini dapat ditunjukkan mampu memberikan minimasi pada risiko empiris.<ref name="bertsekas">Bertsekas, D. P. (2011). Incremental gradient, subgradient, and proximal methods for convex optimization: a survey. Optimization for Machine Learning, 85.</ref> Incremental techniques can be advantageous when considering objective functions made up of a sum of many terms e.g. an empirical error corresponding to a very large dataset.<ref name="lorenzo" />
 
===Metode kernel===
{{See also| Metode kernel}}
Kernel dapat digunakan untuk memperluas algoritma-algoritma di atas menjadi model non-parameter (atau model yang parameter-parameternya membentuk sebuah ruang dimensi tak terhingga). Metode ini tidak bisa lagi bisa disebut sebagai pemelajaran daring penuh karena melibatkan penyimpanan seluruh titik data. Meskipun begitu, metode ini lebih cepat daripada metode ''brute-force''. Metode kernel ini dapat digunakan untuk seluruh ''loss conveks'' yang lain, tetapi pada bagian ini pembahasan dibataskan pada ''square loss''. Penerapan metode kernel pada ''square loss'' ditunjukkan dengan sebuah induksi sederhana<ref name="lorenzo" /> yang jika <math> X_i </math> adalah matriks data dan <math> w_i </math> adalah keluaran setelah langkah <math> i </math> dari algoritma [[Stochastic gradient descent|SGD]], maka,
: <math> w_i = X_i^T c_i </math>
dengan <math> \textstyle c_i = ((c_i)_1, (c_i)_2, ..., (c_i)_i) \in \mathbb{R}^i</math> dan sekuens <math> c_i </math> memenuhi rekursi:
: <math> c_0 = 0 </math>
: <math> (c_i)_j = (c_{i-1})_j, j=1,2,...,i-1 </math> dan
: <math> (c_i)_i = \gamma_i \Big(y_i - \sum_{j=1}^{i-1} (c_{i-1})_j\langle x_j, x_i \rangle\Big) </math>
Perhatikan bahwa di sini <math> \langle x_j, x_i \rangle </math> hanyalah kernel standar pada <math> \mathbb{R}^d </math>, dan prediktornya didapatkan dari bentuk
: <math> f_i(x) = \langle w_{i-1},x \rangle = \sum_{j=1}^{i-1} (c_{i-1})_j \langle x_j,x \rangle </math>.
Misalkan, jika suatu kernel umum <math> K </math> diperkenalkan dan prediktornya adalah
: <math> f_i(x) = \sum_{j=1}^{i-1} (c_{i-1})_j K(x_j,x) </math>
maka pembuktian yang sama juga akan menunjukkan bahwa prediktor dapat melakukan minimasi pada ''least square loss'' dengan mengganti rekursif di atas menjadi
: <math> (c_i)_i = \gamma_i \Big(y_i - \sum_{j=1}^{i-1}(c_{i-1})_j K(x_j,x_i) \Big)</math>
Rumus di atas membutuhkan penyimpanan seluruh data untuk memperbarui <math> c_i </math>. Total kompleksitas waktu untuk rekursi di atas ketika mengevaluasi titik data ke-<math> n </math> adalah <math> O(n^2 d k) </math>, dengan <math> k </math> adalah biaya yang diperlukan untuk mengevaluasi kernel dari sepasang titik.<ref name="lorenzo" /> Maka, dengan penggunaan kernel di atas menjadikan pergerakan dari suatu dimensi terbatas <math> \textstyle w_{i} \in \mathbb{R}^d </math> menjadi sebuah kemungkinan fitur dimensi tak terbatas yang direpresentasikan oleh sebuah kernel <math> K </math> dengan melakukan rekursi di ruang parameter<math> \textstyle c_{i} \in \mathbb{R}^i </math>, yang mana dimensi di sini memiliki besar yang sama dengan himpunan data pelatihan. Secara umum, ini adalah suatu akibat dari [[representer theorem]].<ref name="lorenzo" />
 
=== ''Online convex optimization'' ===
''Online convex optimization'' (OCO) <ref>{{Cite book
|last=Hazan
|first=Elad
|author-link=Elad Hazan
|year=2015
|title=Introduction to Online Convex Optimization
|publisher=Foundations and Trends in Optimization
|url=http://ocobook.cs.princeton.edu/OCObook.pdf
}}</ref> adalah kerangka kerja umum (''framework'') untuk pengambilan keputusan yang memanfaatkan [[convex optimization]] untuk menghasilkan algoritma yang efisien. Kerangka kerja ini mengikuti pola permainan (''game playing'' berulang, sebagai berikut:
Untuk <math> t = 1,2,...,T </math>
* Pemelajar menerima masukan <math> x_t </math>
* Pemelajar menghasilkan keluaran <math> w_t </math> dari sebuah himpunan konveks tetap <math> S </math>
* ''Nature'' (alam) mengirimkan balik fungsi kerugian konveks <math> v_t : S \rightarrow \mathbb{R} </math>.
* Pemelajar mengalami kerugian <math>v_t(w_t)</math> dan memperbarui modelnya
 
Tujuan dari OCO adalah meminimalkan ''[[Regret (Teori pengambilan keputusan)|regret]]'', yaitu selisih antara akumulasi kerugian dan kerugian yang didapatkan dari titik tetap terbaik (''best fixed point'') <math> u \in S</math> yang dapat dipilh dalam pengamatan kembali. Sebagai contoh, pertimbangkan kasus regresi linear ''least squares''. Di sini, vektor ''weight'' didapatkan dari himpunan konveks <math> S = \mathbb{R}^d </math>, dan ''nature'' (alam) mengirimkan balik fungsi kerugian konveks <math> v_t(w) = ( \langle w,x_t \rangle - y_t )^2 </math>. Perhatikan bahwa di sini <math> y_t </math> dikirim secara implisit dengan <math> v_t </math>.
 
Akan tetapi, beberapa masalah prediksi daring tidak cocok dimasukkan ke dalam kerangka kerja OCO ini. Sebagai contoh, dalam klasifikasi daring, domain klaisifikasi dan fungsi kerugian, keduanya tidak bersifat konveks. Oleh karena itu, di kasus ini, teknik sederhana untuk [[konveksifikasi]] digunakan, yaitu [[randomisasi]] dan fungsi kerugian pengganti {{citation needed|date=September 2019}}.
 
Beberapa algoritma sederhana dalam optimisasi konveks, antara lain:
 
==== ''Follow the leader'' (FTL)====
Algoritma sederhana dalam optimisasi konveks yang pertama adalah ''Follow the Leader'' (FTL) yang merupakan teknik yang paling sederhana dengan hanya memilih (pada langkah saat ini) hipotesis yang memiliki kerugian paling sedikit sepanjang iterasi sebelumnya. Algoritma ini disebut ''Follow the Leader'', dan iterasi atau ''round'' <math>t</math> dihitung sebagai berikut:
: <math> w_t = \operatorname{arg\,min}_{w \in S} \sum_{i=1}^{t-1} v_i(w) </math>
Dengan kata lain, pada setiap langkah, kita memilih hipotesis <math>w_t</math> yang meminimalkan total kerugian sepanjang iterasi sebelumnya. Metode ini dapat dianggap sebagai algoritma serakah (''greedy algorithm'') karena setiap keputusan diambil dengan tujuan meminimalkan kerugian yang telah terjadi.
 
Pada kasus optimasi ''[[online quadratic]]'' yang fungsi kerugiannya adalah <math> v_t(w) = || w - x_t ||_2^2 </math>), dapat ditunjukkan bahwa terdapat batas ''regret'' yang naik sebanding <math> \log(T) </math>. Namun, batas serupa tidak dapat didapatkan oleh algoritma FTL pada keluarga model penting lainnya, seperti optimisasi ''linear online''. Untuk mencapai batasan tersebut, FTL perlu dimodifikasi dengan menambahkan regularisasi.
 
==== ''Follow the regularised leader'' (FTRL)====
FTRL adalah modifikasi dari FTL yang dimaksudkan untuk menstabilkan solusi yang didapatkan dari FTL dan mendapatkan batas ''regret'' yang lebih baik. Sebuah fungsi regularisasi <math> R : S \rightarrow \mathbb{R} </math> dipilih dan pemelajaran dilakukan pada iterasi {{mvar|t}} sebagai berikut:
: <math> w_t = \operatorname{arg\,min}_{w \in S} \sum_{i=1}^{t-1}v_i(w) + R(w) </math>
Sebagai contoh khusus, pertimbangkan kasus ''online linear optimisation'' , yaitu ketika ''alam'' mengirimkan kembali fungsi kerugian dalam bentuk <math> v_t(w) = \langle w,z_t \rangle </math> dan <math> S = \mathbb{R}^d </math>. Misal, fungsi regularisasi <math> R(w) = \frac{1}{2 \eta} ||w||_2^2 </math> dipilih untuk suatu bilangan positif <math> \eta </math>. Maka, dapat ditunjukkan bahwa iterasi yang meminimalkan ''regret'' menjadi
: <math > w_{t+1} = - \eta \sum_{i=1}^{t} z_i = w_t - \eta z_t</math>
Perhatikan bahwa ini dapat ditulis ulang sebagai <math> w_{t+1} = w_t - \eta \nabla v_t(w_t) </math> yang ini persis sama dengan SGD sebelumnya.
 
Jika {{mvar|S}} adalah sebuah subruang konveks dari <math> \mathbb{R}^d </math>, {{mvar|S}} harus diproyeksikan ke, yang akhirnya mengarah kepada modikasi aturan pembaruan
: <math> w_{t+1} = \Pi_S(- \eta \sum_{i=1}^{t} z_i) = \Pi_S(\eta \theta_{t+1}) </math>
Algoritma ini dikenal sebagai ''lazy projection'', karena vektor <math> \theta_{t+1} </math> mengakumulasi gradien. Algoritma ini juga dikenal sebagai ''Nesterov's dual averaging algorithm''. Dalam skenario fungsi kerugian linier (''linear loss functions'') dan regularisasi kuadratik (''quadratic regularisation'') ini, ''regret'' dibatasi oleh <math> O(\sqrt{T}) </math>. Dengan demikian, rata-rata ''regret'' menuju kepada {{mvar|0}} sesuai yang diinginkan.
 
=== ''Online subgradient descent'' (OSD) ===
{{See also|Metode subgradien}}
Di atas telah dibuktikan sebuah batas ''regret'' untuk fungsi kerugian linear <math> v_t(w) = \langle w, z_t \rangle </math>. Maka untuk menggeneralisasi algoritma sehingga dapat berlaku untuk semua fungsi kerugian konveks, [[subgradien]] <math> \partial v_t(w_t) </math> dari <math> v_t </math> digunakan sebagai suatu aproksimasi linear terhadap <math> v_t </math> dekat <math> w_t </math> yang kemudian menagrah kepada algoritma OSD:
 
Inisialisasi parameter <math> \eta, w_1 = 0 </math>
 
Untuk <math> t = 1,2,...,T </math>
* Lakukan prediksi menggunakan <math> w_t </math>, menerima <math>f_t</math> dari ''nature''.
* Pilih <math>z_t \in \partial v_t(w_t)</math>
* Jika <math> S = \mathbb{R}^d </math>, perbarui sampai <math> w_{t+1} = w_t - \eta z_t</math>
* Jika <math> S \subset \mathbb{R}^d </math>, proyeksikan gradien akumulatif kepada <math> S </math> i.e. <math> w_{t+1} = \Pi_S(\eta\theta_{t+1}) , \theta_{t+1} = \theta_t + z_t</math>
OSD dapat digunakan untuk menurunkan <math> O(\sqrt{T}) </math> iterasi ''bound'' untuk versi dari dari [[Support-vector machine|SVM]] untuk klasifikasi yang menggunakan [[kerugian hinge]] <math> v_t(w) = \max \{ 0, 1 - y_t(w \cdot x_t) \} </math>
 
=== Algoritma lainnya ===
Algoritma FTRL yang teregularisi secara kuadratik menyebabkan algoritma gradien menjadi diproyeksikan secara "malas" seperti yang dijelaskan di atas. Untuk mengimplementasikan cara di atas untuk fungsi konveks dan regularisator sembarang, dapat digunakan [[online mirror descent]]. Regularisasi optimal nantinya dapat diturunkan untuk fungsi kerugian linier yang kemudian mengarah kepada algoritma [[AdaGrad]]. Untuk regularisasi Euclidean, dapat ditunjukkan batas ''regret'' <math> O(\sqrt{T}) </math>, yang dapat diperbaiki lebih lanjut menjadi <math> O(\log T) </math> untuk fungsi kerugian konveks dan exp-concave yang sangat kuat.
 
== Pemelajaran yang berkelanjutan ==
 
Pemelajaran berkelanjutan atau ''[[continual learning]]'' berarti terus meningkatkan model yang dipelajari dengan cara memproses aliran informasi yang terus menerus berubah.<ref>{{Cite journal|last=Parisi|first=German I.|last2=Kemker|first2=Ronald|last3=Part|first3=Jose L.|last4=Kanan|first4=Christopher|last5=Wermter|first5=Stefan|date=2019|title=Continual lifelong learning with neural networks: A review|url=http://dx.doi.org/10.1016/j.neunet.2019.01.012|journal=Neural Networks|volume=113|pages=54–71|doi=10.1016/j.neunet.2019.01.012|issn=0893-6080|arxiv=1802.07569}}</ref> Kemampuan pembelajaran berkelanjutan sangat penting untuk sistem perangkat lunak dan agen otonom yang berinteraksi di dunia nyata yang terus berubah. Namun, pemelajaran berkelanjutan merupakan tantangan bagi pemelajaran mesin dan model jaringan syaraf karena akuisisi informasi yang tersedia secara bertahap dari distribusi data non-stasioner secara umum mengarah pada [[catastrophic forgetting]].
 
== Interpretasi pemelajaran daring ==
Paradigma pemeelajaran online memiliki interpretasi yang berbeda, tergantung dengan pilihan model pemelajaran, yang masing-masing memiliki implikasi yang berbeda terkait kualitas prediksi dari barisan fungsi <math>f_1, f_2, \ldots, f_n</math>. Algoritma prototipe ''stochastic gradient descent'' digunakan untuk diskusi ini. Seperti yang telah disebutkan di atas, rekursinya diberikan oleh
: <math> \textstyle w_t = w_{t-1} - \gamma_t \nabla V(\langle w_{t-1}, x_t \rangle, y_t)</math>
 
Interpretasi pertama mempertimbangkan metode ''[[stochastic gradient descent]]'' yang diterapkan pada masalah minimasi risiko harapan <math>I[w]</math> yang telah didefinisikan di atas.<ref>{{Cite book
|last=Bottou
|first=Léon
|author-link=Léon Bottou
|contribution=Online Algorithms and Stochastic Approximations
|year=1998
|title=Online Learning and Neural Networks
|publisher=Cambridge University Press
|url=https://archive.org/details/onlinelearningin0000unse
|isbn=978-0-521-65263-6
|url-access=registration
}}</ref> Memang, dalam kasus aliran data yang tak terbatas, karena contoh <math>(x_1, y_1), (x_2, y_2), \ldots </math> diasumsikan diambil secara independen dan terdistribusi secara identik (i.i.d.) dari distribusi <math>p(x,y)</math>, barisan gradien dari <math>V(\cdot, \cdot)</math> pada iterasi di atas merupakan contoh i.i.d. sampel estimasi stokastik dari gradien risiko harapan <math>I[w]</math>. Oleh karena itu, didapatkan hasil kompleksitas untuk metode SGD untuk mengikat deviasi <math>I[w_t] - I[w^\ast]</math> yang <math>w^\ast</math> adalah minimasi <math>I[w]</math>.<ref name="kushneryin">''Stochastic Approximation Algorithms and Applications'', Harold J. Kushner and G. George Yin, New York: Springer-Verlag, 1997. {{ISBN|0-387-94916-X}}; 2nd ed., titled ''Stochastic Approximation and Recursive Algorithms and Applications'', 2003, {{ISBN|0-387-00894-2}}.</ref> Interpretasi ini juga berlaku dalam kasus himpunan pelatihan yang terbatas; meskipun dengan beberapa kali melakukan panggilan terhadap data, gradien tidak lagi independen sehingga tetap saja hasil yang kompleks dapat diperoleh dalam kasus-kasus khusus.
 
Interpretasi kedua berlaku untuk kasus himpunan pelatihan yang terbatas dan menganggap algoritma SGD sebagai contoh dari metode ''incremental gradient descent''.<ref name="bertsekas" /> Dalam kasus ini, kita akan melihat risiko empiris:
: <math>I_n[w] = \frac{1}{n}\sum_{i = 1}^nV(\langle w,x_i \rangle, y_i) \ .</math>
Karena gradien <math>V(\cdot, \cdot)</math> terdapat dalam iterasi ''incremental'' SGD yang merupakan estimasi stokastik dari gradien <math>I_n[w]</math>, interpretasi ini juga terkait dengan metode SGD, tetapi diterapkan untuk meminimalkan risiko empiris dan bukan risiko harapan. Karena interpretasi ini berkaitan dengan risiko empiris dan bukan risiko harapan, beberapa lintasan melalui data dapat dengan mudah diizinkan dan benar-benar mengarah pada batas yang lebih ketat pada penyimpangan <math>I_n[w_t] - I_n[w^\ast_n]</math> dengan <math>w^\ast_n</math> adalah peminimalisasi dari <math>I_n[w]</math>.
 
== Implementasi ==
* [[Vowpal Wabbit]]: Sistem pemelajaran daring cepat yang terkenal karena mendukung banyak pemelajaran [[Reduksi (kompleksitas)|reduksi]], pembobotan kepentingan, dan pilihan fungsi kerugian yang berbeda serta algoritme pengoptimalan. Ini menggunakan [[fitur hashing|trik hashing]] untuk membatasi ukuran set fitur yang tidak bergantung pada jumlah data pelatihan.
* [[Scikit-learn]]: menyediakan implementasi dari algoritma ''out-of-core''
** Klasifikasi: [[Perceptron]], [[Stochastic gradient descent|SGD]], [[Naive Bayes classifier|Naive bayes]].
** Regresi: SGD Regressor, Passive Aggressive regressor.
** Klustering: [[K-means clustering|Mini-batch k-means]].
** Ekstraksi fitur: [[Pemelajaran pustaka|Mini-batch dictionary learning]], [[Principal component analysis|Incremental PCA]].
 
==Lihat juga==
Baris 20 ⟶ 191:
* [[Turunan gradien stokastik]]
 
'''LearningModel modelspemelajaran'''
* [[Teori Resonansi Adaptif]]
* ''[[Hierarchical temporal memory]]''