Galat generalisasi

Revisi sejak 3 Maret 2024 03.02 oleh KhalilullahAlFaath (bicara | kontrib) (perbaikan estetika)

Untuk aplikasi pemelajaran terawasi dalam pemelajaran mesin dan teori pemelajaran statistik, kesalahan generalisasi atau galat generalisasi[1](bahasa Inggris: generalization error), juga dikenal sebagai kesalahan luar sampel (out-off-sample error)[2] atau risiko (risk) adalah suatu ukuran sejauh mana suatu algoritma mampu memprediksi nilai dengan akurat untuk data yang sebelumnya tidak terlihat. Karena algoritma pemelajaran dievaluasi pada data sampel yang terbatas, proses evaluasi algoritma pemelajaran dapat dipengaruhi oleh galat pengambilan sampel. Oleh karena itu, pengukuran kesalahan prediksi saat ini mungkin tidak memberikan banyak informasi tentang kemampuan prediksi pada data baru. Kesalahan generalisasi dapat diminimalkan dengan menghindari overfitting dalam algoritma pemelajaran. Kinerja algoritma pemelajaran mesin direpresentasikan oleh grafik yang menunjukkan nilai estimasi kesalahan generalisasi selama proses pemelajaran yang disebut sebagai kurva pembelajaran.

Definisi

Dalam masalah pembelajaran,tujuannya adalah mengembangkan fungsi   yang memprediksi nilai keluaran   untuk setiap data masukan  . Subskrip   menunjukkan bahwa fungsi   dikembangkan berdasarkan kumpulan data sebanyak   titik data. Kesalahan generalisasi atau kerugian (expected loss) yang diharapkan atau risiko (risk)   dari suatu fungsi tertentu   pada semua nilai mungkin dari   dan   adalah nilai harapan dari fungsi kerugian  :[1]

 

di mana   adalah distribusi probabilitas bersama yang tidak diketahui untuk   dan  .

Tanpa mengetahui distribusi probabilitas bersama  , mustahil untuk menghitung  . Sebagai gantinya, kita dapat menghitung kesalahan pada data sampel, yang disebut sebagai kesalahan empiris (atau risiko empiris). Diberikan   titik data, kesalahan empiris dari suatu fungsi kandidat   adalah:

 

Sebuah algoritma dikatakan menggeneralisasi jika:

 

Yang sangat penting adalah kesalahan generalisasi   dari fungsi yang tergantung pada data   yang ditemukan oleh suatu algoritma pembelajaran berdasarkan sampel. Sekali lagi, untuk distribusi probabilitas yang tidak diketahui,   tidak dapat dihitung. Sebagai gantinya, tujuan dari banyak masalah dalam teori pembelajaran statistik adalah untuk membatasi atau menggambarkan perbedaan antara kesalahan generalisasi dan kesalahan empiris secara probabilitas:

 

Artinya, tujuannya adalah untuk menggambarkan probabilitas   bahwa kesalahan generalisasi kurang dari kesalahan empiris ditambah dengan batas kesalahan   ((umumnya tergantung pada   dan  ). Secara khusus, jika suatu algoritma bersifat simetris (urutan input tidak memengaruhi hasil), memiliki kerugian terbatas, dan memenuhi dua kondisi stabilitas, maka algoritma tersebut akan menggeneralisasi. Kondisi stabilitas pertama, stabilitas validasi silang tinggalkan satu (leave-one-out cross-validation), menyatakan bahwa untuk menjadi stabil, kesalahan prediksi untuk setiap titik data ketika validasi silang tinggalkan satu digunakan harus konvergen ke nol saat  . Kondisi kedua, stabilitas harapan kesalahan tinggalkan satu (juga dikenal sebagai stabilitas hipotesis jika beroperasi dalam norma   terpenuhi jika prediksi pada titik data yang ditinggalkan tidak berubah ketika satu titik data dihapus dari himpunan data latih.[3]

Kondisi ini dapat diformulasikan sebagai

Leave-one-out cross-validation Stability

Suatu algoritma   dikatakan memiliki stabilitas  , jikalau untuk setiap   memiliki suatu  dan   yang sedemikian sehingga:

 

dan   dan   menuju nol sebagaimana   menuju takhingga.[3]

Expected-leave-one-out error Stability

Sebuah algoritma   memiliki stabilitas   jikalau untuk setiao   memiliki suatu  dan   sedemikian sehingga:

 

dengan   dan  menuju nol untuk  .

Untuk leave-one-out stability di norma  , hal ini sama dengan stabilitas hipotesis:

 

dengan   menuju nol sebagaimana   menuju takhingga.[3]

Algoritma yang terbukti stabil

Sejumlah algoritma telah terbukti stabil dan sebagai hasilnya memiliki batasan pada kesalahan generalisasinya. Daftar algoritma-algoritma ini dan makalah-makalah yang membuktikan stabilitasnya tersedia di sini.

Relasi terhadap overfitting

 
Gambar ini menggambarkan hubungan antara overfitting dan kesalahan generalisasi I[fn] - IS[fn]. Titik-titik data dihasilkan dari hubungan y = x dengan penambahan noise putih pada nilai y. Di kolom kiri, satu set titik pelatihan ditampilkan dalam warna biru. Fungsi polinomial urutan ketujuh diestimasi pada data pelatihan. Di kolom kanan, fungsi tersebut diuji pada data yang diambil dari distribusi probabilitas bersama yang mendasarinya dari x dan y. Pada baris atas, fungsi tersebut diestimasi pada kumpulan data sampel sebanyak 10 titik data. Pada baris bawah, fungsi tersebut diestimasi pada kumpulan data sampel sebanyak 100 titik data. Seperti yang dapat kita lihat, untuk ukuran sampel yang kecil dan fungsi yang kompleks, kesalahan pada set latih itu kecil, tetapi kesalahan pada distribusi data yang mendasarinya besar dan kita telah overfitting data tersebut. Akibatnya, kesalahan generalisasinya besar. Seiring dengan peningkatan jumlah titik sampel, kesalahan prediksi pada data latih dan uji konvergen, dan kesalahan generalisasi menuju 0..

Konsep kesalahan generalisasi dan overfitting saling berkaitan erat. Overfitting terjadi ketika fungsi yang dipelajari   menjadi sensitif terhadap noise dalam sampel. Akibatnya, fungsi tersebut akan berperforma baik pada himpunan latih, tetapi tidak akan berperforma baik pada data lain dari distribusi probabilitas bersama   dan  . Oleh karena itu, semakin besar overfitting, semakin besar pula kesalahan generalisasi.

Jumlah overfitting dapat diuji menggunakan metode validasi silang (cross-validation),yang membagi sampel menjadi simulasi sampel latih dan sampel uji. Model kemudian dilatih pada sampel latih dan dievaluasi pada sampel uji. Sampel uji sebelumnya tidak terlihat oleh algoritma dan mewakili sampel acak dari distribusi probabilitas bersamaf   dan  . Sampel uji ini memungkinkan kita untuk mendekati kesalahan yang diharapkan dan sebagai hasilnya mendekati suatu bentuk kesalahan generalisasi tertentu.

Banyak algoritma yang ada untuk mencegah overfitting. Algoritma minimisasi dapat memberikan penalti pada fungsi yang lebih kompleks (dikenal sebagai regularisasi Tikhonov), atau ruang hipotesis dapat dibatasi, baik secara eksplisit dalam bentuk fungsi atau dengan menambahkan batasan pada fungsi minimisasi (regularisasi Ivanov).

Pendekatan untuk menemukan fungsi yang tidak overfit bertentangan dengan tujuan menemukan fungsi yang cukup kompleks untuk menangkap karakteristik khusus dari data. Ini dikenal sebagai bias-variance tradeoff. Menjaga fungsi untuk tetap sederhana untuk menghindari overfitting dapat memperkenalkan bias dalam prediksi yang dihasilkan, sementara memungkinkannya menjadi lebih kompleks dapat menyebabkan overfitting dan variasi yang lebih tinggi dalam prediksi. Tidak mungkin untuk meminimalkan keduanya secara bersamaan.

Referensi

  1. ^ a b Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press
  2. ^ Y S. Abu-Mostafa, M.Magdon-Ismail, and H.-T. Lin (2012) Learning from Data, AMLBook Press. ISBN 978-1600490064
  3. ^ a b c Mukherjee, S.; Niyogi, P.; Poggio, T.; Rifkin., R. M. (2006). "Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization" (PDF). Adv. Comput. Math. 25 (1–3): 161–193. doi:10.1007/s10444-004-7634-z. 

Bacaan lanjutan