Galat generalisasi
Untuk aplikasi dari pembelajaran terarah dalam pembelajaran mesin dan teori pembelajaran statistik, kesalahan generalisasi[1] (juga dikenal sebagai kesalahan luar sampel[2] atau risiko) adalah suatu ukuran sejauh mana suatu algoritma mampu memprediksi nilai hasil dengan akurat untuk data yang sebelumnya tidak terlihat. Karena algoritma pembelajaran dievaluasi pada sampel yang terbatas, proses evaluasi algoritma pembelajaran dapat dipengaruhi oleh kesalahan pengambilan sampel. Oleh karena itu, pengukuran kesalahan prediksi pada saat ini mungkin tidak memberikan banyak informasi tentang kemampuan prediktif pada data baru. Kesalahan generalisasi dapat dinminimalkan dengan menghindari overfitting dalam algoritma pembelajaran. Kinerja algoritma pembelajaran mesin direpresentasikan oleh grafik yang menunjukkan nilai estimasi kesalahan generalisasi selama proses pembelajaran, yang disebut sebagai kurva pembelajaran.
Definisi
Dalam masalah pembelajaran,tujuannya adalah mengembangkan fungsi yang memprediksi nilai keluaran untuk setiap data masukan . Subskrip menunjukkan bahwa fungsi dikembangkan berdasarkan kumpulan data sebanyak titik data. Kesalahan generalisasi atau kerugian (expected loss) yang diharapkan atau risiko (risk) dari suatu fungsi tertentu pada semua nilai mungkin dari dan adalah nilai harapan dari fungsi kerugian :[1]
di mana adalah distribusi probabilitas bersama yang tidak diketahui untuk dan .
Tanpa mengetahui distribusi probabilitas bersama , mustahil untuk menghitung . Sebagai gantinya, kita dapat menghitung kesalahan pada data sampel, yang disebut sebagai kesalahan empiris (atau risiko empiris). Diberikan titik data, kesalahan empiris dari suatu fungsi kandidat adalah:
Sebuah algoritma dikatakan menggeneralisasi jika:
Yang sangat penting adalah kesalahan generalisasi dari fungsi yang tergantung pada data yang ditemukan oleh suatu algoritma pembelajaran berdasarkan sampel. Sekali lagi, untuk distribusi probabilitas yang tidak diketahui, tidak dapat dihitung. Sebagai gantinya, tujuan dari banyak masalah dalam teori pembelajaran statistik adalah untuk membatasi atau menggambarkan perbedaan antara kesalahan generalisasi dan kesalahan empiris secara probabilitas:
Artinya, tujuannya adalah untuk menggambarkan probabilitas bahwa kesalahan generalisasi kurang dari kesalahan empiris ditambah dengan batas kesalahan ((umumnya tergantung pada dan ). Secara khusus, jika suatu algoritma bersifat simetris (urutan input tidak memengaruhi hasil), memiliki kerugian terbatas, dan memenuhi dua kondisi stabilitas, maka algoritma tersebut akan menggeneralisasi. Kondisi stabilitas pertama, stabilitas validasi silang tinggalkan satu (leave-one-out cross-validation), menyatakan bahwa untuk menjadi stabil, kesalahan prediksi untuk setiap titik data ketika validasi silang tinggalkan satu digunakan harus konvergen ke nol saat . Kondisi kedua, stabilitas harapan kesalahan tinggalkan satu (juga dikenal sebagai stabilitas hipotesis jika beroperasi dalam norma terpenuhi jika prediksi pada titik data yang ditinggalkan tidak berubah ketika satu titik data dihapus dari himpunan data latih.[3]
Kondisi ini dapat diformulasikan sebagai
Leave-one-out cross-validation Stability
Suatu algoritma dikatakan memiliki stabilitas , jikalau untuk setiap memiliki suatu dan yang sedemikian sehingga:
dan dan menuju nol sebagaimana menuju takhingga.[3]
Expected-leave-one-out error Stability
Sebuah algoritma memiliki stabilitas jikalau untuk setiao memiliki suatu dan sedemikian sehingga:
dengan dan menuju nol untuk .
Untuk leave-one-out stability di norma , hal ini sama dengan stabilitas hipotesis:
dengan menuju nol sebagaimana menuju takhingga.[3]
Algoritma yang terbukti stabil
Sejumlah algoritma telah terbukti stabil dan sebagai hasilnya memiliki batasan pada kesalahan generalisasinya. Daftar algoritma-algoritma ini dan makalah-makalah yang membuktikan stabilitasnya tersedia di sini.
Relasi terhadap overfitting
Konsep kesalahan generalisasi dan overfitting saling berkaitan erat. Overfitting terjadi ketika fungsi yang dipelajari menjadi sensitif terhadap noise dalam sampel. Akibatnya, fungsi tersebut akan berperforma baik pada himpunan latih, tetapi tidak akan berperforma baik pada data lain dari distribusi probabilitas bersama dan . Oleh karena itu, semakin besar overfitting, semakin besar pula kesalahan generalisasi.
Jumlah overfitting dapat diuji menggunakan metode validasi silang (cross-validation),yang membagi sampel menjadi simulasi sampel latih dan sampel uji. Model kemudian dilatih pada sampel latih dan dievaluasi pada sampel uji. Sampel uji sebelumnya tidak terlihat oleh algoritma dan mewakili sampel acak dari distribusi probabilitas bersamaf dan . Sampel uji ini memungkinkan kita untuk mendekati kesalahan yang diharapkan dan sebagai hasilnya mendekati suatu bentuk kesalahan generalisasi tertentu.
Banyak algoritma yang ada untuk mencegah overfitting. Algoritma minimisasi dapat memberikan penalti pada fungsi yang lebih kompleks (dikenal sebagai regularisasi Tikhonov), atau ruang hipotesis dapat dibatasi, baik secara eksplisit dalam bentuk fungsi atau dengan menambahkan batasan pada fungsi minimisasi (regularisasi Ivanov).
Pendekatan untuk menemukan fungsi yang tidak overfit bertentangan dengan tujuan menemukan fungsi yang cukup kompleks untuk menangkap karakteristik khusus dari data. Ini dikenal sebagai bias-variance tradeoff. Menjaga fungsi untuk tetap sederhana untuk menghindari overfitting dapat memperkenalkan bias dalam prediksi yang dihasilkan, sementara memungkinkannya menjadi lebih kompleks dapat menyebabkan overfitting dan variasi yang lebih tinggi dalam prediksi. Tidak mungkin untuk meminimalkan keduanya secara bersamaan.
Referensi
- ^ a b Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press
- ^ Y S. Abu-Mostafa, M.Magdon-Ismail, and H.-T. Lin (2012) Learning from Data, AMLBook Press. ISBN 978-1600490064
- ^ a b c Mukherjee, S.; Niyogi, P.; Poggio, T.; Rifkin., R. M. (2006). "Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization" (PDF). Adv. Comput. Math. 25 (1–3): 161–193. doi:10.1007/s10444-004-7634-z.
Bacaan lanjutan
- Olivier, Bousquet; Luxburg, Ulrike; Rätsch, Gunnar, ed. (2004). Advanced Lectures on Machine Learning. Lecture Notes in Computer Science. 3176. hlm. 169–207. doi:10.1007/b100712. ISBN 978-3-540-23122-6. Diakses tanggal 10 December 2022.
- Bousquet, Olivier; Elisseeff, Andr´e (1 March 2002). "Stability and Generalization". The Journal of Machine Learning Research. 2: 499–526. doi:10.1162/153244302760200704. Diakses tanggal 10 December 2022.
- Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press.
- Moody, J.E. (1992), "The Effective Number of Parameters: An Analysis of Generalization and Regularization in Nonlinear Learning Systems", in Moody, J.E., Hanson, S.J., and Lippmann, R.P., Advances in Neural Information Processing Systems 4, 847–854.
- White, H. (1992b), Artificial Neural Networks: Approximation and Learning Theory, Blackwell.