Pemelajaran terarah

Dalam pembelajaran terarah (bahasa Inggris: supervised learning), seseorang dapat melatih mesin dengan menggunakan data yang "diberi label". Artinya beberapa data sudah diberi label dengan jawaban yang benar. Ini dapat dibandingkan dengan pembelajaran yang berlangsung di hadapan pengawas atau guru. Algoritma pembelajaran yang terarah dapat mempelajari pola tersembunyi dari data pelatihan yang telah berlabel, hal ini akan membantu kita memprediksi hasil untuk data yang belum pernah dipelajari sebelumnya. Untuk dapat berhasil membangun, mengatur, dan menerapkan model mesin pembelajar yang terarah dengan akurasi tinggi, dibutuhkan waktu dan keahlian teknis dari tim peneliti-data (data scientist) yang sangat terampil. Selain itu, para peneliti data sebaiknya harus mampu membangun kembali model untuk memastikan prediksi yang dihasilkan tetap benar walaupun datanya berganti.

Pembelajaran terarah memungkinkan kita untuk mengumpulkan data atau menghasilkan keluaran data berdasarkan dari pengalaman sebelumnya. Hal ini dapat membantu mengoptimalkan kriteria kinerja berdasarkan pengalaman mesin. Pembelajaran terarah juga dapat membantu memecahkan berbagai jenis masalah komputasi dunia nyata.^[1]

Pada tahun 2006, Caruana, Rich ^[2] mempublikasikan hasil penelitiannya mengenai perbandingan secara empiris pemelajaran terarah dengan adanya Proyek Statlog di tahun 90-an. Mereka membandingakan beberapa pemelajaran terarah seperti Support Vector Machine (SVM), Jaringan Syaraf Tiruan (Neural Nets), regresi logistik, naive bayes, pemelajaran berbasis memori, Hutan Acak (Random Forest), Decision Tree (Pohon Keputusan), Bagged Trees, Boosted Trees dan Boosted Stumps. Mereka melakukan pengujian performa terhadap efek kalibrasi model melalui Platt Scaling dan Regresi Isotonik. Hal yang perlu diangkat dari kary mereka adalah penggunaan berbagai macam kriteria pengujian performa mesin pemelajar.

Cara kerja

Misalkan kita ingin melatih mesin untuk membantu memprediksi berapa lama waktu yang dibutuhkan untuk berkendara pulang dari tempat kerja menuju rumah. Pertama-tama, kita memulai dengan membuat sekumpulan data berlabel. Data ini bisa termasuk: kondisi cuaca, waktu dalam hari, waktu liburan, hingga semua detail yang dibutuhkan dan ini semua adalah data latih masukan. Keluarannya adalah jumlah waktu yang dibutuhkan untuk pulang ke rumah pada suatu hari tertentu. Secara naluriah kita mengetahui bahwa jika hari hujan, maka kita akan membutuhkan waktu lebih lama untuk berkendara pulang. Tetapi mesin membutuhkan data dan statistik untuk menentukan berapa lama anda dapat sampai di rumah dalam kondisi hujan. Berdasarkan set pelatihan yang berisi lama perjalanan waktu ketika hujan dan lama waktu perjalanan ketika cerah ini, mesin mungkin dapat memahami pola hubungan langsung antara jumlah hujan dan waktu yang diperlukan untuk pulang. Bisa jadi mesin dapat memahami bahwa semakin banyak hujan, semakin lama waktu berkendara untuk kembali ke rumah. Mesin juga dapat melihat pola hubungan antara waktu ketika pulang kerja dan waktu ketika dalam perjalanan. Sbagai contoh, semakin dekat waktu kita pulang dengan jam 6 sore. semakin lama waktu yang kita butuhkan untuk pulang. Mesin juga dapat menemukan beberapa pola hubungan lainnya dalam data latih berlabel seperti: bagaimana pengaruh hujan terhadap cara orang mengemudi, pengaruh hujan dalam perilaku berpergian orang-orang bahwa lebih banyak orang bepergian selama waktu cerah maupun waktu tertentu dalam sehari.

Jenis

Regresi: tenik regresi memprediksi nilai keluaran tunggal dengan menggunakan data pelatihan. Contohnya: kita dapat menggunakan regresi untuk memprediksi harga rumah dari data pelatihan. Variabel masukan adalah lokasi, ukuran rumah, dan lain sebagainya.
Klasifikasi: mengelompokkan keluaran ke dalam kelas tertentu. Jika algoritma mencoba memberi label masukan ke dalam dua kelas yang berbeda, maka disebut klasifikasi biner. Pemilihan di antara lebih dari dua kelas yang berbeda dapat disebut sebagai klasifikasi multikelas. Contohnya: bagaimana memprediksi apakah seseorang akan membatalkan pinjaman ataukah tidak.
Kelebihan: hasil keluaran memiliki interpretasi probabilistik, dan algoritma dapat diatur supaya dapat menghindari overfitting.
Kelemahan: regresi logistik dapat berkinerja buruk jika ada beberapa batasan keputusan non-linier. Metode ini tidak fleksibel karena tidak menggambarkan pola hubungan antar variabel yang kompleks.

Referensi

^ "Supervised vs Unsupervised Learning: Key Differences". www.guru99.com. Diakses tanggal 2020-11-19.
^ Caruana, Rich; Niculescu-Mizil, Alexandru (2006-06-25). "An empirical comparison of supervised learning algorithms". Proceedings of the 23rd international conference on Machine learning. ICML '06. Pittsburgh, Pennsylvania, USA: Association for Computing Machinery: 161–168. doi:10.1145/1143844.1143865. ISBN 978-1-59593-383-6.

[1] "Supervised vs Unsupervised Learning: Key Differences". www.guru99.com. Diakses tanggal 2020-11-19.

[2] Caruana, Rich; Niculescu-Mizil, Alexandru (2006-06-25). "An empirical comparison of supervised learning algorithms". Proceedings of the 23rd international conference on Machine learning. ICML '06. Pittsburgh, Pennsylvania, USA: Association for Computing Machinery: 161–168. doi:10.1145/1143844.1143865. ISBN 978-1-59593-383-6.

[1]

[2]