Penggalian data: Perbedaan antara revisi
Konten dihapus Konten ditambahkan
Tidak ada ringkasan suntingan Tag: Dikembalikan VisualEditor |
Fitur saranan suntingan: 3 pranala ditambahkan. |
||
(Satu revisi perantara oleh satu pengguna lainnya tidak ditampilkan) | |||
Baris 1:
'''Penggalian data''' ([[bahasa Inggris]]: '''''data mining''''') adalah ekstraksi [[pola]] yang menarik dari [[data]] dalam jumlah besar.<ref>http://www.amazon.com/Data-Mining-Concepts-Techniques-Management/dp/1558609016/qid=1278582726</ref> Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna. Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Penggalian data memiliki beberapa nama alternatif, meskipun definisi eksaknya berbeda, seperti KDD (''knowledge discovery in database''), analisis pola, arkeologi data, pemanenan informasi, dan intelegensia bisnis. Penggalian data diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh dari [[sistem basis data]] perusahaan, [[e-commerce]], data [[saham]], data [[sensus]] dan data [[bioinformatika]]), tetapi tidak tahu pola apa yang bisa didapatkan.
== Proses Pencarian Pola ==
Baris 16:
Perkembangan yang pesat di bidang pengumpulan data dan teknologi penyimpanan di berbagai bidang, menghasilkan [[VLDB|basis data yang terlampau besar]]. Namun, data yang dikumpulkan jarang dilihat lagi karena terlalu panjang, membosankan, dan tidak menarik. Seringkali, keputusan -yang katanya berdasarkan data- dibuat tidak lagi berdasarkan data, melainkan dari intuisi para pembuat keputusan, sehingga lahirlah cabang ilmu penggalian data ini.
[[Analisis data]] tanpa menggunakan otomasi dari penggalian data adalah tidak memungkinkan lagi, kalau 1) data terlalu banyak, 2) [[dimensionalitas data]] terlalu besar, 3) data terlalu kompleks untuk dianalisis manual (misalnya: [[time series|data time series]], [[spatiotemporal|data spatiotemporal]], [[multimedia|data multimedia]], [[data streams]]).
== Teknik Penggalian Data ==
Baris 29:
* [[Analisis trend dan evolusi]]: meliputi analisis regresi, penggalian pola sekuensial, analisis periodisitas, dan analisis berbasis kemiripan.
Berikut ini adalah 10 [[Algoritma|algoritme]] penggalian data yang paling populer berdasarkan konferensi ICDM '06, semua algoritme dinominasikan oleh para pemenang ACM KDD Innovation Award dan IEEE ICDM Research Contributions Award:<ref>{{Cite web |url=http://www.cs.uvm.edu/~icdm/algorithms/ICDM06-Panel.pdf |title=Salinan arsip |access-date=2010-07-08 |archive-date=2010-06-22 |archive-url=https://web.archive.org/web/20100622082706/http://www.cs.uvm.edu/~icdm/algorithms/ICDM06-Panel.pdf |dead-url=yes }}</ref>
# [[C4.5]] (61 suara) <ref>Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann., 1993.</ref>
|