Penggalian data: Perbedaan antara revisi
Konten dihapus Konten ditambahkan
Tidak ada ringkasan suntingan |
Fitur saranan suntingan: 3 pranala ditambahkan. |
||
(47 revisi perantara oleh 34 pengguna tidak ditampilkan) | |||
Baris 1:
'''Penggalian data''' ([[bahasa Inggris]]: '''''data mining''''') adalah ekstraksi [[pola]] yang menarik dari [[data]] dalam jumlah besar
== Proses Pencarian Pola ==
Penggalian data adalah salah satu bagian dari proses pencarian pola. Berikut ini urutan proses pencarian pola:
# [[Pembersihan Data]]: yaitu menghapus data pengganggu (''noise'') dan mengisi data yang hilang.
# [[Integrasi Data]]: yaitu menggabungkan berbagai sumber data.
# [[Pemilihan Data]]: yaitu memilih data yang relevan.
Baris 12:
# [[Penyajian pola]]: yaitu memvisualisasi pola ke pengguna.
== Latar belakang ==
Perkembangan yang pesat di bidang pengumpulan data dan teknologi penyimpanan di berbagai bidang, menghasilkan [[VLDB|basis data yang terlampau besar]]. Namun, data yang dikumpulkan jarang dilihat lagi
[[Analisis data]] tanpa menggunakan otomasi dari penggalian data adalah tidak memungkinkan lagi, kalau 1) data terlalu banyak, 2) [[dimensionalitas data]] terlalu besar, 3) data terlalu kompleks untuk dianalisis manual (misalnya: [[time series|data time series]], [[spatiotemporal|data spatiotemporal]], [[multimedia|data multimedia]], [[data streams]]).
== Teknik Penggalian Data ==
Pada dasarnya penggalian data dibedakan menjadi dua fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa fungsionalitas penggalian data yang sering digunakan:
* [[Karakterisasi dan Diskriminasi]]: yaitu menggeneralisasi, merangkum, dan mengkontraskan karakteristik data.
* [[Penggalian pola berulang]]: yaitu pencarian pola asosiasi (''association rule'') atau pola intra-transaksi, atau pola pembelian yang terjadi dalam satu kali transaksi.
* [[Klasifikasi]]: yaitu membangun suatu model yang bisa mengklasifikasikan suatu objek berdasar atribut-atributnya. Kelas target sudah tersedia dalam data sebelumnya, sehingga fokusnya adalah bagaimana mempelajari data yang ada agar klasifikator bisa mengklasifikasikan sendiri.
* [[Prediksi]]: yaitu memprediksi nilai yang tidak diketahui atau nilai yang hilang, menggunakan model dari [[klasifikasi]].
* [[Penggugusan/Cluster analysis]]: yaitu mengelompokkan sekumpulan objek data berdasarkan kemiripannya. Kelas target tidak tersedia dalam data sebelumnya, sehingga fokusnya adalah memaksimalkan kemiripan intrakelas dan meminimalkan kemiripan antarkelas.
* [[Analisis outlier]]: yaitu proses pengenalan data yang tidak sesuai dengan perilaku umum dari data lainnya. Contoh: mengenali ''noise'' dan pengecualian dalam data.
* [[Analisis trend dan evolusi]]: meliputi analisis regresi, penggalian pola sekuensial, analisis periodisitas, dan analisis berbasis kemiripan.
Berikut ini adalah 10
# [[C4.5]] (61 suara) <ref>Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann., 1993.</ref>
# [[k-Means]] (60 suara):
# [[SVM]] atau ''Support Vector Machine'' (58 suara):
# [[Apriori]] (52 suara):
# [[EM]] (48 suara):
# [[PageRank]] (46 suara):
# [[AdaBoost]] (45 suara):
# [[kNN]] (45 suara):
# [[Naive Bayes]] (34 suara):
Berikut ini adalah yang hanya masuk nominasi:
* [[CART]]:
* [[FP-Tree]]:
* [[HITS]]:
* [[BIRCH]]:
* [[GSP]]:
* [[PrefixSpan]]:
* [[CBA]]:
* [[Finding Reduct]]:
* [[gSpan]]:
==
* [[Penambangan teks]]
* [[Analitika]]
== Referensi ==
{{Reflist}}
==
* Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Introduction to Data Mining (2005), ISBN 0-321-32136-7 ([http://www-users.cs.umn.edu/~kumar/dmbook/index.php companion book site])
* Kurt Thearling, [http://www.thearling.com/text/dmwhite/dmwhite.htm An Introduction to Data Mining] {{Webarchive|url=https://web.archive.org/web/20110505021709/http://www.thearling.com/text/dmwhite/dmwhite.htm |date=2011-05-05 }} (also available is a [http://www.thearling.com/dmintro/dmintro.htm corresponding online tutorial] {{Webarchive|url=https://web.archive.org/web/20110518131627/http://www.thearling.com/dmintro/dmintro.htm |date=2011-05-18 }})
* Richard O. Duda, Peter E. Hart, David G. Stork, ''Pattern Classification'', Wiley Interscience, ISBN 0-471-05669-3, (see also [http://rii.ricoh.com/~stork/DHS.html Powerpoint slides] {{Webarchive|url=https://web.archive.org/web/20110715184521/http://rii.ricoh.com/~stork/DHS.html |date=2011-07-15 }})
* Phiroz Bhagat, ''Pattern Recognition in Industry'', Elsevier, ISBN 0-08-044538-1
* Ian Witten and Eibe Frank, ''Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations'' (2000), ISBN 1-55860-552-5, (see also [[Weka (machine learning)|Free Weka software]])
* Yike Guo and Robert Grossman, editors: High Performance Data Mining: Scaling Algorithms, Applications and Systems, Kluwer Academic Publishers, 1999.
* Dean W. Abbott, I. Philip Matkovsky, and John Elder IV, Ph.D. [http://www.datamininglab.com/toolcomp.html An Evaluation of High-end Data Mining Tools for Fraud Detection] {{Webarchive|url=https://web.archive.org/web/20070105213623/http://www.datamininglab.com/toolcomp.html |date=2007-01-05 }} published a comparative analysis of major high-end data mining software tools that was presented at the 1998 IEEE International Conference on Systems, Man, and Cybernetics, San Diego, CA, October 12-14, 1998.
* Mierswa, Ingo and Wurst, Michael and Klinkenberg, Ralf and Scholz, Martin and Euler, Timm: ''YALE: Rapid Prototyping for Complex Data Mining Tasks'', in Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-06), 2006.
* Mark F. Hornick, Erik Marcade, Sunil Venkayala: "Java Data Mining: Strategy, Standard, And Practice: A Practical Guide for Architecture, Design, And Implementation" (Broché)
Baris 72 ⟶ 76:
<!--* {{dmoz|Computers/Software/Databases/Data_Mining/|Data Mining}}-->
* {{en}} [http://dms.stat.ucf.edu Data Mining Program, University of Central Florida]
* {{en}} [http://www.autonlab.org/tutorials Andrew Moore of Carnegie Mellons tutorials] {{Webarchive|url=https://web.archive.org/web/20060924035323/http://www.autonlab.org/tutorials/ |date=2006-09-24 }}
* {{en}} [http://www.cybertesis.cl/tesis/uchile/2006/deluca_m/html/index-frames.html A Master thesis dealing with the use of datamining in banking]
{{komputer-stub}}
[[Kategori:Manajemen data]]
|