Analitik prediktif
Analitik prediktif (bahasa Inggris: Predictive analytics) mencakup berbagai teknik statistik dari pemodelan prediktif, pembelajaran mesindan data mining yang menganalisis arus dan fakta-fakta sejarah untuk membuat prediksi tentang masa depan atau peristiwa yang tidak diketahui.
Dalam bisnis, model prediktif memanfaatkan pola-pola yang ditemukan dalam sejarah dan data transaksional untuk mengidentifikasi risiko dan peluang. Model menangkap hubungan antara banyak faktor untuk memungkinkan penilaian risiko atau potensi yang terkait dengan satu set tertentu dari kondisi, membimbing pengambilan keputusan bagi calon transaksi.
Mendefinisikan fungsional pengaruh teknis ini adalah pendekatan yang predictive analytics menyediakan prediksi skor (probabilitas) untuk masing-masing individu (pelanggan, karyawan, kesehatan pasien, SKU produk, kendaraan, komponen, mesin, atau unit organisasi) dalam rangka untuk menentukan, menginformasikan, atau pengaruh proses organisasi yang berkaitan melintasi sejumlah besar individu, seperti dalam pemasaran, kredit penilaian risiko, deteksi penipuan, manufaktur, kesehatan, dan operasi pemerintah termasuk penegak hukum.
Predictive analytics digunakan dalam ilmu aktuaria,[1] pemasaran,[2] jasa keuangan,[3] asuransi, telekomunikasi,[4] ritel,[5] perjalanan,[6] mobilitas[perlu disambiguasi],[7] kesehatan,[8] perlindungan anak,[9][10] obat-obatan,[11] perencanaan kapasitas[butuh rujukan] dan bidang lainnya.
Salah satu yang paling dikenal adalah aplikasi credit scoring, yang digunakan di seluruh layanan jasa keuangan. Model penilaian proses pelanggan dengan sejarah kredit, pinjaman aplikasi, data pelanggan, dll., dalam rangka untuk rank-order individu oleh mereka kemungkinan membuat masa depan pembayaran kredit tepat waktu.
Definisi
Predictive analytics merupakan daerah statistik yang berhubungan dengan penggalian informasi dari data dan menggunakannya untuk memprediksi tren dan pola perilaku. Sering tidak diketahui acara menarik di masa depan, tapi predictive analytics dapat diterapkan untuk setiap jenis yang tidak diketahui apakah itu di masa lalu, sekarang atau masa depan. Misalnya, mengidentifikasi tersangka setelah kejahatan telah dilakukan, atau penipuan kartu kredit seperti itu terjadi. inti dari predictive analytics bergantung pada menangkap hubungan antara variabel penjelas dan prediksi variabel dari kejadian masa lalu, dan memanfaatkan mereka untuk memprediksi hasil yang tidak diketahui. Hal ini penting untuk dicatat, bagaimanapun, bahwa akurasi dan kegunaan dari hasil akan sangat tergantung pada tingkat analisis data dan kualitas dari asumsi-asumsi.
Predictive analytics sering didefinisikan sebagai memprediksi pada yang lebih rinci tingkat granularity, yaitu, menghasilkan prediksi skor (probabilitas) untuk masing-masing elemen organisasi. Ini membedakannya dari peramalan. Misalnya, "Predictive analytics—Teknologi yang belajar dari pengalaman (data) untuk memprediksi perilaku masa depan individu dalam rangka untuk mendorong keputusan yang lebih baik." Di masa depan sistem industri, nilai predictive analytics akan memprediksi dan mencegah potensi masalah untuk mencapai dekat-zero break-down dan selanjutnya diintegrasikan ke preskriptif analisis untuk keputusan optimasi.[butuh rujukan] Selain itu, data dikonversi dapat digunakan untuk loop tertutup siklus hidup produk perbaikan yang merupakan visi dari Industri Internet Konsorsium.
Jenis
Umumnya, istilah predictive analytics digunakan untuk berarti pemodelan prediktif, "scoring" data dengan model prediktif, dan peramalan. Namun, orang-orang semakin menggunakan istilah untuk merujuk terkait analisis disiplin ilmu, seperti pemodelan deskriptif dan pemodelan keputusan atau optimasi. Disiplin ilmu ini juga melibatkan ketat analisis data, dan secara luas digunakan dalam bisnis untuk segmentasi dan pengambilan keputusan, tetapi memiliki tujuan yang berbeda dan teknik statistik yang mendasari mereka bervariasi.
Model prediksi
Model prediksi ini adalah model hubungan antara kinerja tertentu dari suatu unit dalam sampel dan satu atau lebih dikenal atribut atau fitur dari unit ini. Tujuan dari model ini adalah untuk menilai kemungkinan bahwa unit serupa dalam sampel yang berbeda akan menunjukkan kinerja tertentu. Kategori ini meliputi model-model dalam berbagai bidang, seperti pemasaran, di mana mereka mencari halus pola data untuk menjawab pertanyaan-pertanyaan tentang kinerja pelanggan, atau deteksi penipuan model ini. Model prediktif sering melakukan perhitungan pada transaksi langsung, misalnya, untuk mengevaluasi risiko atau peluang yang diberikan nasabah atau transaksi, dalam rangka untuk memandu keputusan. Dengan kemajuan dalam kecepatan komputasi, agen individu pemodelan sistem telah menjadi mampu mensimulasikan perilaku manusia atau reaksi terhadap rangsangan yang diberikan atau skenario.
Tersedia unit sampel dikenal dengan atribut dan dikenal pertunjukan ini disebut sebagai "pelatihan sampel". Unit-unit dalam sampel lainnya, dikenal dengan atribut tapi tidak diketahui pertunjukan, yang disebut sebagai "keluar dari [pelatihan] contoh" unit. Keluar dari unit sampel tidak selalu menanggung kronologis kaitannya dengan pelatihan unit sampel. Misalnya, pelatihan sampel dapat terdiri dari sastra atribut dari tulisan-tulisan oleh Victoria penulis, dikenal dengan atribusi, dan keluar dari unit sampel mungkin baru ditemukan menulis dengan penulisnya tidak diketahui; model prediksi dapat membantu dalam menghubungkan sebuah pekerjaan yang harus diketahui penulis. Contoh lain adalah yang diberikan oleh analisis memerciki darah dalam simulasi tkp yang keluar dari unit sampel adalah sebenarnya memerciki darah pola dari tkp. Keluar dari unit sampel dapat dari waktu yang sama seperti pelatihan unit, dari waktu sebelumnya, atau dari waktu mendatang.
Deskriptif model
Deskriptif model mengukur hubungan data dalam suatu cara yang sering digunakan untuk mengklasifikasikan pelanggan atau prospek menjadi kelompok-kelompok. Tidak seperti model prediksi yang fokus pada memprediksi satu perilaku pelanggan (seperti risiko kredit), deskriptif model mengidentifikasi berbagai hubungan antara pelanggan atau produk. Deskriptif model tidak rank-order pelanggan dengan kemungkinan mereka untuk mengambil tindakan tertentu cara model prediksi. Sebaliknya, deskriptif model ini dapat digunakan, misalnya, untuk mengkategorikan pelanggan dengan produk mereka preferensi dan tahap kehidupan. Deskriptif alat pemodelan dapat dimanfaatkan untuk mengembangkan lebih lanjut model yang dapat mensimulasikan sejumlah besar agen individual dan membuat prediksi.
Keputusan model
Keputusan model yang menggambarkan hubungan antara semua elemen dari keputusan—data yang diketahui (termasuk hasil prediksi model), keputusan, dan pola hasil dari keputusan—dalam rangka untuk memprediksi hasil dari keputusan yang melibatkan banyak variabel. Model ini dapat digunakan dalam optimasi, memaksimalkan hasil tertentu dan meminimalkan lain-lain. Keputusan model yang umumnya digunakan untuk mengembangkan logika keputusan atau seperangkat aturan bisnis yang akan menghasilkan tindakan yang diinginkan untuk setiap pelanggan atau keadaan.
Aplikasi
Meskipun predictive analytics dapat menempatkan untuk digunakan dalam berbagai aplikasi, kami menguraikan beberapa contoh di mana predictive analytics telah menunjukkan dampak yang positif dalam beberapa tahun terakhir.
Analisis manajemen hubungan pelanggan
Analisis manajemen hubungan pelanggan (CRM) adalah sering aplikasi komersial dari analisis prediktif. Metode analisis prediktif yang diterapkan untuk data pelanggan untuk mengejar tujuan CRM, yang melibatkan membangun sebuah pandangan holistik dari pelanggan tidak peduli di mana informasi mereka berada di perusahaan atau departemen yang terlibat. CRM menggunakan analisis prediktif dalam aplikasi untuk kampanye pemasaran, penjualan, dan layanan pelanggan untuk beberapa nama. Alat-alat ini diperlukan dalam rangka untuk perusahaan untuk postur dan memfokuskan upaya mereka secara efektif di seluruh luasnya basis pelanggan mereka. Mereka harus menganalisis dan memahami produk-produk yang diminati atau memiliki potensi permintaan yang tinggi, memprediksi pelanggan' kebiasaan membeli dalam rangka untuk mempromosikan produk-produk yang relevan di beberapa titik sentuhan, dan secara proaktif mengidentifikasi dan mengurangi masalah-masalah yang memiliki potensi untuk kehilangan pelanggan atau mengurangi kemampuan mereka untuk mendapatkan yang baru. Analisis customer relationship management dapat diterapkan di seluruh siklus hidup pelanggan (akuisisi, hubungan pertumbuhan, retensi, dan memenangkan kembali). Beberapa bidang aplikasi yang diuraikan di bawah ini (pemasaran langsung, cross-selling, retensi pelanggan) adalah bagian dari manajemen hubungan pelanggan.
Perlindungan anak
Selama 5 tahun terakhir, beberapa lembaga kesejahteraan anak sudah mulai menggunakan analisis prediktif untuk bendera risiko tinggi kasus. pendekatan Yang telah disebut "inovatif" oleh Komisi untuk Menghilangkan Kekerasan terhadap Anak dan Mengabaikan Kematian (CECANF), dan di Hillsborough County, Florida, di mana memimpin anak badan kesejahteraan menggunakan pemodelan prediktif alat, belum ada penyalahgunaan yang berkaitan dengan kematian anak dalam populasi target seperti tulisan ini.
Sistem pendukung keputusan klinis
Para ahli menggunakan analisis prediktif dalam perawatan kesehatan terutama untuk menentukan mana pasien berada pada risiko mengembangkan kondisi-kondisi tertentu, seperti diabetes, asma, penyakit jantung, dan lain seumur hidup penyakit. Selain itu, canggih sistem pendukung keputusan klinis menggabungkan analisis prediktif untuk mendukung pengambilan keputusan medis pada titik perawatan. Definisi kerja yang telah dikemukakan oleh Jerome A. Osheroff dan rekan-rekan: pendukung keputusan Klinis (CD) menyediakan dokter, staf, pasien, atau orang lain dengan pengetahuan dan orang-informasi tertentu, cerdas disaring atau disajikan pada saat yang tepat, untuk meningkatkan kesehatan dan perawatan kesehatan. Ini meliputi berbagai tools dan intervensi seperti komputerisasi peringatan dan pengingat, pedoman klinis, order set, data pasien laporan dan dashboard, dokumentasi template, penunjang diagnostik, dan alur kerja klinis yang sesuai.
2016 studi gangguan neurodegenerative memberikan sebuah contoh yang kuat dari CD platform untuk mendiagnosa, lagu, memprediksi dan memantau perkembangan penyakit Parkinson. Menggunakan besar dan multi-sumber pencitraan, genetika, klinis dan data demografi, ini peneliti mengembangkan sebuah sistem pendukung keputusan yang dapat memprediksi keadaan penyakit dengan akurasi yang tinggi, konsistensi dan presisi. Mereka dipekerjakan model klasik berbasis mesin dan model pembelajaran-metode gratis untuk membeda-bedakan antara pasien yang berbeda dan kelompok kontrol. Pendekatan serupa dapat digunakan untuk prediksi diagnosis dan perkembangan penyakit peramalan dalam banyak gangguan neurodegenerative seperti Alzheimer, Huntington, Amyotrophic Lateral Sclerosis, serta klinis dan biomedis aplikasi dimana Data Besar yang tersedia.
Koleksi analytics
Banyak portofolio yang memiliki tunggakan pelanggan yang tidak melakukan pembayaran pada waktu. Lembaga keuangan telah melakukan kegiatan penagihan pada pelanggan ini untuk memulihkan jumlah yang jatuh tempo. Banyak koleksi sumber daya yang terbuang pada pelanggan yang sulit atau tidak mungkin untuk pulih. Predictive analytics dapat membantu mengoptimalkan alokasi koleksi sumber informasi dengan mengidentifikasi yang paling efektif agen penagihan, hubungi strategi, tindakan hukum dan strategi lain untuk masing-masing pelanggan, sehingga secara signifikan meningkatkan pemulihan pada saat yang sama mengurangi biaya penagihan.
Cross-jual
Sering organisasi perusahaan mengumpulkan dan memelihara data yang melimpah (misalnya pelanggan catatan, transaksi penjualan) seperti yang mengeksploitasi hubungan yang tersembunyi dalam data yang dapat memberikan keuntungan kompetitif. Untuk sebuah organisasi yang menawarkan beberapa produk, predictive analytics dapat membantu menganalisis pelanggan pengeluaran, penggunaan, dan perilaku lain, yang mengarah ke yang efisien penjualan silang, atau menjual produk-produk tambahan kepada pelanggan saat ini. hal Ini secara langsung menyebabkan profitabilitas yang lebih tinggi per pelanggan dan hubungan pelanggan yang lebih kuat.
Retensi pelanggan
Dengan jumlah yang bersaing, layanan yang tersedia, perusahaan perlu fokus pada upaya mempertahankan terus-menerus kepuasan pelanggan, penghargaan loyalitas konsumen dan meminimalkan pelanggan gesekan. Selain itu, peningkatan kecil dalam retensi pelanggan telah ditunjukkan untuk meningkatkan keuntungan secara tidak proporsional. Salah satu penelitian menyimpulkan bahwa peningkatan 5% dalam retensi pelanggan tarif akan meningkatkan keuntungan sebesar 25% sampai 95%. Bisnis cenderung untuk menanggapi pelanggan gesekan pada reaktif dasar, hanya bertindak setelah pelanggan telah memulai proses untuk menghentikan layanan. Pada tahap ini, kesempatan untuk mengubah keputusan pelanggan hampir nol. Aplikasi yang tepat dari predictive analytics dapat menyebabkan lebih proaktif strategi retensi. Dengan sering pemeriksaan dari pelanggan masa lalu, penggunaan layanan, kinerja pelayanan, pengeluaran dan lain pola perilaku, model prediksi dapat menentukan kemungkinan pelanggan mengakhiri layanan kadang-kadang segera. intervensi dengan menawarkan menguntungkan dapat meningkatkan kesempatan untuk mempertahankan pelanggan. Diam gesekan, perilaku pelanggan untuk perlahan-lahan tapi pasti mengurangi penggunaan, adalah masalah lain yang banyak dihadapi perusahaan. Predictive analytics juga dapat memprediksi perilaku ini, sehingga perusahaan dapat mengambil tindakan yang tepat untuk meningkatkan aktivitas pelanggan.
Pemasaran langsung
Ketika pemasaran produk konsumen dan jasa, ada tantangan untuk menjaga dengan produk yang bersaing dan perilaku konsumen. Selain mengidentifikasi prospek, predictive analytics juga dapat membantu untuk mengidentifikasi kombinasi yang paling efektif dari versi produk, materi pemasaran, saluran komunikasi dan waktu yang harus digunakan untuk target yang diberikan konsumen. Tujuan dari predictive analytics biasanya adalah untuk menurunkan biaya per pesanan atau cost per action.
Deteksi penipuan
Penipuan adalah masalah besar bagi banyak perusahaan dan dapat dari berbagai jenis, yaitu: akurat aplikasi kredit, penipuan transaksi (baik offline maupun online), pencurian identitas palsu dan klaim asuransi. Masalah ini wabah perusahaan-perusahaan dari semua ukuran di banyak industri. Beberapa contoh kemungkinan korban adalah penerbit kartu kredit, perusahaan asuransi, para pedagang eceran, produsen, bisnis-ke-bisnis pemasok dan bahkan penyedia jasa. Model prediksi dapat membantu menyingkirkan para "penjahat" dan mengurangi eksposur bisnis penipuan.
Pemodelan prediktif juga dapat digunakan untuk mengidentifikasi risiko tinggi penipuan calon dalam bisnis atau sektor publik. Mark Nigrini dikembangkan risiko-metode scoring untuk mengidentifikasi audit target. Dia menjelaskan penggunaan pendekatan ini untuk mendeteksi kecurangan pada franchisee laporan penjualan internasional rantai makanan cepat saji. Masing-masing lokasi adalah mencetak gol menggunakan 10 prediktor. 10 skor kemudian tertimbang untuk memberikan satu final risiko secara keseluruhan skor untuk setiap lokasi. Sama mencetak pendekatan ini juga digunakan untuk mengidentifikasi risiko tinggi check kiting rekening, berpotensi penipuan agen perjalanan, dan dipertanyakan vendor. Yang cukup kompleks model digunakan untuk mengidentifikasi penipuan laporan bulanan yang disampaikan oleh divisi pengendali.
The Internal Revenue Service (IRS) Amerika Serikat juga menggunakan analisis prediktif untuk tambang pengembalian pajak dan mengidentifikasi penipuan pajak.
Terbaru[per kapan?] kemajuan teknologi juga telah diperkenalkan prediksi analisis perilaku untuk web deteksi penipuan. Jenis solusi memanfaatkan heuristik dalam rangka untuk belajar web normal perilaku pengguna dan mendeteksi anomali yang menunjukkan upaya penipuan.
Portofolio, produk, atau ekonomi-tingkat prediksi
Sering fokus analisis adalah bukan konsumen tapi produk, portofolio, perusahaan, industri atau bahkan ekonomi. Misalnya, pengecer mungkin tertarik dalam memprediksi toko-tingkat permintaan untuk manajemen persediaan tujuan. Atau Dewan Federal Reserve mungkin akan tertarik dalam memprediksi tingkat pengangguran untuk tahun berikutnya. Jenis-jenis masalah ini dapat diatasi dengan analisis prediktif menggunakan time series teknik (lihat di bawah). Mereka juga dapat diatasi melalui pendekatan pembelajaran mesin yang mengubah waktu asli seri ke sebuah fitur vektor ruang, di mana algoritma belajar menemukan pola-pola yang memiliki daya prediksi.
Manajemen risiko proyek
Ketika menggunakan teknik-teknik manajemen risiko, hasilnya selalu untuk memprediksi dan manfaat dari sebuah skenario masa depan. The capital asset pricing model (CAP-M) "memprediksi" portofolio terbaik untuk memaksimalkan kembali. Probabilistic risk assessment (PRA) bila dikombinasikan dengan mini-Delphi teknik dan pendekatan statistik hasil perkiraan yang akurat. Ini adalah contoh-contoh pendekatan yang dapat memperpanjang dari proyek ke pasar, dan dari dekat untuk jangka panjang. Underwriting (lihat di bawah) dan bisnis lainnya mencoba mengejar mengidentifikasi manajemen risiko sebagai prediktif metode.
Underwriting
Banyak perusahaan harus memperhitungkan risiko paparan karena mereka layanan yang berbeda dan menentukan biaya yang dibutuhkan untuk menutup risiko. Misalnya, auto penyedia asuransi perlu untuk secara akurat menentukan jumlah premi untuk biaya untuk menutupi masing-masing mobil dan sopir. Keuangan perusahaan perlu menilai peminjam potensial dan kemampuan untuk membayar sebelum pemberian pinjaman. Untuk asuransi kesehatan, penyedia, predictive analytics dapat menganalisis beberapa tahun lalu klaim medis data, serta laboratorium, farmasi dan catatan-catatan lain jika tersedia, untuk memprediksi seberapa mahal sebuah enrollee mungkin di masa depan. Predictive analytics dapat membantu menanggung jumlah ini dengan memprediksi kemungkinan penyakit, default, kebangkrutan, dll. Predictive analytics dapat merampingkan proses akuisisi pelanggan dengan memprediksi masa depan risiko perilaku pelanggan menggunakan aplikasi data tingkat. Predictive analytics dalam bentuk nilai kredit yang telah mengurangi jumlah waktu yang dibutuhkan untuk persetujuan kredit, terutama di pasar hipotek di mana keputusan pemberian kredit sekarang dibuat dalam hitungan jam, bukan hari atau bahkan berminggu-minggu. Tepat predictive analytics dapat menyebabkan tepat keputusan penetapan harga, yang dapat membantu mengurangi risiko di masa depan default.
Teknologi dan data besar pengaruh
Big data adalah koleksi dari data set yang sangat besar dan kompleks sehingga mereka menjadi canggung untuk bekerja dengan menggunakan tradisional database management tools. Volume, variety, dan velocity data besar telah memperkenalkan tantangan di seluruh papan untuk pengambilan, penyimpanan, pencarian, berbagi, analisis, dan visualisasi. Contoh-contoh sumber data yang besar seperti web log, RFID, sensor data, jejaring sosial, Internet pencarian pengindeksan, call detail records, militer, pengawasan, dan data yang kompleks dalam astronomi, biogeokimia, genomik, dan ilmu apabila. Big Data merupakan inti dari sebagian besar predictive analytic jasa yang ditawarkan oleh organisasi. Berkat kemajuan teknologi di perangkat keras komputer—Cpu lebih cepat, memori yang lebih murah, dan MPP arsitektur dan teknologi baru seperti Hadoop, MapReduce, dan di-database dan teks analytics untuk pengolahan data yang besar, sekarang layak untuk mengumpulkan, menganalisis, dan tambang dalam jumlah besar yang terstruktur dan yang tidak terstruktur data untuk wawasan baru. Hal ini juga mungkin untuk menjalankan algoritma prediktif pada data streaming. Hari ini, menjelajahi data besar dan menggunakan analisis prediktif adalah dalam jangkauan organisasi lebih dari sebelumnya dan metode-metode baru yang mampu untuk penanganan seperti dataset yang diusulkan.
Teknik analisis
Pendekatan dan teknik yang digunakan untuk melakukan predictive analytics luas dapat dikelompokkan ke dalam teknik regresi dan teknik pembelajaran mesin.
Teknik regresi
Regresi model andalan predictive analytics. Fokus terletak pada membangun persamaan matematika sebagai model untuk mewakili interaksi antara variabel-variabel yang berbeda dalam pertimbangan. Tergantung pada situasi, ada berbagai macam model yang dapat diterapkan saat melakukan predictive analytics. Beberapa dari mereka yang sempat dibahas di bawah ini.
Model regresi linier
Dalam model regresi linier analisis hubungan antara respon atau variabel dependen dan independen atau variabel prediktor. Hubungan ini dinyatakan sebagai persamaan yang memprediksi variabel respon sebagai fungsi linier dari parameter. Parameter ini disesuaikan sehingga ukuran fit lebih dioptimalkan. Banyak upaya dalam model yang pas difokuskan pada meminimalkan ukuran residual, serta memastikan bahwa itu adalah terdistribusi secara acak dengan hormat untuk model prediksi.
Tujuan dari regresi adalah untuk memilih parameter dari model tersebut sehingga dapat meminimalkan jumlah dari kuadrat residual. Hal ini disebut sebagai ordinary least squares (OLS) estimasi dan hasil yang di best linear unbiased perkiraan (BIRU) dari parameter-parameter yang jika dan hanya jika Gauss-Markov asumsi puas.
Setelah model telah diperkirakan kita akan tertarik untuk mengetahui apakah variabel prediktor termasuk dalam model—yaitu adalah perkiraan dari masing-masing variabel kontribusi yang dapat diandalkan? Untuk melakukan ini kita dapat memeriksa signifikansi statistik dari model koefisien yang dapat diukur dengan menggunakan t-statistik. Jumlah ini untuk menguji apakah koefisien secara signifikan berbeda dari nol. Seberapa baik model memprediksi variabel dependen berdasarkan nilai variabel independen dapat dinilai dengan menggunakan R2 statistik. Mengukur kekuatan prediksi dari model yaitu proporsi dari total variasi dalam variabel dependen yang "jelas" (menyumbang) oleh variasi dalam variabel independen.
Discrete choice model
Regresi berganda (di atas) pada umumnya digunakan ketika variabel respon adalah terus-menerus dan tak terbatas. Seringkali variabel respon tidak mungkin terus menerus melainkan diskrit. Sementara secara matematis hal ini layak untuk menerapkan regresi berganda untuk diskrit memerintahkan variabel dependen, beberapa asumsi di balik teori regresi linier berganda tidak lagi memegang, dan ada teknik lain seperti diskrit dengan pilihan model yang lebih cocok untuk jenis analisis. Jika variabel dependen adalah diskrit, beberapa dari mereka unggul metode regresi logistik, multinomial logit dan probit model. Regresi logistik dan probit model yang digunakan ketika variabel dependen adalah biner.
Regresi logistik
Dalam klasifikasi pengaturan, menetapkan hasil probabilitas untuk pengamatan yang dapat dicapai melalui penggunaan model logistik, yang pada dasarnya adalah sebuah metode yang mentransformasikan informasi tentang biner variabel dependen menjadi tak terbatas variabel kontinyu dan perkiraan biasa model multivariat (Lihat Allison Regresi Logistik untuk informasi lebih lanjut tentang teori regresi logistik).
Yang Wald dan likelihood-ratio test digunakan untuk menguji signifikansi statistik dari masing-masing koefisien b dalam model (analog dengan uji t digunakan dalam regresi OLS; lihat di atas). Tes menilai goodness-of-fit dari model klasifikasi adalah "persentase benar memprediksi".
Regresi logistik Multinomial
Perpanjangan binary logit model untuk kasus-kasus dimana variabel dependen memiliki lebih dari 2 kategori adalah multinomial logit model. Dalam kasus tersebut runtuh data menjadi dua kategori yang mungkin tidak masuk akal atau dapat menyebabkan kerugian pada kekayaan data. Yang multinomial logit model yang sesuai teknik dalam kasus ini, terutama ketika variabel dependen kategori tidak memerintahkan (untuk contoh warna seperti merah, biru, hijau). Beberapa penulis telah diperpanjang regresi multinomial untuk menyertakan fitur seleksi/pentingnya metode seperti random multinomial logit.
Regresi Probit
Model Probit menawarkan alternatif untuk regresi logistik untuk pemodelan kategoris variabel dependen. Meskipun hasil yang cenderung sama, yang mendasari distribusi yang berbeda. Probit model yang populer dalam ilmu-ilmu sosial seperti ekonomi.
Cara yang baik untuk memahami perbedaan utama antara probit dan logit model adalah dengan mengasumsikan bahwa variabel dependen adalah didorong oleh variabel laten z, yang merupakan jumlah dari kombinasi linear dari variabel penjelas dan kebisingan acak istilah.
Kita tidak mengamati z melainkan mengamati y yang mengambil nilai 0 (z < 0) atau 1 (jika tidak). Dalam model logit model kita asumsikan bahwa random noise jangka mengikuti distribusi logistik dengan mean nol. Dalam model probit kami berasumsi bahwa ini mengikuti distribusi normal dengan mean nol. Perhatikan bahwa dalam ilmu-ilmu sosial (misalnya ekonomi), probit yang sering digunakan untuk memodelkan situasi di mana diamati variabel y adalah terus-menerus tetapi mengambil nilai-nilai antara 0 dan 1.
Model Logit terhadap probit
Dalam model probit telah ada lebih lama dari model logit model. Mereka berperilaku sama, kecuali bahwa distribusi logistik cenderung sedikit menyanjung ekor. Salah satu alasan logit model dirumuskan adalah bahwa probit model komputasi sulit karena kebutuhan numerik hitung integral. Komputasi Modern namun telah membuat perhitungan ini cukup sederhana. Koefisien yang diperoleh dari model logit dan probit model yang cukup dekat. Namun, rasio odds adalah lebih mudah untuk menafsirkan dalam model logit model.
Alasan praktis untuk memilih model probit atas logistik model akan sama:
- Ada keyakinan yang kuat bahwa yang mendasari distribusi normal
- Acara yang sebenarnya adalah bukan biner hasil (misalnya, status pailit), tetapi proporsi (misalnya, proporsi populasi pada berbagai tingkat utang).
Model Time series
Time series model yang digunakan untuk memprediksi atau meramalkan masa depan perilaku dari variabel. Model ini memperhitungkan fakta bahwa titik data yang diambil dari waktu ke waktu dapat memiliki struktur internal (seperti autokorelasi, trend atau musiman variasi) yang harus dipertanggungjawabkan. Akibatnya, standar teknik regresi tidak dapat diterapkan untuk data time series dan metodologi telah dikembangkan untuk menguraikan trend, musiman dan siklus komponen dari seri. Pemodelan dinamis jalur dari variabel dapat meningkatkan prakiraan sejak diprediksi komponen dari seri dapat diproyeksikan ke masa depan.
Model Time series memperkirakan perbedaan persamaan yang mengandung komponen stokastik. Dua yang biasa digunakan bentuk-bentuk dari model ini adalah model autoregressive (AR) dan moving-average (MA) model. The Box–Jenkins metodologi (1976) yang dikembangkan oleh George Box dan G. M. Jenkins menggabungkan AR dan MA dari model untuk menghasilkan ARMA (autoregressive moving average) model, yang merupakan landasan stasioner analisis time series. ARIMA (autoregressive integrated moving average model), di sisi lain, digunakan untuk menggambarkan non-stasioner time series. Box dan Jenkins menyarankan pembedaan non-stasioner time series untuk mendapatkan stasioner seri yang ARMA model yang dapat diterapkan. Non-stasioner time series yang telah diucapkan tren dan tidak memiliki konstan jangka panjang berarti atau varians.
Box dan Jenkins mengusulkan tiga-tahap metodologi yang melibatkan identifikasi model, estimasi dan validasi. Identifikasi tahap identifikasi jika seri adalah stasioner atau tidak dan adanya musiman dengan memeriksa plot dari seri, autokorelasi dan parsial autokorelasi fungsi. Dalam estimasi panggung, model diestimasi menggunakan non-linear time series atau maximum likelihood estimation prosedur. Akhirnya validasi tahap melibatkan pemeriksaan diagnostik seperti merencanakan residual untuk mendeteksi outlier dan bukti dari model fit.
Dalam beberapa tahun terakhir model time series telah menjadi lebih canggih dan upaya untuk model bersyarat sifat heteroskedasticity dengan model seperti ARCH (autoregressive conditional sifat heteroskedasticity) dan GARCH (generalized autoregressive conditional sifat heteroskedasticity) model yang sering digunakan untuk financial time series. Selain itu model time series yang juga digunakan untuk memahami antar-hubungan antara variabel-variabel ekonomi yang diwakili oleh sistem persamaan menggunakan VAR (vector autoregression) dan struktural model VAR.
Kelangsungan hidup atau durasi analisis
Analisis Survival adalah nama lain untuk time-to-event analisis. Teknik-teknik ini terutama berkembang di kesehatan dan ilmu biologi, tapi mereka juga banyak digunakan dalam ilmu-ilmu sosial seperti ekonomi, serta di bidang teknik (keandalan dan kegagalan analisis waktu).
Menyensor dan non-normal, yang merupakan ciri khas dari kelangsungan hidup data, menghasilkan kesulitan ketika mencoba untuk menganalisis data menggunakan statistik konvensional model seperti multiple regresi linier. Dalam distribusi normalmenjadi distribusi simetris, mengambil positif serta nilai-nilai negatif, tapi durasi yang sifatnya tidak dapat negatif dan oleh karena itu normalitas tidak dapat diasumsikan ketika berhadapan dengan durasi/kelangsungan hidup data. Oleh karena itu asumsi normalitas model regresi yang dilanggar.
Asumsinya adalah bahwa jika data tidak disensor itu akan menjadi wakil dari populasi yang menarik. Dalam analisis survival, disensor pengamatan timbul setiap kali variabel dependen minat merupakan waktu ke terminal acara, dan durasi dari penelitian ini adalah terbatas dalam waktu.
Konsep penting dalam analisis survival adalah hazard menilai, didefinisikan sebagai probabilitas bahwa peristiwa yang akan terjadi pada waktu t bersyarat pada yang masih hidup sampai waktu t. Konsep lain yang berkaitan dengan bahaya tingkat kelangsungan fungsi yang dapat didefinisikan sebagai probabilitas bertahan untuk waktu t.
Kebanyakan model cobalah untuk model hazard menilai dengan memilih yang mendasari distribusi tergantung pada bentuk fungsi hazard. Distribusi dan fungsi bahaya lereng atas dikatakan telah positif durasi ketergantungan, penurunan hazard menunjukkan negatif durasi ketergantungan konstan sedangkan hazard adalah suatu proses dengan memori biasanya ditandai dengan distribusi eksponensial. Beberapa distribusi pilihan dalam kelangsungan hidup model: F, gamma, Weibull, log normal, terbalik normal, eksponensial dll. Semua distro ini adalah untuk non-negatif variabel acak.
Durasi model dapat parametric dan non-parametric atau semi parametric. Beberapa model yang sering digunakan adalah Kaplan-Meier dan Cox proportional hazard model (non parametrik).
Classification and regression trees (CART)
Secara global optimal klasifikasi tree analysis (PERGI-CTA) (disebut juga hierarki optimal discriminant analysis) adalah generalisasi dari optimal analisis diskriminan yang dapat digunakan untuk mengidentifikasi model statistik yang memiliki akurasi maksimum untuk memprediksi nilai kategoris variabel dependen untuk dataset yang terdiri dari kategorik dan variabel kontinu. Output dari HODA adalah non-orthogonal pohon yang menggabungkan variabel kategori dan titik potong untuk variabel kontinu yang menghasilkan maksimum prediksi akurat, penilaian yang tepat Tipe I error rate, dan evaluasi potensi cross-generalisasi dari model statistik. Hirarkis optimal analisis diskriminan dapat dianggap sebagai generalisasi dari fisher's linear discriminant analysis. Optimal analisis diskriminan adalah sebuah alternatif untuk ANOVA (analisis of varians) dan analisis regresi, yang mencoba untuk mengekspresikan satu variabel dependen sebagai kombinasi linear dari fitur lain atau pengukuran. Namun, ANOVA dan analisis regresi memberikan sebuah variabel dependen yang merupakan variabel numerik, sementara hirarkis optimal analisis diskriminan memberikan sebuah variabel dependen yang merupakan variabel kelas.
Classification and regression trees (CART) adalah non-parametrik decision tree learning teknik yang menghasilkan baik klasifikasi maupun regresi pohon, tergantung pada apakah variabel dependen kategorik maupun numerik, masing-masing.
Pohon keputusan yang terbentuk oleh kumpulan dari aturan-aturan yang didasarkan pada variabel-variabel dalam pemodelan data set:
- Aturan-aturan yang didasarkan pada variabel' nilai-nilai yang dipilih untuk mendapatkan yang terbaik split untuk membedakan pengamatan berdasarkan variabel dependen
- Setelah aturan ini dipilih dan perpecahan node ke dua, proses yang sama yang diterapkan untuk masing-masing "anak" node (yaitu, itu adalah prosedur rekursif)
- Membelah berhenti ketika KERANJANG mendeteksi tidak ada lagi keuntungan yang dapat dibuat, atau beberapa pra-set menghentikan aturan terpenuhi. (Atau, data dibagi sebanyak mungkin dan kemudian pohon tersebut kemudian dipangkas.)
Masing-masing cabang dari pohon yang berakhir di terminal node. Setiap pengamatan jatuh ke satu dan satu terminal node, dan masing-masing terminal node secara unik ditentukan oleh seperangkat aturan.
Metode yang sangat populer untuk analisis prediktif adalah Leo Breiman ini random hutan.
Multivariate adaptive regression splines
Multivariate adaptive regression splines (MARS) adalah non-parametrik teknik yang membangun model fleksibel dengan pas piecewise linear regresi.
Konsep penting yang berhubungan dengan regresi spline adalah bahwa dari sebuah simpul. Simpul adalah di mana satu lokal model regresi memberikan cara untuk yang lain dan dengan demikian merupakan titik perpotongan antara dua splines.
Di multivariat dan adaptive regression splines, dasar fungsi ini adalah alat yang digunakan untuk generalisasi pencarian untuk knot. Dasar fungsi adalah fungsi yang digunakan untuk mewakili informasi yang terkandung dalam satu atau lebih variabel. Multivariat dan Adaptive Regression Splines model hampir selalu menciptakan dasar fungsi yang berpasangan.
Multivariat dan adaptive regression spline sengaja overfits model dan kemudian plum untuk mendapatkan model yang optimal. Algoritma komputasi yang sangat intensif dan dalam prakteknya kita diminta untuk menentukan batas atas pada jumlah dasar fungsi.
Teknik pembelajaran mesin
Pembelajaran mesin, sebuah cabang dari kecerdasan buatan, awalnya digunakan untuk mengembangkan teknik-teknik untuk memungkinkan komputer untuk belajar. Hari ini, karena itu termasuk sejumlah lanjutan metode statistik untuk regresi dan klasifikasi, ia menemukan aplikasi dalam berbagai bidang, termasuk bidang medis diagnostik, penipuan kartu kredit deteksi wajah dan pengenalan suara dan analisis pasar saham. Dalam aplikasi tertentu, itu sudah cukup untuk langsung memprediksi variabel dependen tanpa berfokus pada yang mendasari hubungan antara variabel-variabel. Dalam kasus lain, hubungan yang mendasari dapat menjadi sangat kompleks dan matematika bentuk dependensi yang tidak diketahui. Untuk kasus seperti ini, teknik pembelajaran mesin meniru manusia kognisi dan belajar dari pelatihan contoh untuk memprediksi kejadian di masa depan.
Diskusi singkat dari beberapa metode ini biasa digunakan untuk analisis prediktif disediakan di bawah. Sebuah studi rinci tentang machine learning dapat ditemukan di Mitchell (1997).
Jaringan saraf
Jaringan saraf adalah nonlinear canggih teknik pemodelan yang mampu memodelkan fungsi-fungsi yang kompleks. Mereka dapat diterapkan untuk masalah prediksi, klasifikasi atau kontrol dalam spektrum yang luas dari bidang-bidang seperti keuangan, psikologi kognitif/neuroscience, kedokteran, teknik, dan fisika.
Jaringan saraf tiruan yang digunakan ketika sifat yang tepat dari hubungan antara input dan output tidak diketahui. Fitur kunci dari jaringan saraf adalah bahwa mereka mempelajari hubungan antara input dan output melalui pelatihan. Ada tiga jenis pelatihan yang digunakan oleh berbagai jaringan saraf: supervised dan unsupervised pelatihan dan penguatan belajar, dengan diawasi menjadi salah satu yang paling umum.
Beberapa contoh dari jaringan saraf tiruan teknik pelatihan backpropagation, cepat rambat, conjugate gradient descent, proyeksi operator, Delta-Bar-Delta dll. Beberapa tanpa pengawasan arsitektur jaringan multilayer perceptrons, Kohonen jaringan, jaringan Hopfield, dll.
Multilayer perceptron (MLP)
Dengan multilayer perceptron (MLP) yang terdiri dari input dan output layer dengan satu atau lebih lapisan tersembunyi secara nonlinier-mengaktifkan node atau sigmoid node. Hal ini ditentukan oleh berat vektor dan hal ini diperlukan untuk menyesuaikan bobot jaringan. Backpropagation menggunakan gradien jatuh untuk meminimalkan kuadrat error antara output jaringan dan nilai-nilai yang diinginkan untuk orang-output. Bobot disesuaikan dengan proses yang berulang-ulang berulang-ulang hadir atribut. Perubahan kecil dalam berat untuk mendapatkan nilai-nilai yang diinginkan dilakukan dengan proses yang disebut pelatihan internet dan dilakukan melalui training set (belajar aturan).
Radial basis fungsi
Sebuah radial basis function (RBF) adalah fungsi yang telah dibangun ke dalamnya jarak kriteria sehubungan dengan pusat. Fungsi-fungsi tersebut dapat digunakan dengan sangat efisien untuk interpolasi dan untuk merapikan data. Radial basis fungsi yang telah diterapkan di daerah jaringan saraf di mana mereka digunakan sebagai pengganti sigmoid fungsi transfer. Jaringan tersebut memiliki 3 lapisan, lapisan input, lapisan tersembunyi dengan RBF non-linearitas dan linear output layer. Pilihan yang paling populer untuk non-linearitas adalah Gaussian. RBF jaringan memiliki keuntungan tidak terkunci ke minima lokal seperti melakukan feed-forward jaringan seperti multilayer perceptron.
Support vector machines
Support vector machines (SVM) yang digunakan untuk mendeteksi dan mengeksploitasi pola yang kompleks di data oleh clustering, klasifikasi dan peringkat data. Mereka belajar mesin yang digunakan untuk melakukan biner klasifikasi dan regresi estimasi. Mereka biasanya menggunakan kernel berbasis metode untuk menerapkan linear klasifikasi teknik non-linear klasifikasi masalah. Ada sejumlah jenis SVM seperti linear, polynomial, sigmoid dll.
Naïve Bayes
Naïve Bayes berdasarkan Bayes probabilitas bersyarat aturan yang digunakan untuk melakukan klasifikasi tugas-tugas. Naïve Bayes menganggap prediktor yang secara statistik independen yang membuatnya efektif klasifikasi alat yang mudah untuk menafsirkan. Hal ini paling baik digunakan ketika dihadapkan dengan "curse of dimensionality" masalah, yaitu ketika jumlah prediktor yang sangat tinggi.
k-nearest neighbours
The nearest neighbour algorithm (KNN) milik kelas pengenalan pola metode statistik. Metode ini tidak memaksakan apriori asumsi tentang distribusi dari mana pemodelan sampel ditarik. Ini melibatkan pelatihan ditetapkan dengan nilai positif dan negatif. Sampel baru adalah diklasifikasikan dengan menghitung jarak ke tetangga terdekat pelatihan kasus. Tanda titik itu akan menentukan klasifikasi sampel. Di k-nearest neighbour classifier, k titik terdekat yang dianggap dan tanda mayoritas digunakan untuk mengklasifikasikan sampel. Kinerja dari algoritma kNN dipengaruhi oleh tiga faktor utama: (1) jarak pengukuran yang digunakan untuk menemukan terdekat tetangga; (2) keputusan aturan yang digunakan untuk memperoleh klasifikasi dari k-tetangga terdekat; dan (3) jumlah tetangga digunakan untuk mengklasifikasikan sampel baru. Hal ini dapat membuktikan bahwa, tidak seperti metode lain, metode ini adalah universal asimtotik konvergen, yaitu: sebagai ukuran dari training set meningkat, jika pengamatan independen dan identik didistribusikan (saya.aku.d.), terlepas dari distribusi dari sampel yang diambil, diperkirakan hotel akan berkumpul untuk tugas kelas yang meminimalkan kesalahan klasifikasi kesalahan. Lihat Devroy et al.
Geospasial pemodelan prediktif
Secara konseptual, geospasial pemodelan prediktif berakar pada prinsip bahwa kejadian dari peristiwa yang sedang dimodelkan terbatas dalam distribusi. Kejadian dari peristiwa yang tidak seragam atau random dalam distribusi—ada spasial faktor lingkungan (infrastruktur, sosial-budaya, topografi, dll) yang membatasi dan pengaruh mana lokasi peristiwa terjadi. Geospasial pemodelan prediktif upaya untuk menggambarkan orang-orang kendala dan pengaruh spasial dengan menghubungkan kejadian-kejadian sejarah geospasial lokasi dengan faktor-faktor lingkungan yang mewakili orang-kendala dan pengaruh. Geospasial pemodelan prediktif adalah suatu proses untuk menganalisis peristiwa melalui filter geografi dalam rangka untuk membuat pernyataan tentang kemungkinan untuk peristiwa terjadinya atau munculnya.
Alat
Secara historis, menggunakan predictive analytics tools—serta memahami hasil yang mereka disampaikan—diperlukan keterampilan canggih. Namun, modern predictive analytics tools yang tidak lagi terbatas untuk ITU spesialis.[butuh rujukan] Seperti banyak organisasi mengadopsi predictive analytics ke dalam proses pengambilan keputusan, dan mengintegrasikan ke dalam operasi mereka, mereka menciptakan pergeseran dalam pasar terhadap pengguna bisnis utama sebagai konsumen informasi. Bisnis pengguna yang menginginkan alat yang dapat mereka gunakan sendiri. Vendor merespons dengan membuat perangkat lunak baru yang menghilangkan matematika kompleksitas, menyediakan grafis yang user-friendly interface dan/atau membangun di pintas yang dapat, misalnya, mengenali jenis data yang tersedia dan menyarankan yang tepat predictive model. Predictive analytics tools telah menjadi cukup canggih untuk secara memadai hadir dan membedah masalah data,[butuh rujukan] sehingga data-savvy informasi pekerja dapat memanfaatkan mereka untuk menganalisis data dan mengambil bermakna, hasil yang berguna. misalnya, alat-alat modern hadir temuan sederhana menggunakan tabel, grafik, dan skor yang menunjukkan kemungkinan hasil yang mungkin.
Ada banyak alat yang tersedia di pasar yang membantu dengan pelaksanaan predictive analytics. Ini berkisar dari orang-orang yang membutuhkan sangat sedikit pengguna kecanggihan untuk orang-orang yang dirancang untuk praktisi ahli. Perbedaan antara alat-alat ini sering di tingkat kustomisasi dan berat data mengangkat diperbolehkan.
Beberapa perangkat lunak open-source prediktif alat analisis meliputi:
- GNU Octave
- KNIME
- OpenNN
- Orange
- R
- scikit-learn (Python)
- Weka
Komersial prediktif alat analisis meliputi:
Di samping paket perangkat lunak ini, alat-alat tertentu juga telah dikembangkan untuk aplikasi industri. Misalnya, Pengawas Agen Toolbox telah dikembangkan dan dioptimalkan untuk analisis prediktif di prognostics dan manajemen kesehatan aplikasi dan tersedia untuk MATLAB dan LabVIEW.
Komersial yang paling populer predictive analytics software paket yang menurut Rexer Analisis Survei untuk 2013 adalah IBM SPSS Modeler, SAS Enterprise Miner, dan Dell Statistica.
PMML
Dalam Model Prediksi Markup Language (PMML) diusulkan untuk standar bahasa untuk mengekspresikan model prediksi. Seperti sebuah bahasa berbasis XML menyediakan cara untuk alat yang berbeda untuk menentukan model prediksi dan berbagi mereka. PMML 4.0 dirilis pada bulan juni, 2009.
Kritik
Ada banyak skeptis ketika datang ke komputer dan algoritma' kemampuan untuk memprediksi masa depan, termasuk Gary King, seorang profesor dari Harvard University dan direktur Institute for Kuantitatif Ilmu Sosial.[15] orang-Orang yang dipengaruhi oleh lingkungan mereka dalam banyak cara. Memprediksi sempurna apa yang orang akan lakukan selanjutnya mensyaratkan bahwa semua variabel-variabel yang berpengaruh dapat diketahui dan diukur secara akurat. "Orang-orang lingkungan berubah bahkan lebih cepat dari yang mereka sendiri lakukan. Segala sesuatu dari cuaca untuk hubungan mereka dengan ibu mereka dapat mengubah cara orang berpikir dan bertindak. Semua variabel yang tak terduga. Bagaimana mereka akan mempengaruhi seseorang bahkan kurang dapat diprediksi. Jika dimasukkan ke dalam keadaan yang sama besok, mereka mungkin membuat benar-benar keputusan yang berbeda. Ini berarti bahwa statistik prediksi ini hanya berlaku dalam kondisi laboratorium steril, yang tiba-tiba tidak berguna seperti yang terlihat sebelumnya."[16]
Dalam sebuah studi dari 1072 makalah yang diterbitkan dalam Sistem Informasi Penelitian dan MIS Quarterly antara tahun 1990 dan 2006, hanya 52 empiris kertas berusaha prediksi mengklaim, dari yang hanya 7 dilakukan tepat pemodelan prediktif atau pengujian.[17]
Lihat juga
- Pidana Pengurangan Memanfaatkan Statistik Sejarah
- Belajar analytics
- Peluang algoritma
- Pengenalan pola
- Surveilans penyakit
- Analisis media sosial
- Prediksi kepolisian
- Computational sociology
- Algorithmic trading
Referensi
- ^ Conz, Nathan (September 2, 2008), "Insurers Shift to Customer-focused Predictive Analytics Technologies", Insurance & Technology
- ^ Fletcher, Heather (March 2, 2011), "The 7 Best Uses for Predictive Analytics in Multichannel Marketing", Target Marketing
- ^ Korn, Sue (April 21, 2011), "The Opportunity for Predictive Analytics in Finance", HPC Wire
- ^ Barkin, Eric (May 2011), "CRM + Predictive Analytics: Why It All Adds Up", Destination CRM
- ^ Das, Krantik; Vidyashankar, G.S. (July 1, 2006), "Competitive Advantage in Retail Through Analytics: Developing Insights, Creating Value", Information Management
- ^ McDonald, Michèle (September 2, 2010), "New Technology Taps 'Predictive Analytics' to Target Travel Recommendations", Travel Market Report
- ^ Moreira-Matias, Luís; Gama, João; Ferreira, Michel; Mendes-Moreira, João; Damas, Luis (2016-02-01). "Time-evolving O-D matrix estimation using high-speed GPS data streams". Expert Systems with Applications. 44: 275–288. doi:10.1016/j.eswa.2015.08.048.
- ^ Stevenson, Erin (December 16, 2011), "Tech Beat: Can you pronounce health care predictive analytics?", Times-Standard
- ^ Lindert, Bryan (October 2014). "Eckerd Rapid Safety Feedback Bringing Business Intelligence to Child Welfare" (PDF). Policy & Practice. Diakses tanggal March 3, 2016.
- ^ "Florida Leverages Predictive Analytics to Prevent Child Fatalities -- Other States Follow". The Huffington Post. Diakses tanggal 2016-03-25.
- ^ McKay, Lauren (August 2009), "The New Prescription for Pharma", Destination CRM
- ^ http://sine.ni.com/nips/cds/view/p/lang/en/nid/210191
- ^ http://help.sap.com/saphelp_hanaplatform/helpdata/en/32/731a7719f14e488b1f4ab0afae995b/frameset.htm
- ^ http://go.sap.com/product/analytics/predictive-analytics.html
- ^ Temple-Raston, Dina (Oct 8, 2012), Predicting The Future: Fantasy Or A Good Algorithm?, NPR
- ^ Alverson, Cameron (Sep 2012), Polling and Statistical Models Can't Predict the Future, Cameron Alverson
- ^ Shmueli, Galit (2010-08-01). "To Explain or to Predict?". Statistical Science (dalam bahasa Inggris). 25 (3): 289–310. doi:10.1214/10-STS330. ISSN 0883-4237.
Bacaan lebih lanjut
- Agresti, Alan (2002). Categorical Data Analysis. Hoboken: John Wiley and Sons. ISBN 0-471-36093-7.
- Coggeshall, Stephen, Davies, John, Jones, Roger., and Schutzer, Daniel, "Intelligent Security Systems," in Freedman, Roy S., Flein, Robert A., and Lederman, Jess, Editors (1995). Artificial Intelligence in the Capital Markets. Chicago: Irwin. ISBN 1-55738-811-3.
- L. Devroye; L. Györfi; G. Lugosi (1996). A Probabilistic Theory of Pattern Recognition. New York: Springer-Verlag.
- Enders, Walter (2004). Applied Time Series Econometrics. Hoboken: John Wiley and Sons. ISBN 0-521-83919-X.
- Greene, William (2012). Econometric Analysis, 7th Ed. London: Prentice Hall. ISBN 978-0-13-139538-1.
- Guidère, Mathieu; Howard N, Sh. Argamon (2009). Rich Language Analysis for Counterterrrorism. Berlin, London, New York: Springer-Verlag. ISBN 978-3-642-01140-5.
- Mitchell, Tom (1997). Machine Learning. New York: McGraw-Hill. ISBN 0-07-042807-7.
- Siegel, Eric (2013). Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die. John Wiley. ISBN 978-1-118-35685-2.
- Tukey, John (1977). Exploratory Data Analysis. New York: Addison-Wesley. ISBN 0-201-07616-0.
- Finlay, Steven (2014). Predictive Analytics, Data Mining and Big Data. Myths, Misconceptions and Methods. Basingstoke: Palgrave Macmillan. ISBN 978-1-137-37927-6.
- Coker, Frank (2014). Pulse: Understanding the Vital Signs of Your Business. Bellevue, WA: Ambient Light Publishing. ISBN 978-0-9893086-0-1.