Dalam [[teori probabilitas]] dan [[statistika]], '''korelasi''', juga disebut '''koefisien korelasi''', adalah nilai yang menunjukkan kekuatan dan arah hubungan linier antara dua [[peubah acak]] (''random variable'').
{| borderclass="1wikitable" cellpaddingstyle="5"text-align: cellspacing="0" align="center;"
|+'''Koefisien korelasi'''
|-
| Korelasi tinggi || Tinggi || Rendah || Rendah || Tanpa korelasi || Tak ada korelasi (acak) || Tanpa korelasi || Rendah || Rendah || Tinggi || Korelasi tinggi
|-
! Korelasi tinggi !! Tinggi !! Rendah !! Rendah !! Tanpa korelasi !! Tak ada korelasi (acak) !! Rendah !! Sedang !! Sedang !! Tinggi !! Korelasi tinggi
| −1 || < −0.9 || > −0.9 || < −0.4 || > −0.4 || 0 || < +0.4 || > +0.4 || < +0.9 || > +0.9 || +1
|-
| −1 || < −0.9 || > −0.9 || < −0.4 || > −0.4 || 0 || <= +0.4 || > +0.4 || < +0.9 || > +0.9 || +1
|-
|}
Salah satu jenis korelasi yang paling populer adalah [[koefisien korelasi momen-produk Pearson]], yang diperoleh dengan membagi [[kovarians]] kedua variabel dengan perkalian [[simpangan baku]]nya. Meski memiliki nama ''Pearson'', metode ini pertama kali diperkenalkan oleh [[Francis Galton]].
== Koefisien korelasi momen-produk Pearson ==
=== Sifat-sifat matematis ===
[[ImageBerkas:Korelasi.png|thumbjmpl|350px|Korelasi linier antara 1000 pasang pengamatan. Data digambarkan pada bagian kiri bawah dan koefisien korelasinya ditunjukkan pada bagian kanan atas. Setiap titik pengamatan berkorelasi maksimum dengan dirinya sendiri, sebagaimana ditunjukkan pada diagonal (seluruh korelasi = +1).]]
Korelasi ρρ<sub>''X, Y''</sub> antara dua [[peubah acak]] ''X'' dan ''Y'' dengan nilai yang diharapkan μμ<sub>''X''</sub> dan μμ<sub>''Y''</sub> dan [[simpangan baku]] σσ<sub>''X''</sub> dan σσ<sub>''Y''</sub> didefinisikan sebagai:
:<math>
\rho_{X,Y}={\mathrm{cov}(X,Y) \over \sigma_X \sigma_Y} ={E((X-\mu_X)(Y-\mu_Y)) \over \sigma_X\sigma_Y}.</math>
Karena μμ<sub>''X''</sub> = E(''X''),
σσ<sub>''X''</sub><sup>2</sup> = E(''X''<sup>2</sup>) −− E<sup>2</sup>(''X'') dan
demikian pula untuk ''Y'', maka dapat pula ditulis
Korelasi dapat dihitung bila simpangan baku finit dan keduanya tidak sama dengan nol. Dalam pembuktian [[ketidaksamaan Cauchy-Schwarz]], koefisien korelasi tak akan melebihi dari 1 dalam [[nilai absolut]]. Korelasi bernilai 1 jika terdapat hubungan linier yang positif, bernilai -1 jika terdapat hubungan linier yang negatif, dan antara -1 dan +1 yang menunjukkan tingkat [[dependensi linier]] antara dua variabel. Semakin dekat dengan -1 atau +1, semakin kuat korelasi antara kedua variabel tersebut.
Jika variabel-variabel tersebut [[variabel yang saling bebas|saling bebas]], nilai korelasi sama dengan 0. Namun tidak demikian untuk kebalikannya, karena koefisien korelasi hanya mendeteksi ''ketergantungan linier'' antara kedua variabel. Misalnya, peubah acak ''X'' berdistribusi uniform pada interval antara -1 dan +1, dan ''Y'' = ''X''<sup>2</sup>. Dengan demikian nilai ''Y'' ditentukan sepenuhnya oleh ''X'', sehingga ''X'' dan ''Y'' memiliki dependensi, namun korelasi keduanya sama dengan nol, yang keduanya tidak berkorelasi. Namun dalam kasus tertentu jika ''X'' dan ''Y'' berditribusi normal bivariat, saling bebas ekuivalen dengan tak berkorelasi.
== Koefisien korelasi non-parametrik ==
<!--
Koefisien korelasi Pearson merupakan [[Statistika parametrik|statistik parametrik]], dan ia kurang begitu menggambarkan korelasi bila asumsi dasar [[Distribusi normal|normalitas]] suatu data dilanggar. Metode korelasi [[Statistika non-parametrik|non-parametrik]] seperti [[Koefisien korelasi rank Spearman|ρ Spearman]] and [[Tau Kendall|τ Kendall]] berguna ketika distribusi tidak normal. Koefisien korelasi non-parametrik masih kurang ''kuat'' bila dibandingkan dengan metode parametrik jika asumsi normalitas data terpenuhi, tetapi cenderung memberikan hasil distrosi ketika asumsi tersebut tak terpenuhi.
=== Korelasi untuk sampel ===
If we have a series of ''n'' measurements of ''X'' and ''Y'' written as ''x<sub>i</sub>'' and ''y<sub>i</sub>'' where ''i'' = 1, 2, ..., ''n'', then the [[Pearson product-moment correlation coefficient]] can be used to estimate the correlation of ''X'' and ''Y'' . The Pearson coefficient is
also known as the "sample correlation coefficient". It is especially important if ''X'' and ''Y'' are both [[normal distribution|normally distributed]]. The Pearson correlation coefficient is then the best estimate of the correlation of ''X'' and ''Y'' . The Pearson correlation coefficient is written:
:<math>
r_{xy}=\frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{(n-1) s_x s_y}
</math>
where <math>\bar{x}</math> and <math>\bar{y}</math> are the sample [[arithmetic mean|mean]]s of ''x<sub>i</sub>'' and ''y<sub>i</sub>'' , ''s''<sub>''x''</sub> and ''s''<sub>''y''</sub> are the sample [[standard deviation]]s of ''x<sub>i</sub>'' and ''y<sub>i</sub>'' and the sum is from ''i'' = 1 to ''n''. As with the population correlation, we may rewrite this as
:<math>
r_{xy}=\frac{n\sum x_iy_i-\sum x_i\sum y_i}
{\sqrt{n\sum x_i^2-(\sum x_i)^2}~\sqrt{n\sum y_i^2-(\sum y_i)^2}}.
</math>
Again, as is true with the population correlation, the absolute value of the sample correlation must be less than or equal to 1. Though the above formula conveniently suggests a single-pass algorithm for calculating sample correlations, it is notorious for its numerical instability (see below for something more accurate).
The sample correlation coefficient is the fraction of the variance in ''y<sub>i</sub>'' that is accounted for by a linear fit of ''x<sub>i</sub>'' to ''y<sub>i</sub>'' . This is written
:<math>r_{xy}^2=1-\frac{\sigma_{y|x}^2}{\sigma_y^2}</math>
where ''σ<sub>y|x</sub><sup>2</sup>'' is the square of the error of a linear fit of ''y<sub>i</sub>'' to ''x<sub>i</sub>'' by the [[equation]] ''y = a + bx''.
:<math>\sigma_{y|x}^2=\sum_{i=1}^n (y_i-a-bx_i)^2</math>
and ''σ<sub>y</sub><sup>2</sup>'' is just the variance of ''y''
:<math>\sigma_y^2=\sum_{i=1}^n (y_i-\bar{y})^2</math>
Note that since the sample correlation coefficient is symmetric in ''x<sub>i</sub>'' and ''y<sub>i</sub>'' , we will get the same value for a fit of ''x<sub>i</sub>'' to ''y<sub>i</sub>'' :
:<math>r_{xy}^2=1-\frac{\sigma_{x|y}^2}{\sigma_x^2}</math>
This equation also gives an intuitive idea of the correlation coefficient for higher [[dimension]]s. Just as the above described sample correlation coefficient is the fraction of variance accounted for by the fit of a 1-dimensional [[Euclidean space|linear submanifold]] to a set of 2-dimensional vectors (''x<sub>i</sub>'' , ''y<sub>i</sub>'' ), so we can define a correlation coefficient for a fit of an ''m''-dimensional linear submanifold to a set of ''n''-dimensional vectors. For example, if we fit a plane ''z = a + bx + cy'' to a set of data (''x<sub>i</sub>'' , ''y<sub>i</sub>'' , ''z<sub>i</sub>'' ) then the correlation coefficient of ''z'' to ''x'' and ''y'' is
:<math>r^2=1-\frac{\sigma_{z|xy}^2}{\sigma_z^2}.\,</math>
-->
==Koefisien korelasi non-parametrik==
Koefisien korelasi Pearson merupakan [[Statistika parametrik|statistik parametrik]], dan ia kurang begitu menggambarkan korelasi bila asumsi dasar [[Distribusi normal|normalitas]] suatu data dilanggar. Metode korelasi [[Statistika non-parametrik|non-parametrik]] seperti [[Koefisien korelasi rank Spearman|ρ Spearman]] and [[Tau Kendall|τ Kendall]] berguna ketika distribusi tidak normal. Koefisien korelasi non-parametrik masih kurang ''kuat'' bila dibandingkan dengan metode parametrik jika asumsi normalitas data terpenuhi, namun cenderung memberikan hasil distrosi ketika asumsi tersebut tak terpenuhi.
== Metode pengukuran yang lain untuk mengetahui dependensi antara dua peubah acak]] ==
Untuk mendapatkan suatu pengukuran mengenai dependensi data (juga nonlinier), dapat digunakan [[rasio korelasi]], yang mampu mendeteksi hampir segala dependensi fungsional.
<!--
To get a measure for more general dependencies in the data (also nonlinear) it is better to use the [[correlation ratio]] which is able to detect almost any functional dependency, or [[mutual information]] which detects even more general dependencies.
Banyak orang yang keliru menganggap bahwa informasi yang diberikan dari sebuh koefisien korelasi sudah cukup mendefinisikan struktur ketergantungan (dependensi) antara peubah acak. Namun untuk mengetahui adanya ketergantungan antara peubah acak harus dipertimbangkan pula [[kopula]] antara keduanya. Koefisien korelasi dapat didefinisikan sebagai struktur ketergantungan hanya pada beberapa kasus, misalnya dalam [[fungsi distribusi kumulatif]] pada [[distribusi normal multivariat]].
== Matriks korelasi ==
Matriks korelasi ''n'' peubah acak ''X''<sub>1</sub>, ..., ''X''<sub>''n''</sub> adalah ''n'' ×× ''n'' matrik dimana ''i'',''j'' adalah corr(''X''<sub>''i''</sub>, ''X''<sub>''j''</sub>). Jika ukuran korelasi yang digunakan adalah koefisien momen-produk, matriks korelasi akan sama dengan [[matriks kovarians]] peubah acak yang telah distandarkan ''X''<sub>''i''</sub> /SD(''X''<sub>''i''</sub>) untuk ''i'' = 1, ..., ''n''. Sehingga, matriks korelasi merupakan matriks definit tak-negatif.
Matriks korelasi selalu simetris, yakni korelasi antara <math>X_i</math> dan <math>X_j</math> adalah sama dengan korelasi antara <math>X_j</math> and <math>X_i</math>).
== "Korelasi tak selalu berarti sebab-akibat" ==
Diktum konvensi bahwa "korelasi tak selalu berarti sebab-akibat" dibahas dalam artikel [[hubungan artifisial]] (''spurious relationship''). Lihat pula [[korelasi mengarah ke hubungan sebab-akibat (kekeliruan logis)]]. Bagaimanapun, korelasi tak diasumsukan selalu [[akausal]], meski penyebab tersebut bisa pula tidak diketahui.
<ref>vvv</ref>
==Menghitung korelasi secara akurat dengan metode numerik==
Berikut adalah algoritma (dalam pseudocode) yang akan mengestimasi korelasi dengan menggunakan metode mumerik
== Pranala luar ==
sum_sq_x = 0
sum_sq_y = 0
sum_coproduct = 0
mean_x = x[1]
mean_y = y[1]
last_x = x[1]
last_y = y[1]
for i in 2 to N:
sweep = (i - 1.0) / i
delta_x = x[i] - mean_x
delta_y = y[i] - mean_y
sum_sq_x += delta_x * delta_x * sweep
sum_sq_y += delta_y * delta_y * sweep
sum_coproduct += delta_x * delta_y * sweep
mean_x += delta_x / i
mean_y += delta_y / i
pop_sd_x = sqrt( sum_sq_x / N )
pop_sd_y = sqrt( sum_sq_y / N )
cov_x_y = sum_coproduct / N
correlation = cov_x_y / (pop_sd_x * pop_sd_y)
<!--
For an enlightening experiment, check the correlation of {900,000,000 + i for i=1...100} with {900,000,000 - i for i=1...100}, perhaps with a few values modified. Poor algorithms will fail.
-->
==Pranala luar==
* [http://www.mega.nu:8080/ampp/rummel/uc.htm Understanding Correlation] - Materi pegantar
* [http://www.statsoft.com/textbook/stathome.html Statsoft Electronic Textbook] {{Webarchive|url=https://web.archive.org/web/20090227054024/http://www.statsoft.com/textbook/stathome.html |date=2009-02-27 }}
* [http://www.vias.org/tmdatanaleng/cc_corr_coeff.html Pearson's Correlation Coefficient]
* [http://www.vias.org/simulations/simusoft_rdistri.html Learning by Simulations] - Distribusi koefisien korelasi
* [http://www.analistat.com Jasa analisis statistik penelitian] {{Webarchive|url=https://web.archive.org/web/20070514090155/http://analistat.com/ |date=2007-05-14 }} - Jasa analisis statistik penelitian
== Rujukan ==
{{references}}
[[Kategori: Statistika]]
[[cs:Korelace]]
[[da:Korrelation]]
[[de:Korrelation]]
[[en:Correlation]]
[[es:Correlación]]
[[fi:Korrelaatio]]
[[fr:Corrélation (mathématiques)]]
[[he:מחקר מתאמי]]
[[it:Correlazione]]
[[lt:Koreliacija]]
[[lv:Korelācija]]
[[nl:Correlatie]]
[[no:Korrelasjon]]
[[pl:Korelacja]]
[[pt:Correlação]]
[[ru:Корреляция]]
[[sk:Korelácia (štatistika)]]
[[sr:Корелација]]
[[su:Korélasi]]
[[sv:Korrelation]]
[[tr:Korelasyon]]
|