tf–idf

Dalam temu balik informasi, tf–idf, TF*IDF, atau TFIDF (singkatan dari bahasa Inggris: term frequency–inverse document frequency, bahasa Indonesia: frekuensi istilah–inversi frekuensi dokumen) adalah ukuran statistik yang menggambarkan pentingnya suatu istilah terhadap sebuah dokumen dalam sebuah kumpulan atau korpus.^[1] Ukuran ini sering dipakai sebagai faktor pembobot dalam pencarian temu balik informasi, penambangan teks, dan pemodelan pengguna. Nilai tf–idf bertambah sebanding dengan jumlah kemunculan istilah dalam dan bergantung pada jumlah dokumen dalam korpus yang memiliki istilah tersebut.

Latar belakang

Definisi

Frekuensi istilah

Frekuensi istilah, $tf(t, d)$ , adalah frekuensi istilah $t$ ,

\mathrm {tf} (t,d)={\frac {f_{t,d}}{\sum _{t'\in d}f_{t'\!,d}}}

dengan $f t, d$ adalah pencacahan mentah istilah dalam dokumen, yaitu jumlah kemunculan istilah $t$ dalam dokumen $d$ . Semakin sering suatu istilah muncul, semakin besar nilai tf-nya. Terdapat beberapa cara untuk mendefinisikan frekuensi istilah.^[2]^:128

Ragam bobot frekuensi istilah (tf)
skema	bobot tf
biner	$0, 1$
pencacahan mentah	$f t, d$
frekuensi istilah	${\frac {f_{t,d}}{\sum _{t'\in d}f_{t'\!,d}}}$
penormalan log	$log(1 + f t, d)$
penormalan ganda 0,5	$0,\!5+0,\!5\times {\frac {f_{t,d}}{\max _{\{t'\in d\}}{f_{t'\!,d}}}}$
penormalan ganda $K$	$K+(1-K){\frac {f_{t,d}}{\max _{\{t'\in d\}}{f_{t'\!,d}}}}$

Inversi frekuensi dokumen

Inversi frekuensi dokumen, $idf(t, D)$ , adalah ukuran informasi yang diberikan oleh istilah $t$ , yaitu seberapa sering atau jarang sebuah istilah muncul dalam seluruh dokumen. Semakin jarang suatu istilah di antara dokumen, semakin besar nilai idf-nya. Nilainya adalah logaritma dari kebalikan dari jumlah dokumen yang memiliki istilah $t$ yang dibagi jumlah seluruh dokumen ( $N$ ),

\mathrm {idf} (t,D)=\log {\frac {N}{|\{d\in D:t\in d\}|}}

dengan himpunan ${d \in D : t \in d}$ adalah himpunan dokumen $d$ dalam $D$ yang memiliki istilah $t$ .

Grafik berbagai fungsi inversi frekuensi dokumen: baku, halus, probabilistik

Ragam bobot inversi frekuensi dokumen (idf)
skema	bobot idf
basis satu	$1$
inversi frekuensi dokumen	$\log {\frac {N}{n_{t}}}=-\log {\frac {n_{t}}{N}}$
halus	$\log \left({\frac {N}{1+n_{t}}}\right)+1$
maks.	$\log \left({\frac {\max _{\{t'\in d\}}n_{t'}}{1+n_{t}}}\right)$
probabilistik	$\log {\frac {N-n_{t}}{n_{t}}}$
Keterangan: $n t = \|{d \in D : t \in d}\|$

Frekuensi istilah–inversi frekuensi dokumen

Nilai frekuensi istilah–inversi frekuensi dokumen (tf–idf) dapat dihitung dengan

tfidf(t, d, D) = tf(t, d) \times idf(t, D).

Nilai ini akan besar ketika istilah tersebut sering muncul (tf besar), tetapi hanya dalam sedikit dokumen (idf besar atau df kecil). Nilai ini biasanya membuang istilah-istilah umum.

Skema tf-idf yang disarankan
skema	bobot istilah dokumen ( $d$ )	bobot istilah kueri ( $q$ )
1	$f_{t,d}\cdot \log {\frac {N}{n_{t}}}$	$\left(0,\!5+0,\!5\times {\frac {f_{t,q}}{\max _{t}f_{t,q}}}\right)\times \log {\frac {N}{n_{t}}}$
2	$log(1 + f t, d)$	$\log \left(1+{\frac {N}{n_{t}}}\right)$
3	$(1+\log f_{t,d})\times \log {\frac {N}{n_{t}}}$	$(1+\log f_{t,q})\times \log {\frac {N}{n_{t}}}$

Peran idf

Nilai idf dikenalkan sebagai "kekhasan istilah" oleh Karen Spärck Jones dalam sebuah makalah tahun 1972. Meski ia bekerja dengan baik sebagai heuristik, dasar-dasar teoretisnya telah menjadi masalah setidaknya selama tiga puluh tahun. Para peneliti mencoba untuk mencari alasannya secara teoretis informasi.^[3]

Penjelasan dari Spärck Jones sendiri tidak terlalu mengajukan banyak teori selain hubungannya dengan hukum Zipf.^[3] Beberapa upaya telah dilakukan untuk menempatkan idf dalam bidang probabilistik dengan memperkirakan probabilitas^[4] bahwa dokumen $d$ memiliki istilah $t$ sebagai frekuensi relatif dokumen,

P(t|D)={\frac {|\{d\in D:t\in d\}|}{N}},

sehingga kita bisa mendefinisikan idf sebagai berikut.

{\begin{aligned}\mathrm {idf} &=-\log P(t|D)\\&=\log {\frac {1}{P(t|D)}}\\&=\log {\frac {N}{|\{d\in D:t\in d\}|}}\end{aligned}}

Dengan kata lain, inversi frekuensi dokumen adalah logaritma dari "inversi" frekuensi dokumen relatif.

Penafsiran probabilistik ini memakai bentuk yang sama dengan isi informasi. Namun, penerapan cara pandang informasi-teoretis ke permasalahan dalam temu balik informasi menyebabkan masalah ketika mencoba untuk mendefinisikan ruang sampel untuk sebaran probabilitas: tidak hanya dokumen yang harus diperhatikan, tetapi juga kueri dan istilah.^[3]

Kaitan dengan teori informasi

Contoh tf–idf

Misalkan terdapat tabel jumlah istilah dalam korpus yang berisi dua dokumen seperti tabel-tabel di samping.

Dokumen 2
Istilah	Jumlah
ini	1
adalah	1
contoh	3
lainnya	2

Dokumen 1
Istilah	Jumlah
ini	1
adalah	1
sebuah	2
sampel	1

Untuk menghitung tf–idf istilah ini, dapat dilakukan langkah-langkah berikut.

Dalam bentuk frekuensi mentahnya, tf hanyalah frekuensi istilah ini dalam tiap dokumen. Dalam tiap dokumen, istilah ini sama-sama muncul sekali. Namun, karena dokumen 2 punya lebih banyak kata, frekuensi relatifnya lebih kecil.

\mathrm {tf} ({\mathsf {''ini''}},d_{1})={\frac {1}{5}}=0,\!2

\mathrm {tf} ({\mathsf {''ini''}},d_{2})={\frac {1}{7}}\approx 0,\!14

Nilai idf bersifat tetap per korpus dan bergantung pada jumlah dokumen yang memiliki istilah ini. Dalam kasus ini, kita memiliki korpus yang semua dokumennya memiliki istilah ini.

\mathrm {idf} ({\mathsf {''ini''}},D)=\log \left({\frac {2}{2}}\right)=0

Jadi, nilai tf–idf istilah ini adalah nol yang berarti bahwa istilah ini tidak terlalu bermakna karena muncul dalam seluruh dokumen.

\mathrm {tfidf} ({\mathsf {''ini''}},d_{1},D)=0,\!2\times 0=0

\mathrm {tfidf} ({\mathsf {''ini''}},d_{2},D)=0,\!14\times 0=0

Contoh lainnya, istilah contoh muncul tiga kali, tetapi hanya dalam dokumen 2.

\mathrm {tf} ({\mathsf {''contoh''}},d_{1})={\frac {0}{5}}=0

\mathrm {tf} ({\mathsf {''contoh''}},d_{2})={\frac {3}{7}}\approx 0,\!429

\mathrm {idf} ({\mathsf {''contoh''}},D)=\log \left({\frac {2}{1}}\right)=0,\!301

Terakhir,

\mathrm {tfidf} ({\mathsf {''contoh''}},d_{1},D)=\mathrm {tf} ({\mathsf {''contoh''}},d_{1})\times \mathrm {idf} ({\mathsf {''contoh''}},D)=0\times 0,\!301=0

\mathrm {tfidf} ({\mathsf {''contoh''}},d_{2},D)=\mathrm {tf} ({\mathsf {''contoh''}},d_{2})\times \mathrm {idf} ({\mathsf {''contoh''}},D)=0,\!429\times 0,\!301\approx 0,\!129

Penggunaan lain

Konsep tf–idf juga dipakai untuk hal selain istilah. Pada tahun 1998, konsep idf dipakai untuk sitasi.^[5] Peneliti tersebut mengusulkan bahwa, bila sitasi yang jarang dipakai itu dipakai oleh dua dokumen berbeda, ia harus berbobot lebih tinggi daripada sitasi yang dipakai oleh banyak dokumen. Selain itu, tf–idf juga diterapkan untuk "kata visual" dengan tujuan untuk mencocokan objek dalam video^[6] dan kalimat lengkap.^[7]

Namun, konsep tf–idf tidak terbukti lebih efektif daripada hanya tf (tanpa idf) untuk semua kasus. Ketika tf–idf diterapkan untuk sitasi, para peneliti tidak menemukan peningkatan kinerja dibanding pencacahan-sitasi sederhana yang tidak memakai komponen idf.^[8]

Turunan

Ada beberapa skema pembobotan istilah yang dikembangkan dari tf–idf. Salah satunya adalah TF–PDF (frekuensi istilah–frekuensi dokumen seimbang).^[9] TF–PDF dikenalkan pada tahun 2001 dalam konteks pengidentifikasi topik baru di media. Komponen PDF mengukur perbedaan jumlah kemunculan sebuah istilah dalam berbagai bidang.

Skema lainnya adalah TF–IDuF. Dalam TF–IDuF, nilai idf tidak dihitung berdasarkan korpus yang akan dicari, tetapi dihitung dari kumpulan dokumen pribadi pengguna.^[10] Penulis tersebut melaporkan bahwa TF–IDuF hampir seefektif tf–idf, tetapi juga bisa dipakai dalam keadaan semisal tiada akses ke korpus dokumen global.

Lihat pula

Daftar pustaka

Salton, G.; Fox, E. A.; Wu, H. (1983). "Extended Boolean information retrieval". Communications of the ACM. 26 (11): 1022–1036. doi:10.1145/182.358466. hdl:1813/6351  .
Salton, G.; Buckley, C. (1988). "Term-weighting approaches in automatic text retrieval" (PDF). Information Processing & Management. 24 (5): 513–523. doi:10.1016/0306-4573(88)90021-0. hdl:1813/6721.
Wu, H. C.; Luk, R. W. P.; Wong, K. F.; Kwok, K. L. (2008). "Interpreting TF-IDF term weights as making relevance decisions". ACM Transactions on Information Systems. 26 (3): 1. doi:10.1145/1361684.1361686. hdl:10397/10130  .

Referensi

^ Rajaraman, A.; Ullman, J. D. (2011). "Data Mining" (PDF). Mining of Massive Datasets. hlm. 1–17. doi:10.1017/CBO9781139058452.002. ISBN 978-1-1390-5845-2.
^ Manning, C. D.; Raghavan, P.; Schutze, H. (2008). "Scoring, term weighting, and the vector space model" (PDF). Introduction to Information Retrieval. hlm. 100. doi:10.1017/CBO9780511809071.007. ISBN 978-0-5118-0907-1.
^ ^a ^b ^c Robertson, S. (2004). "Understanding inverse document frequency: On theoretical arguments for IDF". Journal of Documentation. 60 (5): 503–520. doi:10.1108/00220410410560582.
^ Lihat pula "Probability estimates in practice" dalam Introduction to Information Retrieval.
^ Bollacker, Kurt D.; Lawrence, Steve; Giles, C. Lee (1 Januari 1998). CiteSeer: An Autonomous Web Agent for Automatic Retrieval and Identification of Interesting Publications. Proceedings of the Second International Conference on Autonomous Agents. AGENTS '98. hlm. 116–123. doi:10.1145/280765.280786. ISBN 978-0-8979-1983-8.
^ Sivic, Josef; Zisserman, Andrew (1 Januari 2003). Video Google: A Text Retrieval Approach to Object Matching in Videos. Proceedings of the Ninth IEEE International Conference on Computer Vision – Volume 2. ICCV '03. hlm. 1470–. doi:10.1109/ICCV.2003.1238663. ISBN 978-0-7695-1950-0.
^ Seki, Yohei. "Sentence Extraction by tf/idf and Position Weighting from Newspaper Articles" (PDF). National Institute of Informatics.
^ Beel, Joeran; Breitinger, Corinna (2017). "Evaluating the CC-IDF citation-weighting scheme – How effectively can 'Inverse Document Frequency' (IDF) be applied to references?" (PDF). Proceedings of the 12th IConference. Diarsipkan dari versi asli (PDF) tanggal 2020-09-22. Diakses tanggal 2021-05-10.
^ Bun, Khoo Khyou; Ishizuka, M. (2001). Emerging Topic Tracking System. Proceedings Third International Workshop on Advanced Issues of E-Commerce and Web-Based Information Systems. WECWIS 2001 (dalam bahasa Inggris). hlm. 2. CiteSeerX 10.1.1.16.7986  . doi:10.1109/wecwis.2001.933900. ISBN 978-0-7695-1224-2.
^ Langer, Stefan; Gipp, Bela (2017). "TF-IDuF: A Novel Term-Weighting Scheme for User Modeling based on Users' Personal Document Collections" (PDF). IConference.

[1] Rajaraman, A.; Ullman, J. D. (2011). "Data Mining" (PDF). Mining of Massive Datasets. hlm. 1–17. doi:10.1017/CBO9781139058452.002. ISBN 978-1-1390-5845-2.

[2] Manning, C. D.; Raghavan, P.; Schutze, H. (2008). "Scoring, term weighting, and the vector space model" (PDF). Introduction to Information Retrieval. hlm. 100. doi:10.1017/CBO9780511809071.007. ISBN 978-0-5118-0907-1.

[Robertson2004-3] Robertson, S. (2004). "Understanding inverse document frequency: On theoretical arguments for IDF". Journal of Documentation. 60 (5): 503–520. doi:10.1108/00220410410560582.

[4] Lihat pula "Probability estimates in practice" dalam Introduction to Information Retrieval.

[5] Bollacker, Kurt D.; Lawrence, Steve; Giles, C. Lee (1 Januari 1998). CiteSeer: An Autonomous Web Agent for Automatic Retrieval and Identification of Interesting Publications. Proceedings of the Second International Conference on Autonomous Agents. AGENTS '98. hlm. 116–123. doi:10.1145/280765.280786. ISBN 978-0-8979-1983-8.

[6] Sivic, Josef; Zisserman, Andrew (1 Januari 2003). Video Google: A Text Retrieval Approach to Object Matching in Videos. Proceedings of the Ninth IEEE International Conference on Computer Vision – Volume 2. ICCV '03. hlm. 1470–. doi:10.1109/ICCV.2003.1238663. ISBN 978-0-7695-1950-0.

[7] Seki, Yohei. "Sentence Extraction by tf/idf and Position Weighting from Newspaper Articles" (PDF). National Institute of Informatics.

[8] Beel, Joeran; Breitinger, Corinna (2017). "Evaluating the CC-IDF citation-weighting scheme – How effectively can 'Inverse Document Frequency' (IDF) be applied to references?" (PDF). Proceedings of the 12th IConference. Diarsipkan dari versi asli (PDF) tanggal 2020-09-22. Diakses tanggal 2021-05-10.

[9] Bun, Khoo Khyou; Ishizuka, M. (2001). Emerging Topic Tracking System. Proceedings Third International Workshop on Advanced Issues of E-Commerce and Web-Based Information Systems. WECWIS 2001 (dalam bahasa Inggris). hlm. 2. CiteSeerX 10.1.1.16.7986  . doi:10.1109/wecwis.2001.933900. ISBN 978-0-7695-1224-2.

[10] Langer, Stefan; Gipp, Bela (2017). "TF-IDuF: A Novel Term-Weighting Scheme for User Modeling based on Users' Personal Document Collections" (PDF). IConference.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]