Jarak Levenshtein: Perbedaan antara revisi

Konten dihapus Konten ditambahkan
Konten dalam edit ini adalah alih bahasa dari artikel Wikipedia Bahasa Inggris en:Levenshtein distance; Lihat sejarahnya untuk atribusi.
Etewe (bicara | kontrib)
Fitur saranan suntingan: 2 pranala ditambahkan.
 
(3 revisi perantara oleh 2 pengguna tidak ditampilkan)
Baris 20:
 
=== Contoh ===
[[Berkas:Levenshtein_distance_animation.gif|pra=https://wiki-indonesia.club/wiki/Berkas:Levenshtein_distance_animation.gif|ka|jmpl|400x400px|matriks jarak edit untuk dua kata dengan biaya substitusi sebesar 1 dan biaya penghapusan atau penyisipan sebesar 0,5.]]
Sebagai contoh, jarak Levenshtein antara kata "kartun" dan kata "gantung" adalah 3, karena tiga pengeditan berikut mengubah satu kata ke kata yang lain, dan tidak ada cara untuk melakukannya dengan kurang dari tiga pengeditan:
 
Baris 32:
* Bernilai setidaknya sebesar perbedaan ukuran kedua string tersebut.
* Maksimum bernilai sebesar panjang dari string yang lebih panjang.
* Bernilai nol [[jika dan hanya jika]] kedua string sama.
* Jika kedua string berukuran sama, [[jarak Hamming]] adalah batas atas bagi jarak Levenshtein.
* Jarak Levenshtein antara dua string tidak pernah lebih besar dari jumlah jarak Levenshtein mereka dengan suatu string lain ([[Ketidaksamaan segitiga|pertidaksamaan segitiga]]).
 
Sebuh contoh bagi jarak Levenshtein antara dua string dengan panjang yang sama, bernilai lebih kecil dari jarak Hamming, adalah pasangan kata "makan" dan "akang". Di sini jarak Levenshtein sama dengan 2 (hapus huruf "m" di awal dan sisipkan "g" di akhir), sedangkan [[jarak Hamming]] mereka sebesar 5.
Baris 43:
Jarak Levenshtein juga dapat dihitung antara dua string yang lebih panjang, tetapi biaya untuk menghitungnya secara kasar sebanding dengan hasil kali panjang kedua string, membuat hal ini tidak praktis. Jadi, ketika digunakan untuk membantu [[pencarian string samar]] dalam aplikasi seperti ''record linkage'', string yang umum dibandingkan berukuran pendek untuk membantu meningkatkan kecepatan perbandingan.{{Butuh rujukan|date=January 2019}}
 
Dalam [[linguistik]], jarak Levenshtein digunakan sebagai metrik untuk mengukur [[jarak linguistik]], atau seberapa berbedanya dua bahasa satu sama lain. <ref name="ref05xubej">{{Citation|title=Receptive multilingualism: linguistic analyses, language policies, and didactic concepts|last=Jan D. ten Thije|last2=Ludger Zeevaert|publisher=John Benjamins Publishing Company, 2007|isbn=978-90-272-1926-8|url=https://books.google.com/books?id=8gIEN068J3gC&q=Levenshtein|quote=''... Assuming that intelligibility is inversely related to linguistic distance ... the content words the percentage of cognates (related directly or via a synonym) ... lexical relatedness ... grammatical relatedness ...''|date=2007-01-01}}</ref> Hal ini terkait dengan [[Kesalingpahaman|kejelasan timbal balik]], semakin tinggi jarak linguistik, semakin rendah kejelasan timbal balik, dan semakin rendah jarak linguistik, semakin tinggi kejelasan timbal balik tersebut.
 
== Hubungan dengan metrik jarak edit lainnya ==
Baris 53:
* [[jarak Jaro]] hanya memungkinkan transposisi .
 
[[Jarak edit]] biasanya didefinisikan sebagai metrik yang dapat diukur parameternya yang dihitung dengan serangkaian operasi edit tertentu yang diizinkan, dan setiap operasi diberi biaya (mungkin tak terbatas). Hal ini selanjutnya digeneralisasikan oleh algoritma penyelarasan urutan [[Asam deoksiribonukleat|DNA]] seperti algoritma [[Algoritma Smith-Waterman|Smith-Waterman]], dengan biaya operasi bergantung pada tempat penerapannya.
 
== Implementasi ==
Baris 230:
: <math>(\log n)^{O(1/\varepsilon)}</math>
 
di mana {{Math|''ε'' > 0}} adalah parameter bebas yang dapat diatur, dalam kompleksitas waktu {{Math|''O''(n<sup>1 + ''ε''</sup>)}}.<ref>{{Cite conferencejournal|last=Andoni|first=Alexandr|last2=Krauthgamer|first2=Robert|last3=Onak|first3=Krzysztof|date=2010-05|title=Polylogarithmic Approximation for Edit Distance and the Asymmetric Query Complexity|url=https://ui.adsabs.harvard.edu/abs/2010arXiv1005.4033A/abstract|journal=arXiv e-prints|language=en|pages=arXiv:1005.4033}}</ref>
 
=== Kompleksitas komputasi ===
Dapat dibuktikan bahwa jarak Levenshtein dari dua string dengan panjang {{Mvar|n}} tidak dapat dihitung dalam waktu {{Math|''O''(n<sup>2 - ''ε''</sup>)}}, untuk setiap ε yang lebih besar dari nol kecuali hipotesis ''strong exponential time'' salah.<ref>{{Cite conferencejournal|last=Backurs|first=Arturs|last2=Indyk|first2=Piotr|date=2014-11|title=Edit Distance Cannot Be Computed in Strongly Subquadratic Time (unless SETH is false)|url=https://ui.adsabs.harvard.edu/abs/2014arXiv1412.0348B/abstract|journal=arXiv e-prints|language=en|pages=arXiv:1412.0348}}</ref>
 
== Referensi ==