Terjemahan mesin statistik: Perbedaan antara revisi

Konten dihapus Konten ditambahkan
Pranala luar: Memperbaiki dan menambah kategori
Tag: Suntingan perangkat seluler Suntingan peramban seluler Suntingan seluler lanjutan
Lim Natee (bicara | kontrib)
Fitur saranan suntingan: 3 pranala ditambahkan.
Baris 5:
==Basis==
 
Ide di balik penerjemahan mesin statistik berasal dari [[teori informasi]]. Sebuah dokumen diterjemahkan menurut [[sebaran probabilitas]] <math>p(e|f)</math> bahwa string <math>e</math> dalam bahasa target (misalnya, [[bahasa Inggris]]) adalah terjemahan dari sebuah string <math>f</math> dalam bahasa sumber (misalnya, [[Prancis]]).
 
Masalah pemodelan sebaran probabilitas <math>p(e|f)</math> telah didekati dengan beberapa cara. Salah satu pendekatan yang cocok untuk implementasi komputer adalah dengan menerapkan [[Teorema Bayes]], yaitu <math>p(e|f) \propto p(f|e) p(e)</math>, di mana model terjemahannya <math>p(f|e)</math> adalah probabilitas bahwa string sumber adalah terjemahan dari string target, dan [[model bahasa]] <math>p(e)</math> adalah probabilitas untuk melihat string bahasa target tersebut. Dekomposisi ini menarik karena membagi masalah menjadi dua submasalah. Menemukan terjemahan terbaik <math>\tilde{e}</math> dilakukan dengan mengambil salah satu yang memberikan probabilitas tertinggi:
Baris 37:
 
=== Penyelarasan kalimat ===
Dalam korpora paralel, kalimat tunggal dalam satu bahasa dapat ditemukan diterjemahkan ke dalam beberapa kalimat dalam bahasa lain dan begitu sebaliknya.<ref name="WilliamsSennrich2016">{{cite book|author1=Philip Williams|author2=Rico Sennrich|author3=Matt Post|author4=Philipp Koehn|title=Syntax-based Statistical Machine Translation|url=https://books.google.com/books?id=bd3dDAAAQBAJ&q=%22parallel+%28text%7Ccorpus%29%22|date=1 August 2016|publisher=Morgan & Claypool Publishers|isbn=978-1-62705-502-4}}</ref> Kalimat yang panjang dapat dipecah, kalimat yang pendek dapat digabungkan. Bahkan ada beberapa bahasa yang menggunakan sistem penulisan tanpa indikasi yang jelas tentang akhir kalimat (misalnya, [[Bahasa Thai|bahasa Thailand]]). Penyelarasan kalimat dapat dilakukan melalui [[algoritma penyelarasan Gale-Church]]. Melalui ini dan model matematika lainnya, pencarian dan pengambilan yang efisien dari perataan kalimat dengan nilai tertinggi dapat dilakukan.
 
=== Penyelarasan kata===