Terjemahan mesin statistik: Perbedaan antara revisi
Konten dihapus Konten ditambahkan
Badak Jawa (bicara | kontrib) Membuat artikel terjemahan dari Wikipedia Inggris Tag: Suntingan perangkat seluler Suntingan peramban seluler Suntingan seluler lanjutan pranala ke halaman disambiguasi |
Add 1 book for Wikipedia:Pemastian (20240809)) #IABot (v2.0.9.5) (GreenC bot |
||
(3 revisi perantara oleh 2 pengguna tidak ditampilkan) | |||
Baris 5:
==Basis==
Ide di balik penerjemahan mesin statistik berasal dari [[teori informasi]]. Sebuah dokumen diterjemahkan menurut [[sebaran probabilitas]] <math>p(e|f)</math> bahwa string <math>e</math> dalam bahasa target (misalnya, [[bahasa Inggris]]) adalah terjemahan dari sebuah string <math>f</math> dalam bahasa sumber (misalnya, [[Prancis]]).
Masalah pemodelan sebaran probabilitas <math>p(e|f)</math> telah didekati dengan beberapa cara. Salah satu pendekatan yang cocok untuk implementasi komputer adalah dengan menerapkan [[Teorema Bayes]], yaitu <math>p(e|f) \propto p(f|e) p(e)</math>, di mana model terjemahannya <math>p(f|e)</math> adalah probabilitas bahwa string sumber adalah terjemahan dari string target, dan [[model bahasa]] <math>p(e)</math> adalah probabilitas untuk melihat string bahasa target tersebut. Dekomposisi ini menarik karena membagi masalah menjadi dua submasalah. Menemukan terjemahan terbaik <math>\tilde{e}</math> dilakukan dengan mengambil salah satu yang memberikan probabilitas tertinggi:
Baris 37:
=== Penyelarasan kalimat ===
Dalam korpora paralel, kalimat tunggal dalam satu bahasa dapat ditemukan diterjemahkan ke dalam beberapa kalimat dalam bahasa lain dan begitu sebaliknya.<ref name="WilliamsSennrich2016">{{cite book|author1=Philip Williams|author2=Rico Sennrich|author3=Matt Post|author4=Philipp Koehn|title=Syntax-based Statistical Machine Translation|url=https://books.google.com/books?id=bd3dDAAAQBAJ&q=%22parallel+%28text%7Ccorpus%29%22|date=1 August 2016|publisher=Morgan & Claypool Publishers|isbn=978-1-62705-502-4}}</ref> Kalimat yang panjang dapat dipecah, kalimat yang pendek dapat digabungkan. Bahkan ada beberapa bahasa yang menggunakan sistem penulisan tanpa indikasi yang jelas tentang akhir kalimat (misalnya, [[Bahasa Thai|bahasa Thailand]]). Penyelarasan kalimat dapat dilakukan melalui [[algoritma penyelarasan Gale-Church]]. Melalui ini dan model matematika lainnya, pencarian dan pengambilan yang efisien dari perataan kalimat dengan nilai tertinggi dapat dilakukan.
=== Penyelarasan kata===
Penyelarasan kalimat biasanya disediakan oleh korpus atau diperoleh dengan [[algoritma penjajaran Gale-Church]]. Namun, untuk mempelajari model penerjemahan, kita perlu mengetahui kata-kata mana yang sejajar dalam pasangan kalimat sumber-target. [[Penyelasan model IBM|IBM-Models]] atau [[Penjajaran kata Bitext#HMM|pendekatan HMM]] adalah upaya untuk memecahkan tantangan ini.
Kata-kata fungsi yang tidak memiliki padanan yang jelas dalam bahasa target merupakan tantangan lain bagi model statistik. Misalnya, saat menerjemahkan dari bahasa Inggris ke bahasa Jerman, kalimat "John does not live here," kata "does" tidak memiliki keselarasan yang jelas dalam kalimat yang diterjemahkan "John wohnt hier nicht." Melalui penalaran logis, hal ini dapat diselaraskan dengan kata-kata "wohnt" (seperti dalam bahasa Inggris, ini berisi informasi tata bahasa untuk kata "live") atau "nicht" (karena hanya muncul dalam kalimat karena dinegasikan) atau mungkin tidak selaras. <ref name=":0">{{Cite book|title=Statistical Machine Translation|url=https://archive.org/details/statisticalmachi0000koeh|last=Koehn|first=Philipp|publisher=Cambridge University Press|year=2010|isbn=978-0-521-87415-1}}</ref>
=== Anomali statistik ===
Baris 68:
==Pranala luar==
* [http://www-nlp.stanford.edu/links/statnlp.html Annotated list of statistical natural language processing resources] — Termasuk tautan ke perangkat lunak penerjemahan mesin statistik yang tersedia secara gratis
[[Kategori:Mesin penerjemah]]
[[Kategori:Pemrosesan bahasa alami statistik]]
|