Soundex: Perbedaan antara revisi

Konten dihapus Konten ditambahkan
Guspan Tanadi (bicara | kontrib)
subbagian Algoritme
k →‎Algoritme: clean up
 
(31 revisi perantara oleh 4 pengguna tidak ditampilkan)
Baris 1:
{{Infobox
'''Soundex''' atau '''Russell Soundex'''<ref name="FamilySearch"/> ialah sistem penyandian berbasis [[fonetik]],<ref name="Lexico"/> diterapkan dalam [[sistem temu balik informasi|pengambilan informasi]] terhadap kesalahan [[transkripsi (linguistik)|transkripsi]] secara [[ortografi]], tetapi serupa secara fonetik.<ref name="TSD2012"/> Soundex diketahui sebagai [[algoritma fonetik]] yang paling dikenal luas, [[terminologi|istilah]] yang acap dipakai sebagai [[sinonim]] atas "algoritma fonetik".<ref name="Definitions"/>
| title=Soundex
| datastyle=border-bottom:1px solid #cec
| label1=Istilah lain
| data1='''Russell Soundex'''
| label2=Pelopor
| data2=Robert C. Russell dan Margaret King Odell
| label3=Tahun paten pertama
| data3=[[1918]]
| label4=Bidang terkait
| data4=[[Algoritme fonetik]], [[Pencarian string samar]], [[Pemrosesan bahasa alami]]
}}
 
'''Soundex''' atau '''Russell Soundex'''<ref name="FamilySearch"/> ialah sistem penyandian berbasis [[fonetik|bunyi bahasa]],<ref name="Lexico"/> diterapkan dalam [[pemrosesan bahasa alami]] mencakup [[sistem temu balik informasi|pengambilan informasi]] terhadap kesalahan [[transkripsi (linguistik)|penulisan]] secara [[ortografi|ejaan]], tetapi serupa secara bunyi.<ref name="TSD2012"/> Menjadi [[algoritme]] pertama kepada memadankan [[string|susunan karakter]] berdasar bunyi.<ref name="DATA2016"/> Sebab itu, Soundex diketahui sebagai [[algoritme fonetik]] yang paling dikenal luas.<ref name="Definitions"/><ref name="AncestrySolutions"/>
Sebagian besar aplikasi yang menggunakan Soundex melibatkan akan pencarian nama [[pribadi|seseorang]] terutama [[marga|nama keluarga]],<ref name="Lexico"/> sebagai contoh pada pendataan [[sensus]] dan tugas tertentu yang terdapat [[kesalahan tipografi|kesalahan penulisan]] disebabkan kesamaan fonetik.<ref name="TSD2012"/> Pada banyak kasus, kala sistem [[pangkalan data]] memerlukan pencarian fonetik, Soundex masih sangat populer di antara berbagai vendor pangkalan data.<ref name="IGI"/> Soundex mencakup karakteristik standar pada [[basis data Oracle]]<ref name="OracleDocs"/>, [[MySQL]]<ref name="MySQLRM"/>, [[MariaDB]]<ref name="MDBKB"/>, [[Microsoft SQL Server]]<ref name="MsDocs"/>, [[IBM DB2]], [[Teradata]]<ref name="Teradata"/>, [[SAP HANA]]<ref name="SAPH"/>, pula pada [[bahasa pemrograman]] [[PHP]].<ref name="PHPManual"/>
 
Secara sebagian besar, Soundex banyak dihubungkan pada hal yang berurusan dengan pencarian [[nama]] [[individu]] terutama [[marga|nama keluarga]],<ref name="Lexico"/> sebagai contoh pada pendataan [[sensus]] dan tugas tertentu yang terdapat [[kesalahan tipografi|kesalahan penulisan]] disebabkan kesamaan bunyi.<ref name="TSD2012"/>
 
Penggunaan Soundex hingga kini masih terdapat pada [[Arsip Nasional Amerika Serikat]] terhadap penyelidikan atas tujuan sensus.<ref name="GiTMagazine"/> Pula dilestarikan dalam catatan historis yang menunjukkan [[penelitian dan pengembangan]] algoritme modern.<ref name="Techopedia"/>
 
== Sejarah ==
Soundex awal dikembangkan tahun 1900-an oleh Robert C. Russell dan Margaret King Odell.<ref name="Techopedia"/> Russell memperoleh [[paten]] pertama dipada tahun 1918,<ref name="SAA"/> sebelum [[komputer]] dikenal luas, kala itu Soundex menangani persoalan sensus [[sensus Amerika Serikat]] yaitu menemukan individu bersumber nama mereka.<ref name="IGI"/>
 
Sistem Soundex berguna terutama bagi mereka yang mencari [[leluhur]] di Amerika.<ref Diname="GiTMagazine"/> Pada tahun 1930-an, berbagai variasi Russell Soundex yang dikenal Soundex "Amerika" telah digunakan olehkepada beberapa [[Arsipfederal]] Nasionalrekam sensus Amerika Serikat]].<ref kepadaname="AncestrySolutions"/> menandaiDigunakan namapada keluarga atasseluruh sensus antara tahun 1880, 1900 dan 1920, sementara pada tahun 1910 hanya digunakan di beberapa [[Negara (pemerintahan)|wilayah]].<ref Pihakname="AncestrySolutions"/><ref name="GiTMagazine"/> Mereka yang mencari leluhur dalam rekam sensus perlu mengetahuifamilier dengan sistem penyandian Soundex.<ref name="GiTMagazine"/>
 
Dikembangkan berdasarkan [[pelafalan|pengucapan]] dalam [[bahasa Inggris]], pada tahun 1997, Soundex pula diperluas mengikuti [[tata bahasa]] dalam [[bahasa Indonesia]].<ref name="SEMNAS"/>
 
[[Periode|Semasa]] [[abad ke-20]], kode Soundex secara primer terdapat dalam referensi atas dokumen oleh federal dan [[Lembaga Negara]] [[Amerika Serikat]].<ref name="AncestrySolutions"/>
 
== Algoritme ==
Soundex bekerja dengan mengubah [[string|susunan karakter]] ke dalam kode bunyi atau fonetik yang konsisten sebanyak empat [[karakter (komputasi)|karakter]]. Meskipun stringsusunan karakter berbeda, tetapi memilikiterjadi [[homofon|pengucapan serupa]] maka akan menjadi kode fonetikbunyi yang sama.<ref name="SEMNAS"/> Sebagian besar sistem Soundex bergantung pada [[konsonan]], sementara tidak menyertakan [[vokal|huruf vokal]] pengecualian terletak di huruf pertama.<ref name="Definitions"/> Sebagai contoh, kata dengan eja[[ejaan]] bervariasi yang merepresentasi nama seperti Sherman, Sharman, Sirman akan diubah menjadi kode S-655.<ref name="GiTMagazine"/> Susunan karakter yang dapat diubah ke kode bunyi tidak wajib merepresentasi sebuah nama, contoh lain seperti kata 'laper' yang dapat diidentifikasi sebagai kata '[[kelaparan|lapar]]'.<ref name="SEMNAS"/>
 
Pencantuman kode bunyi atas algoritme Soundex pada Bahasa Indonesia telah mengalami pengembangan yaitu dengan aturan:<ref name="SEMNAS"/>
{| class="wikitable"
|-
! Huruf
! Kode
|-
| A, I ,U, E, O, H
| 0
|-
| F, V
| 1
|-
| S, X, Z
| 2
|-
| L
| 3
|-
| R
| 4
|-
| M, N
| 5
|-
| B, D, P, T
| 6
|-
| C, G, J, K, Q
| 7
|-
| W, Y
| 8
|}
 
Salah satu penerapan algoritme Soundex dapat melalui proses yakni:<ref name="TSD2012"/>
# Mengganti seluruh susunan karakter kecuali [[huruf]] pertama ke dalam kode bunyi
# Menghapus [[kode repetitif]] yang bersebelahan
# Menghilangkan semua kode 0 yang bertujuan meniadakan huruf vokal
# Mengembalikan empat karakter pertama dari susunan karakter yang dihasilkan
 
Kala kode bunyi tidak mencapai empat karakter, maka kode yang lain ialah 0.<ref name="SEMNAS"/>
 
Adaptasi berbeda terhadap Soundex dapat diterapkan bergantung pada [[linguistik|studi bahasa]].<ref name="TSD2012"/> Bila pada bahasa tertentu belum terdapat struktur secara bunyi bahasa pula dapat diusulkan kepada sistem.<ref name="DATA2016"/>
 
== Limitasi ==
Soundex dimulai atas rancangan pengucapan bahasa Inggris yang hanya mendukung 26 karakter huruf [[alfabet bahasa Indonesia|A ke Z]],<ref name="GiTMagazinepg4"/> akan tetapi dalam bahasa tertentu seperti pada bahasa Sindhi yang banyak melibatkan [[abjad Arab]] memerlukan pengembangan berlainan.<ref name="Sindhi"/>
 
Selain itu, string atau susunan karakter yang diperkirakan jauh dari kemiripan dapat menghasilkan kode Soundex yang sama, seperti 'Smith', 'Saint', 'Snead'.<ref name="GiTMagazinepg4"/>
 
Beberapa sistem penyandian, seperti algoritme [[Metaphone]] ialah pengembangan dari Soundex.<ref name="AncestrySolutions"/>
 
== Aplikasi ==
Penerapan yang sudah banyak dikenal atas Soundex ialah pada federal sensus Amerika Serikat.<ref name="FamilySearch"/> Lebih dari itu, penerapan paling umum terhadap sistem Soundex ialah pada aplikasi [[pemeriksa ejaan]] yang diterapkan pada bahasa Inggris dan sejumlah bahasa lain. Pada [[bahasa Sindhi]], diketahui satu faktor kesalahan ejaan paling banyak berlangsung pada kata dengan bunyi yang serupa.<ref name="Sindhi"/> Merupakan satu keuntungan dari penerapan Soundex.<ref name="GiTMagazine"/>
 
Awal kala [[telepon genggam|perangkat seluler]] mulai masif, diikuti pertumbuhan pemakaian layanan pesan [[layanan pesan singkat|SMS]] yang menimbulkan analisa terhadap pesan teks menjadi cukup penting. Soundex pula dapat meningkatkan pencarian antara teks SMS hubungan dengan [[kosakata]] standar pada bahasa Inggris maupun [[bahasa Spanyol]].<ref name="TSD2012"/>
 
Salah satu aplikasi pemeriksa ejaan melibatkan akan pencarian nama dalam [[pangkalan data]] dengan jumlah besar, sebagai contoh, dalam hal [[perusahaan telepon|operator telekomunikasi]] yang mewakili [[operator telepon]] dalam mendapati [[nomor telepon]] [[pelanggan]] berdasarkan atas perkiraan ejaan nama pelanggan.<ref name="GiTMagazine"/> Menjadi lumrah saat Soundex masih sangat populer di antara berbagai vendor pangkalan data,<ref name="IGI"/> antara lain mencakup karakteristik standar pada [[basis data Oracle|Oracle]], [[MySQL]], dsb.<ref name="DATA2016"/>
 
Implementasi pencarian akan Soundex terdapat pada [[situs web]] [[Ancestry.com|Ancestry]] atas pangkalan data [[genealogi|silsilah keluarga]] milik mereka dan beberapa program konversi ke kode Soundex, satu di antara yaitu [http://www.creativyst.com/Doc/Articles/SoundEx1/SoundEx1.htm#SoundExConverter SoundEx Converter Form] {{Webarchive|url=https://web.archive.org/web/20200613072701/http://www.creativyst.com/Doc/Articles/SoundEx1/SoundEx1.htm#SoundExConverter |date=2020-06-13 }}.<ref name="FamilySearch"/>
 
== Referensi ==
Baris 27 ⟶ 104:
| publisher=FamilySearch}}
</ref>
<ref name="Lexico">{{cite web
{{cite web
| title=Soundex
| type=Definisi
| publisher=Lexico Oxford Dictionary
| url=http://www.lexico.com/definition/soundex
| access-date=3 Juni 2020}}
| archive-date=2020-06-03
| archive-url=https://web.archive.org/web/20200603065726/https://www.lexico.com/definition/soundex
| dead-url=yes
}}</ref>
<ref name="DATA2016">
{{cite report
| title=Performance Evaluation of Phonetic Matching Algorithms on English Words and Street Names ''Comparison and Correlation''
| type=Prosiding [[Konferensi]] Internasional ke-5 pada Data Management Technologies and Applications (DATA 2016)
| last1=Koneru
| first1=K
| last2=Pulla
| first2=V
| last3=Varol
| first3=C
| publisher=SCITEPRESS Science and Technology Publications, Lda
| year=2016
| isbn=978-989-758-193-9}}
</ref>
<ref name="Definitions">
Baris 42 ⟶ 135:
url=http://www.definitions.net/definition/soundex
| access-date=3 Juni 2020}}
</ref>
<ref name="AncestrySolutions">
{{cite web
| title=History of Soundex and How to Code Yourself
| url=http://ancestrysolutions.com/referencecentre/calendars-calculators/soundex.html
| location=St. Catharines, [[Ontario]]
| publisher=Ancestry Solutions
| access-date=13 Juni 2020}}
</ref>
<ref name="TSD2012">
Baris 55 ⟶ 156:
| title=Text, Speech and Dialogue: 15th International Conference, TSD 2012, [[Brno]], [[Ceko|Republik Ceko]]
| date=September 2012
| publisher=Springer-Verlag Berlin Heidelberg
| isbn=3-6423-2790-7
| pages=[https://archive.org/details/textspeechdialog00sojk_220/page/n56 48]-49}}
| pages=48-49}}
</ref>
<ref name="SAA">
{{cite web
| title=SAA Dictionary: Soundex
| type=Kamus
| url=http://dictionary.archivists.org/entry/soundex.html
| publisher=Society of American Archivists
| access-date=9 Juni 2020}}
</ref>
<ref name="IGI">
Baris 68 ⟶ 177:
| publisher=Idea Group Inc (IGI)
| isbn=1-5990-4422-6}}
</ref>
<ref name="OracleDocs">
{{cite web
| title=SOUNDEX
| type=Database SQL Reference
| url=http://docs.oracle.com/cd/B19306_01/server.102/b14200/functions148.htm
| publisher=Oracle
| access-date=4 Juni 2020}}
</ref>
<ref name="MySQLRM">
{{cite web
| title=12.7 String Functions and Operators
| type=Documentation
| url=https://dev.mysql.com/doc/refman/8.0/en/string-functions.html#function_soundex
| publisher=Oracle Corporation
| access-date=4 Juni 2020}}
</ref>
<ref name="MsDocs">
{{cite web
| title=SOUNDEX (Transact-SQL)
| type=Documentation
| url=http://docs.microsoft.com/en-us/sql/t-sql/functions/soundex-transact-sql?view=sql-server-ver15
| publisher=Microsoft
| date=14 Maret 2017
| access-date=4 Juni 2020}}
</ref>
<ref name="PHPManual">
{{cite web
| title=PHP: soundex
| type=Manual
| url=http://www.php.net/manual/en/function.soundex.php
| publisher=The PHP Group
| access-date=4 Juni 2020}}
</ref>
<ref name="Teradata">
{{cite web
| title=Definition: Soundex
| type=Documentation
| url=http://docs.teradata.com/reader/756LNiPSFdY~4JcCCcR5Cw/kYJcuFDPusKCXjg2Z_01Sw
| publisher=Teradata
| access-date=7 Juni 2020}}
</ref>
<ref name="SAPH">
{{cite web
| title=SOUNDEX Function (String)
| type=SAP HANA SQL and System Views Reference
| url=http://help.sap.com/viewer/4fe29514fd584807ac9f2a04f6754767/2.0.02/en-US/3ca8ac5cb49d401993b5dfcca925c22f.html
| publisher=SAP HANA Platform
| access-date=4 Juni 2020
}}
</ref>
<ref name="MDBKB">
{{cite web
| title=SOUNDEX
| type=Knowledge Base
| url=http://mariadb.com/kb/en/soundex
| publisher=MariaDB
| access-date=4 Juni 2020}}
</ref>
<ref name="Techopedia">
Baris 142 ⟶ 193:
| type=Artikel
| url=http://www.genealogyintime.com/GenealogyResources/Articles/what_is_soundex_and_how_does_soundex_work_page1.html
| publisher=GenealogyInTime Magazine
| access-date=8 Juni 2020}}
</ref>
<ref name="GiTMagazinepg4">
{{cite web
| title=Limitations to Soundex Coding
| type=Artikel
| url=http://www.genealogyintime.com/GenealogyResources/Articles/what_is_soundex_and_how_does_soundex_work_page4.html
| publisher=GenealogyInTime Magazine
| access-date=20 Juni 2020}}
</ref>
<ref name="SEMNAS">
Baris 156 ⟶ 215:
| pages=854-860
| date=Oktober 2016}}
</ref>
<ref name="Sindhi">
{{cite journal
| title=Phonetic based SoundEx & ShapeEx algorithm for Sindhi Spell Checker System
| last1=Bhatti
| first1=Z
| last2=Waqas
| first2=A
| last3=Ali Ismaili
| first3=I
| last4=Hakro
| first4=DN
| last5=Soomro
| first5=WJ
| date=2014
| volume=8
| issue=4
| publisher=AENSI-AEB}}
</ref>