Deduplikasi data

Deduplikasi adalah menghilangkan informasi duplikat atau berlebihan dalam kumpulan data. Dengan kata lain, deduplikasi adalah proses memastikan bahwa hanya ada satu salinan data dalam kumpulan atau blok data tertentu. Proses ini meningkatkan kapasitas penyimpanan dan mengoptimalkan redundansi tanpa mengorbankan fidelitas atau integritas data. Deduplikasi data melibatkan penghapusan salinan duplikat data untuk mengoptimalkan sumber daya penyimpanan dan meningkatkan kinerja aplikasi yang dapat melakukan tugas pada kumpulan data yang lebih kecil. Dengan menghilangkan informasi yang berlebihan, sistem akan mengosongkan ruang penyimpanan dan mengurangi ukuran kumpulan data.

Cara Kerja

Deduplikasi melibatkan analisis data untuk mengidentifikasi blok data unik sebelum menyimpannya. Jika duplikat dari masing-masing blok data ditemukan, pola tambahan akan dihapus dan diganti dengan referensi ke data unik yang disimpan.

Cara kerja deduplikasi data dalam server terbagi menjadi dua prinsip.

Pengoptimalan tidak boleh menghalangi penulisan ke disk. Deduplikasi data mengoptimalkan data menggunakan model pasca-pemrosesan. Semua data ditulis ke disk secara tidak optimal dan kemudian dioptimalkan dengan duplikasi data.
Pengoptimalan tidak boleh mengubah semantik akses Pengguna dan aplikasi yang mengakses data dari volume yang dioptimalkan sama sekali tidak menyadari bahwa file yang mereka akses diduplikasi.^[1]

Misalnya, administrator mengirimkan 500 salinan file 1 MB (Megabyte) yang sama ke seluruh tim. Jika semua kotak masuk menggunakan sistem cadangan data, maka 500 salinan akan disimpan, yang akan memakan 500 MB ruang server. Namun, jika data tingkat sistem diduplikasi, hanya satu salinan laporan yang akan disimpan. Setiap instance lainnya hanya mengacu pada satu instance yang disimpan. Artinya bandwidth akhir server dan beban penyimpanan hanya 1 MB data unik.^[2]

Manfaat

Aplikasi dan data yang dihasilkan merupakan kekuatan analisis bisnis dan faktor penentu keberhasilan pertumbuhan. Manfaat pengelolaan pertumbuhan data dan deduplikasi tidak terbatas pada sistem penyimpanan, namun meluas ke seluruh infrastruktur TI dan kinerja aplikasi. Deduplikasi dan kompresi mengurangi jejak penyimpanan, sehingga mengurangi biaya penyimpanan, mengurangi beban jaringan, dan mengurangi batasan bandwidth. Hal ini juga meningkatkan kinerja aplikasi pada titik akhir, membantu pekerja jarak jauh menjadi lebih produktif.^[2]

Deduplikasi data jaringan in-line digunakan untuk mengurangi jumlah byte yang perlu ditransfer antar titik akhir, sehingga mengurangi bandwidth yang diperlukan. Deduplikasi sumber (juga dikenal sebagai deduplikasi sisi sumber atau deduplikasi sisi klien), yang mengidentifikasi redundansi pada sumber sebelum mengirimkannya melalui jaringan, dapat menghemat biaya penyimpanan dan bandwidth jaringan. Sebab, segmen data redundan diidentifikasi terlebih dahulu sebelum dikirim.^[3]

Deduplikasi sumber berfungsi baik dengan penyimpanan cloud dan dapat meningkatkan kecepatan pencadangan. Deduplikasi menyederhanakan proses pencadangan dan pemulihan dengan mengurangi jumlah permintaan dan bandwidth jaringan untuk proses pencadangan data. Untuk memutuskan kapan akan menggunakan deduplikasi, pertimbangkan apakah organisasi Anda dapat memperoleh manfaat dari peningkatan ini.

Referensi

^ wmgries (2023-08-25). "Memahami Deduplikasi Data". learn.microsoft.com. Diakses tanggal 2024-02-15.
^ ^a ^b "Data deduplication". Metallic (dalam bahasa Inggris). Diakses tanggal 2024-02-15.
^ Alif, Kurnia. "Deduplikasi Data: Arti, Contoh, Manfaat, dan Penggunaannya". Griyasis. Diakses tanggal 2024-02-15.

[1] wmgries (2023-08-25). "Memahami Deduplikasi Data". learn.microsoft.com. Diakses tanggal 2024-02-15.

[:0-2] "Data deduplication". Metallic (dalam bahasa Inggris). Diakses tanggal 2024-02-15.

[3] Alif, Kurnia. "Deduplikasi Data: Arti, Contoh, Manfaat, dan Penggunaannya". Griyasis. Diakses tanggal 2024-02-15.

[1]

[2]

[3]