Wikipedia:Unduh basis data: Perbedaan antara revisi
Konten dihapus Konten ditambahkan
Tag: Suntingan perangkat seluler Suntingan peramban seluler Suntingan seluler lanjutan |
|||
(11 revisi perantara oleh 8 pengguna tidak ditampilkan) | |||
Baris 1:
{{pintas|
:''Artikel ini adalah tentang cara mengunduh Wikipedia untuk digunakan secara luring''
'''Wikipedia bahasa Indonesia versi offline''' adalah [[Wikipedia bahasa Indonesia]] yang dapat digunakan pada saat komputer tidak terhubung dengan jaringan [[Internet]]. Wikipedia menyediakan seluruh isi basis data untuk pengguna yang berminat. Ini dapat digunakan untuk ''mirroring'', penggunaan pribadi, cadangan (''backup''), atau kueri basis data (misalnya untuk [[Wikipedia:pemeliharaan|pemeliharaan]]). Semua isi teks dilisensikan di bawah [[Lisensi Dokumentasi Bebas GNU]] (GDFL). Gambar dan berkas lainnya tersedia dengan lisensi lain, seperti yang dijelaskan pada masing-masing halaman deskripsi berkasnya. Untuk petunjuk untuk menyesuaikan dengan lisensi mereka, lihat [[Wikipedia:Hak cipta]].
== Tempat pengunduhan ==
{{pintas|WP:DUMP<br>[[WP:DUMPS]]}}
* Untuk semua proyek Yayasan Wikimedia:
* Perangkat lunak ''front-end'' untuk Wiki: [[Wikipedia:MediaWiki]].
* Perangkat lunak ''back-end' untuk basis data: Unduh [[MySQL]].
* Unduhan berisi Gambar: Lihat bagian dibawah.
=== Wikipedia bahasa Indonesia ===
''Dump'' basis data Wikipedia bahasa Indonesia dilakukan secara rutin dan berkala oleh Wikimedia Foundation kira-kira setiap 10-20 hari, dan dapat diakses di {{URL|http://download.wikimedia.org/idwiki/}}. Folder <code>latest</code> berisi berkas-berkas hasil ''dump'' terbaru, sedangkan folder-folder lain adalah hasil ''dump'' pada tanggal yang lampau. Setiap berkas terkompresi pada folder-folder ini hanya berisi data teks, berkas-berkas gambar disimpan ditempat yang berbeda (lihat bagian dibawah). Setiap nama berkas menandakan jenis konten yang disimpan :
;<code>idwiki-pages-articles.xml.bz2</code>
:Kemungkinan besar ini berkas yang Anda butuhkan. Berkas ini hanya berisi revisi terkini, tanpa halaman pembicaraan maupun halaman pengguna. Data templat dan deskripsi gambar pada artikel-artikel juga disimpan dalam berkas ini. Ukuran berkas terkompresi ini sekitar 800MB.
;<code>pages-meta-current.xml.bz2</code>
: Hanya revisi terkini dari semua halaman (termasuk halaman pembicaraan) termasuk kategori-kategorinya. Ukuran berkas ini sekitar 1GB.
;<code>pages-meta-history.xml.bz2</code>
: Semua revisi, dari semua halaman.
;<code>all-titles-in-ns0.gz</code>
: Hanya judul halaman (termasuk halaman pengalihan)
Berkas SQL untuk halaman dan pranala juga tersedia.
=== Bahasa dan proyek yang lain ===
Direktori {{URL|//dumps.wikimedia.org/}} juga menyimpan ''dump'' SQL dan XML terbaru untuk proyek-proyek lain selain bahasa Indonesia. Setiap sub-direktori dinamai sesuai [[Daftar_kode_ISO_639-1|kode bahasa]] dan nama proyeknya. Sebagai contoh, ''dump'' untuk Wikipedia bahasa Inggris dapat diakses di {{URL|http://download.wikimedia.org/enwiki/}}. Berkas-berkas ''dump'' ini juga tersedia di [[iarchive:wikimediadownloads|Internet Archive]]. Berikut adalah beberapa bahasa dan proyek lain yang mungkin Anda inginkan:
* Wiktionary bahasa Indonesia: {{URL|dumps.wikimedia.org/idwiktionary/latest/}}
* Wikisource bahasa Indonesia: {{URL|dumps.wikimedia.org/idwikisource/latest/}}
* Wikiquote bahasa Indonesia: {{URL|dumps.wikimedia.org/idwikiquote/latest/}}
* Wikipedia bahasa Jawa: {{URL|dumps.wikimedia.org/jvwiki/latest/}}
* Wikipedia bahasa Melayu: {{URL|dumps.wikimedia.org/mswiki/latest/}}
* Wikipedia bahasa Sunda: {{URL|dumps.wikimedia.org/suwiki/latest/}}
* Wikipedia bahasa Jawa Banyumasan: {{URL|dumps.wikimedia.org/map_bmswiki/latest/}}
* Wikipedia bahasa Aceh: {{URL|dumps.wikimedia.org/acewiki/latest/}}
* Wikipedia bahasa Banjar: {{URL|dumps.wikimedia.org/bjnwiki/latest/}}
* Wikipedia bahasa Bugis: {{URL|dumps.wikimedia.org/bugwiki/latest/}}
* Wikipedia bahasa Betawi: {{URL|dumps.wikimedia.org/bewwiki/latest/}}
=== ''Multistream'' ===
Jika memungkinkan, Anda sebaiknya menggunakan versi ''multistream'' dari berkas. Sebagai contoh, gunakan <code>pages-articles-multistream.xml.bz2</code> ketimbang <code>pages-articles.xml.bz2</code>. Kedua berkas memiliki konten XML yang sama, sehingga Anda mendapatkan data yang sama ketika meng-''unpack''-nya. Tetapi, berkas ''multistream'' memungkinkan Anda mendapatkan artikel dari arsip tanpa perlu meng-''unpack'' seluruh berkas. Pembaca (''reader'') yang Anda gunakan seharusnya mengurus hal ini, dan jika pembaca anda tidak mendukung ''multistream'', Anda masih dapat menggunakannnya karena keduanya mengandung XML yang sama. Satu-satunya kekurangan ''multistream'' adalah ukuran berkasnya yang jauh lebih besar. Anda mungkin berpikir untuk mengunduh berkas non-''multistream'' yang berukuran kecil, namun berkas ini tidak dapat digunakan jika Anda tidak meng-''unpack''-nya (dan hasil ''unpack'' umumnya berkisar 5-10 kali lebih besar daripada ukuran awal).
Perhatikan bahwa berkas ''dump multistream'' mengandung beberapa 'stream' <code>bz2</code> (''header'', ''body'', dan ''footer'') yang digabung menjadi satu berkas. Setiap 'stream' (atau sebenarnya juga berupa berkas) mengandung 100 halaman, kecuali mungkin untuk stream terakhir. Hal ini berbeda dengan berkas non-''multistream'' hanya yang mengandung satu 'stream' berisi data semua halaman.
Untuk memroses ''multistream'', Anda dapat menggunakan berkas indeks <code>pages-articles-multistream-index.txt.bz2</code>. ''Field'' data pertama indeks ini adalah banyaknya bita yang perlu dilewati di arsip <code>pages-articles-multistream.xml.bz2</code>, ''field'' kedua adalah ID artikel, dan ketiga adalah judul artikel. Untuk memprosesnya secara manual, Anda dapat memotong berkas arsip menggunakan <code>dd</code> dan data ''offset'' bita yang didapatkan dari berkas indeks. Selanjutnya anda dapat men-''decompress''-nya atau menggunakan <code>bzip2recover</code>, dan mencari berkas yang dihasilkan berdasarkan ID artikel. Lihat informasi [https://docs.python.org/3/library/bz2.html#bz2.BZ2Decompressor ''bz2.BZ2Decompressor''] untuk cara men-''decompress'' menggunakan [[Python (bahasa pemrograman)|Python]].
== Lokasi berkas-berkas yang diunggah (gambar, audio, video, dll.) ==
Gambar dan jenis media-media lain tersedia di ''mirror'' dan disediakan langsung dari server Wikimedia. Pengunduhan secara massal (''bulk download'') hanya dapat dilakukan di ''mirror''; server Wikimedia tidak melayani proses ini. Lihat [[m:Mirroring Wikimedia project XML dumps#Media|daftar ''mirror'' saat ini]]. Anda sebaiknya melakukan [[Rsync|rsync]] dengan ''mirror'', lalu mengunduh gambar-gambar yang hilang di {{URL|upload.wikimedia.org}}. Ketika mengunduh dari ''upload.wikimedia.org'', sebaiknya Anda men-''throttle'' proses ke ''1 cache miss'' per detik (lihat ''header'' pada respons yang Anda terima untuk mengetahui apakah Anda mendapatkan ''hit'' atau ''miss''), dan tidak menggunakan lebih dari satu koneksi HTTP secara bersamaan. Pastikan Anda memiliki ''user-agent'' yang akurat dan berisi data surel, sehingga admin dapat mengontak Anda jika terjadi kendala. Anda akan mendapatkan ''checksums'' dari API Mediawiki dan memverifikasi mereka. Halaman [[mw:API:Etiquette|Etika API]] berisi beberapa pedoman melakukan proses ini, walaupun tidak semuanya berlaku (sebagai contoh, karena ''upload.wikimedia.org'' bukan Mediawiki, tidak ada parameter <code>maxlag</code>).
Tidak seperti sebagian besar teks artikel, gambar tidak diharuskan memiliki lisensi GFDL dan CC-BY-SA-3.0. Mereka dapat dilisensikan dibawah salah satu dari banyaknya [[Wikipedia:Tag_hak_cipta_berkas/Lisensi_bebas|lisensi bebas]], berada di [[Wikipedia:Domain_publik|domain publik]], memiliki [[Wikipedia:Tag_hak_cipta_berkas/Nonbebas|syarat penggunaan]], atau bahkan merupakan pelanggaran hak cipta (dan seharusnya dihapus). Secara khusus, penggunaan gambar yang bersyarat, diluar konteks Wikipedia atau sejenisnya mungkin bersifat ilegal. Pada sebagian besar lisensi, gambar yang ditampilkan/dimiliki perlu disertai dengan atribusi dan mungkin informasi hak cipta lainnya. Informasi-informasi ini tersedia di halaman deskripsi gambar, yang tersedia sebagai ''dump'' teks di {{URL|dumps.wikimedia.org/}}. Kesimpulannya, unduh gambar-gambar ini dengan risiko yang Anda tanggung sendiri (lihat {{URL|dumps.wikimedia.org/legal.html}})
== Berurusan dengan berkas terkompresi ==
Berkas ''dump'' yang terkompresi (''compressed'') akan memerlukan ''banyak'' memori ketika didekompresi (''decompressed''). Berikut adalah beberapa program yang dapat digunakan untuk mendekompresi berkas bzip2 ([[bz2_(format_berkas)|.bz2]]), [[ZIP_(format_berkas)|.zip]], dan [[7-Zip|.7z]].
* [[Microsoft Windows|Windows]]:
** [[7-Zip]] (tersedia dibawah lisensi [[GNU Lesser General Public License|LGPL]])
** [[WinRAR]]
** [[WinZip]].
* [[Macintosh]] (Mac):
** [[OS X]] menyediakan program ''command-line'' <code>bzip2</code>.
* GNU/[[Linux]]
** Sebagian besar distribusi GNU/Linux menyediakan program ''command-line'' <code>bzip2</code>
* [[Berkeley Software Distribution]] (BSD)
** Beberapa sistem BSD menyediakan program ''command-line'' <code>bzip2</code> sebagai bagian dari sistem operasi. Beberapa sistem yang lain, seperti [[OpenBSD]], menyediakannya sebagai ''package'' yang perlu dipasang (''installed'') terlebih dahulu.
Sebagai catatan,
# Beberapa program <code>bzip2</code> usang mungkin tidak dapat memroses berkas dengan ukuran lebih dari 2 GB, sebaiknya Anda memastikan memiliki versi terbaru jika terjadi kesalahan.
# Beberapa arsip lama dikompresi menggunakan [[gzip]], yang kompatibel dengan PKZIP (format yang umum dipakai di Windows).
== Cara penggunaan ==
Cara paling mudah adalah dengan mengunduh perangkat lunak [[MediaWiki]] di [http://www.mediawiki.org/wiki/Download sini], menginstalnya di server Anda, lalu mengekstrak xml tersebut ke situs MediaWiki Anda dengan menggunakan [[:mw:Manual:MWDumper|MWDumper]]. Untuk langkah yang lebih sederhana, namun membutuhkan tempat yang lebih besar dan waktu yang lebih lama dalam proses pengunduhan, Anda dapat melihat [[#Kiwix]] di bawah.
:''Lihat pula [[:mw:Manual:Importing XML dumps]]'' di situs MediaWiki.org
# Gambarnya tidak muncul
#: Memang tidak ikut diunduh, karena jumlahnya yang besar
# Referensi tidak tertampil dengan benar
#: Silakan download ekstensi-ekstensi tambahan. Daftarnya dapat dilihat di [[Istimewa:Versi]]. Ekstensi yang paling diperlukan adalah [[:mw:Extension:ParserFunctions]] dan [[:mw:Extension:Cite]].
# Interwiki tidak jalan
#: Download dan tambahkan http://dumps.wikimedia.org/idwiki/latest/idwiki-latest-iwlinks.sql.gz ke database. Sekaligus download dan tambahkan http://dumps.wikimedia.org/idwiki/latest/idwiki-latest-pagelinks.sql.gz ke database.
== Kiwix ==
{{pintas|
Cara yang kedua adalah menggunakan [[Kiwix]]. Sejak April 2012, Wikipedia bahasa Indonesia versi Kiwix telah tersedia melalui situs web [http://www.kiwix.org/wiki/Main_Page/id www.kiwix.org].
Baris 85 ⟶ 93:
=== Pengunduhan Kiwix ===
[[Berkas:Kiwix showing Wikipedia article in Bahasa Indonesia.png|
Anda hanya perlu mengunduh dua berkas:
* Software Kiwix: http://www.kiwix.org/
* File ZIM Wikipedia bahasa Indonesia:
** Edisi pertama dirilis pada 15 April 2012 ([[UTC]]) dengan kapasitas 2,18 GB yang terdiri dari 236.666 artikel dengan media berjumlah 145.875. Berkas ZIM dengan konten Wikipedia bahasa Indonesia yang
** Edisi kedua dirilis pada 28 Agustus 2013 dengan kapasitas 2,08 GB (UTC) yang terdiri dari 215.531 artikel dengan media berjumlah 161.284. Berkas ZIM dengan konten Wikipedia bahasa Indonesia yang
** Edisi ketiga
*** Langsung: http://download.kiwix.org/zim/wikipedia_id_all.zim
*** BitTorrent: http://download.kiwix.org/zim/wikipedia_id_all.zim.torrent
=== Cara penggunaan Kiwix ===
Baris 135 ⟶ 139:
== Aard Dictionary ==
{{pintas|
Cara yang ketiga adalah menggunakan [[Aard Dictionary]]. Wikipedia bahasa Indonesia (9 Juni 2011) versi Aard Dictionary telah tersedia melalui situs web [http://aarddict.org/d/idwiki/ http://aarddict.org/].
Baris 148 ⟶ 152:
Setelah penginstalan Aard Dictionary selesai, jalankan program Aard Dictionary lalu klik "Dictionary" -> "Add Dictionaries", lalu buka berkas AAR yang sudah diunduh. Anda dapat langsung menggunakan Aard Dictionary.
=== Fitur-fitur Aard Dictionary
* Format berkas kecil
* Pencarian entri yang cepat
Baris 194 ⟶ 198:
[[Kategori:Wikipedia Indonesia]]
[[Kategori:Bantuan Wikipedia|Wikipedia]]
|