Berita teknis terkini dari komunitas teknis Wikimedia.

Tech News: 2023-29

Kubernetes

Dengan menggunakan Kubernetes, pengelolaan banyak server sekaligus dapat dilakukan secara lebih otomatis dan lebih mudah. Sejak bulan Desember 2022, tim developer Wikimedia sedang bereksperimen untuk melakukan migrasi dari pengelolaan server secara manual ke pengelolaan server berbasis Kubernetes.

Proses migrasi ini merupakan pekerjaan yang cukup besar, karena berkaitan erat dengan operasional keseluruhan server yang digunakan oleh Wikimedia. Oleh karena itu, prosesnya dilakukan secara bertahap dan hati-hati. Dua tahap pertama telah berhasil dilaksanakan, yaitu mengalihkan 0.5% dan 1% traffic global Wikimedia ke Kubernetes. Proses migrasi dilakukan secara bertahap seperti ini karena sistem kubernetes yang baru dibuat kemungkinan besar masih belum stabil. Andaikan kubernetes baru ini rusak, maka hanya 0.5 - 1% traffic yang terkena dampaknya. Perbaikan dapat dilakukan tanpa menganggu mayoritas operasional harian server Wikimedia.

Jika uji coba kedua tahap ini berjalan lancar, proses migrasi akan dilanjutkan naik ke 5% dan 10%.

Tech News: 2023-28

Blocked External Domains

 
Special BlockedExternalDomains admin view

Fitur baru untuk memblokir link eksternal tertentu di Wikipedia telah dirilis. Detil fitur ini bisa dibaca di Phabricator dan halaman dokumentasi di Mediawiki.org

Special:LinkSearch

Kini, fitur Special:LinkSearch sudah dapat mencari keseluruhan URL. Sebelumnya, karena ada sebuah bug, fitur ini hanya bisa mencari 60 karakter pertama dari URL yang dimasukkan sebagai kata kunci.

Global AbuseFilter

Global AbuseFilter telah diaktifkan secara global, kecuali Wikipedia Bahasa Inggris dan Wikipedia Bahasa Jepang. Fitur ini bertujuan untuk melawan para LTA yang biasa melakukan cross-wiki vandalism.

ChatGPT Plugin

Tim Wikimedia sedang mengembangkan Wikipedia ChatGPT Plugin. Plugin ini kini sedang memasuki tahap beta-testing.


Tech News: 2023-27


Fitur baru : Tag untuk menampilkan audio player contoh cara pengucapan. Namun, fitur ini baru tersedia di grup "small wiki" saja (lihat daftar wiki yang termasuk di sini).

Salah satu Wiki Indonesia yang termasuk pada small wiki adalah Wikiquotes. Mari kita coba di sana.

Template :

<phonos ipa="nʲihóɴ" file="Ja-nihon(日本).ogg" />

Lihat hasilnya di sini

MediaWiki 1.41/wmf.16

MediaWiki 1.41/wmf.16 akan segera diinstall di seluruh Wiki pada tanggal 6 Juli 2023

Tech News: 2023-26

Setiap link eksternal yang ada di Wikipedia disimpan di dalam database terpusat. Akibatnya, ukuran database ini terus membesar, hingga berpotensi membebani keseluruhan server Wikipedia.

Solusi yang mereka usulkan adalah memecah database link menjadi dua, yaitu database domain dan database path.

Sebagai contoh, database yang awalnya seperti ini :

DB_LINK_EKSTERNAL : 
1 : a.com/b
2 : a.com/d
3 : a.com/e
4 : b.com/f
5 : b.com/g

Akan dipecah menjadi seperti ini :

DB_DOMAIN_EKSTERNAL : 
1 : a.com/
2 : b.com/

DB_PATH_EKSTERNAL : 
1 : 1 : b
2 : 1 : d
3 : 1 : e
4 : 2 : f
5 : 2 : g

Pemecahan ini dapat menghemat cukup banyak disk-space, karena string domain yang sama tidak perlu disimpan berulang-ulang di dalam database.

Efek samping dari perubahan ini adalah : setiap URL domain di Wikipedia harus ditambahkan "/" di bagian ujungnya, agar mudah digabungkan dengan URL pathnya. Jadi, misalkan ada orang yang menambahkan url abc.com, server Wikipedia harus mengubahnya menjadi abc.com/.

Itulah inti permasalahan dari berita Tech News : 2023-26 yang pertama  :



Search was broken on Commons and Wikidata for 23 hours

Elasticsearch merupakan software untuk memproses pencarian teks. Wikipedia (dan berbagai sister-project lainnya di Wikimedia) menggunakan Elasticsearch untuk menyediakan fitur pencarian.

Agar pencarian teksnya lebih optimal, Elasticsearch membuat modul "analyzer" untuk setiap bahasa. Sebagai contoh, ada analyzer khusus untuk Bahasa Inggris, dan ada juga analyzer untuk Bahasa Indonesia.


Wikibase (sebuah platform software dibalik Wikidata dan Wikimedia Commons) mempunyai karakteristik yang sangat unik. Berbeda dengan MediaWiki yang hanya mendukung satu bahasa untuk setiap situs, Wikibase memiliki fitur multibahasa. Akibatnya, sebuah instalasi Wikibase bisa membutuhkan banyak sekali analyzer Elasticsearch. Sedemikian banyak sehingga membebani seisi servernya.


Tim Developer Wikimedia akhirnya memutuskan untuk menghapus analyzer-analyzer itu untuk mengurangi beban pada server Wikidata + Commons. Namun sayangnya, penghapusan paksa terhadap analyzer-analyzer ini mengakibatkan kerusakan parah pada fitur pencarian di Wikidata dan Commons.


Ada kode program yang masih membutuhkan analyzer tersebut agar bisa tetap berfungsi. Karena analyzernya sudah terlanjur dihapus, kode program itu menyebabkan kerusakan pada seluruh fitur pencarian.

All shards failed for phase: [query]
[Unknown analyzer [text_search]]; nested: IllegalArgumentException[Unknown analyzer [text_search]];
Caused by: java.lang.IllegalArgumentException: Unknown analyzer [text_search]

Untuk menyelesaikan masalah ini, mereka memutuskan untuk memutus hubungan kode program tersebut dengan analyzer yang sudah dihapus.[2]

Dari yang awalnya seperti ini (EntityFullTextQueryBuilder.php) :

$tokCount = new TokenCountRouter($query_text,new MatchNone(),null,'text_search');

Menjadi seperti ini :

$tokCount = new TokenCountRouter($query_text,new MatchNone(),"text");

Dari yang awalnya seperti ini (phraseRescore.expected) :

"token_count_router" : { "analyzer" : "text_search" }

Menjadi seperti ini :

"token_count_router" : { "field" : "text" }

Terlihat bahwa analyzer "text_search" telah dihapus dari kode program.

Kronologi kejadian

Jumat, 16 Juni :

  • 21:40 Proses re-indexing dimulai

Sabtu, 17 Juni :

  • 11:30 Fitur pencarian di Wikidata dan Wikimedia Commons rusak
  • 22:07 Snowmanonahoe melaporkan kerusakan ini kepada tim developer melalui Phabricator

Minggu, 18 Juni :

  • 05:39 Legoktm mengirim chat di channel IRC #mediawiki_security, "fitur pencarian di Wikidata dan Commons rusak?"
  • 06:37 Hashar tidak sengaja melihat pesan itu di IRC, langsung melakukan investigasi
  • 07:00 Hashar menghubungi anggota The Search Team (tim di Wikimedia yang bertugas untuk menyediakan fitur pencarian) di Eropa : Gehel dan dcausse
  • 08:00 Dcausse berpendapat bahwa pembatalan proses re-indexing tidak dapat dilakukan, karena proses re-indexing ulang membutuhkan waktu yang sangat lama. Perlu dicari alternatif solusi lain
  • 08:15 Alternatif solusi lain ditemukan : memutus hubungan ke analyzer yang sudah dihapus
  • 09:20 Hashar dan Dcausse mengadakan panggilan video untuk bekerjasama menyelesaikan masalah ini
  • 09:29 Alternatif solusi sedang diujicoba di server mwdebug1001.
  • 10:02 Kerusakan fitur pencarian akhirnya berhasil diperbaiki.

Parsoid



Parsoid adalah software (baru) yang digunakan oleh Wikimedia untuk mengonversi wikitext menjadi dokumen HTML yang bisa dibuka oleh browser. Sebelumnya, Wikimedia menggunakan "Mediawiki Native Parser" untuk mengonversi wikitext.

Mereka sedang merencanakan untuk mengganti Native Parser (yang lama) dengan Parsoid (yang baru).

Efek sampingnya, banyak site-CSS, userscripts dan gagdets -- yang menggunakan aturan Native Parser lama -- bisa rusak, karena penggantian komponen software ini.

Oleh karena itu, tim Wikimedia Content Transform menyarankan Anda untuk memodifikasi site-CSS / userscript / gagdet agar mengikuti aturan Parsoid yang baru.

MediaWiki 1.41/wmf.15

Sejak 29 Juni 2023, seluruh wiki di Wikimedia telah diupgrade ke MediaWiki 1.41/wmf.15.

2023 - 18

  • Ekspor video dari URL ke Wikimedia Commons dengan tool video2commons

2023

Maintenance pada Modul Graph


2022

Referensi

  1. ^ https://meta.wikimedia.org/w/index.php?title=Talk:Wikimedia_Foundation_Annual_Plan/2023-2024/Draft/Future_Audiences&diff=prev&oldid=25224045
  2. ^ https://gerrit.wikimedia.org/r/c/mediawiki/extensions/WikibaseCirrusSearch/+/930930/