Wikidata, la base de dades col·laborativa per a màquines i humans
TEXT: Àlex Hinojo
Heu sentit a parlar mai de Wikidata? Segurament no. Potser primer pensareu en Viquipèdia, i no aneu mal encaminats. Wikidata també és un projecte de la Fundació Wikimedia, que gestiona la Viquipèdia i d’altres projectes germans.
Però què és Wikidata? És una base de dades estructurades feta de manera col·laborativa i que pot ser llegida, editada i reutilitzada tant per humans com per màquines. De fet, és un dels grans projectes mundials on col·laboren de manera equitativa humans i màquines. A novembre de 2020, Wikidata tenia més de 50 milions de registres. Conté diversos tipus de dades (text, imatges, quantitats, coordenades, dades biogràfiques, de publicacions científiques, formes geogràfiques, dates…). Les dades es poden consultar mitjançant una interfície de consulta multilingüe, o mitjançant queries, consultes informàtiques directament a la base de dades. Tot el contingut del projecte es publica sota la llicència Creative Commons Public Domain 1.0, de manera que es pot modificar, copiar, reutilitzar i distribuir sense ni tan sols demanar permís. En l’àmbit tècnic, fa servir SPARQL, a diferència de les antigues bases de dades relacionals com SQL, els elements o ítems no formen part de cap taula, sinó que mantenen relacions entre ells, com una xarxa. Això permet generar una ontologia de continguts molt més dinàmica.
Wikidata és una base de dades estructurades feta de manera col·laborativa i que pot ser llegida, editada i reutilitzada tant per humans com per màquines.
Els darrers anys, aquest tipus de recursos han esdevingut fonamentals per a l’estratègia de gestió de la informació de molts projectes i organitzacions. El 2007, Google va llençar el projecte Freebase amb el mateix objectiu. Wikidata no naixeria fins al 2012, però a causa de l’èxit de Wikidata, Google va decidir el 2014 oferir el contingut de Freebase a la comunitat de Wikidata i tancar el projecte el 2016. Un altre projecte similar seria dbpedia, que també recull informació estructurada.
Bona part de l’èxit de Wikidata es deu a la seva capacitat d’actualització, duta a terme per milers de voluntaris d’arreu del món, que editen manualment o mitjançant càrregues massives, via bots. Amb els seus 8 anys de vida, el projecte s’ha convertit en un dels principals repositoris de dades obertes a escala mundial, i un referent en el sector. La fan servir grans empreses com Google, Facebook, Amazon, Apple per facilitar les seves cerques i per dotar del contingut els seus assistents de veu. Quan li pregunteu una cosa a Siri, sovint una bona part de la informació de la resposta prové de Wikidata. També la fan servir moltes institucions culturals com museus, biblioteques, arxius, seguint els principis i el potencial del linked open data cultural (LODLAM), enllaçar dades culturals i patrimonials per facilitar la divulgació dels mateixos fons i promoure’n la recerca.
Les dades per si soles no són coneixement. Són informació.
Tot i això, el projecte Wikidata està lluny de ser perfecte. Té grans reptes al davant, com són mantenir una ontologia epistemològica clara i reduir els biaixos en buits informatius. Hi ha parts del planeta molt més documentades que d’altres, grups socials molt més representats que d’altres, o temàtiques socials poc documentades.
D’altra banda, un altre repte de Wikidata és com retornar contingut enriquit a les organitzacions que el generen. Per exemple, un museu carrega informació sobre una peça a Wikidata, la resta de la comunitat millora i enriqueix el contingut, de vegades fins i tot corregeix alguna informació facilitada pel museu. Com pot el museu enriquir la seva base de dades d’origen? Com ho fa quan, en comptes d’una, té 10.000 ítems carregats a Wikidata? Enriquir les fonts d’origen i vincular informació actualitzada de fonts oficials (meteorologia, resultats electorals, estadístiques, informació pública) és un dels grans reptes del projecte.
Un altre risc del projecte és el de malinterpretar la simplificació de la informació. Cal recordar que les dades per si soles no són coneixement. Són informació. Amb l’aparició d’una nova ecologia molt densa de dades a l’abast de tothom correm el risc d’intentar simplificar excessivament el món: simplement descrivint-lo, encara que sigui de manera molt detallada, no tenim per què entendre’l. Sabent que David Hume va néixer el 1711, va morir el 1776 i que era empirista no entenem ni a Hume ni l’empirisme. És per això que continuem necessitant eines que ens ajudin a contextualitzar la informació, a tenir un criteri propi, a generar coneixement basant-nos en aquesta informació, i que fomentin una societat amb un fort esperit crític.
Wikidata és una eina més que ens permet participar i incidir de manera directa en el nostre ecosistema informatiu, tant per fiscalitzar institucions i governs com per difondre la nostra llengua i cultura. I la comunitat catalanoparlant hi participa de manera molt activa. Tenim feina. Som-hi!