«Викида́нные» (англ.Wikidata) — совместно редактируемаябаза знаний, созданная Фондом Викимедиа. Используется для обеспечения централизованного хранения данных, которые могут использоваться в других проектах, в том числе в статьях Википедии — например, интервики-ссылок, значков статусных статей и списков или статистической информации: дат рождения, численности населения и т. п.[2] Содержимое Викиданных распространяется по лицензии Creative Commons CC0[3].
Логическим развитием этой идеи стала семантическая паутина, предложенная им же в 2001 году.
Она предполагала построение столь же масштабной и распределённой сети взаимосвязанных машиночитаемых данных.
Одной из важных вех в реализации этой идеи стало анонсирование компанией Google в мае 2012 года концепции Knowledge Graph[4].
На тот момент уже существовали аналогичные (хоть и значительно менее масштабные) инструменты этого типа, такие как DBpedia и YAGO[англ.] (автоматически импортировавшие данные преимущественно из википедии), а также Freebase, NELL[англ.] и OpenCyc (преимущественно наполняемые людьми)[5].
В октябре 2012 года была официально запущена разработка «Викиданных» под руководством Wikimedia Deutschland[6], таким образом став первым новым проектом Фонда Викимедиа с 2006 года[7].
Первоочередной задачей было создание централизованного хранилища «интервики»-ссылок, то есть ссылок на страницы проектов Фонда, описывающих одни и те же темы.
Одна запись (элемент) Викиданных может быть связана с множеством страниц в любом вики-проекте, включая (но не ограничиваясь) всеми языковыми разделами Википедии.
Это позволяет «потребителям» Викиданных (например русской википедии), для каждой статьи отображать список аналогичных статей на других языках.[9]
Вместе с интервики-ссылками, у элементов Викиданных сразу появились и другие атрибуты (например, названия на поддерживаемых MediaWiki языках[10]).
Традиционно в вики-проектах, базовая информация по теме статьи размещалась в инфобоксах[англ.], поэтому целью следующего этапа было дать пользователям возможность сохранять в элементах структурированную информацию (например, «Луна → родительское тело → Земля» или «Эверест → высота над уровнем моря → 8848,86 метр») и отображать её в форме привычных читателю инфобоксов в связанных статьях[11].
В сентябре 2015 года появилась возможность делать запросы к викиданным на языке SPARQL. Wikidata Query Service был реализован на основе open-source версии Blazegraph.[12]
В 2016 году разработчики анонсировали поддержку орфографических структур данных, в 2018 появилась возможность создания лексем и словоформ, а затем и указания их значений с помощью привязки соответствующего по смыслу элемента викиданных.[13]
Также в 2019 году разработчики выпустили Wikibase[англ.] (движок Викиданных) в виде самостоятельного продукта.[15]
В 2021 году были анонсированы планы по запуску Wikibase.Cloud — SaaS в рамках которого пользователю предоставляются предварительно настроенные компоненты WBStack: собственно Wikibase, сервис SPARQL запросов, и т. п.
Проект
В основу проекта были положены следующие принципы:
Свободное редактирование
Множественность точек зрения (в том числе, конфликтующих)
Многоязычность
Эти принципы отличали викиданные от аналогичных проектов. Например, разработка МКБ-11 велась силами ограниченного набора специалистов, Freebase не поддерживал многоязычность своих сущностей, а Semantic MediaWiki затрудняло простановку ссылок на внешние источники.[16]
Сервис запросов
Технически контент викиданных хранится в виде JSON-blobов в MySQL, поэтому готового инструмента для выполнения хоть сколь-нибудь сложных запросов в системе не было. Рассмотрев различные варианты включающие разработку специализированного софта, применения готовых NoSQL-продуктов и графовых баз данных, было решено остановиться на последнем и внедрить Blazegraph. Данные из внутреннего json-представления элементов преобразуются в RDF и синхронизируются с внутренним хранилищем Blazegraph, доступным только для чтения. В качестве языка запросов используется SPARQL версии 1.1, с помощью синтаксической конструкции SERVICE можно обратиться как к специфичным для викиданных расширениям, так и запросить дополнительную информацию у некоторых сторонних источников. Таймаут на выполнение запросов составляет 60 секунд, если выполнение запрос не успевает завершится, он прерывается с ошибкой.[17]
Ключевым элементом сервиса является API, в который можно передать запрос и получить в требуемом формате таблицу с результатом. Для интерактивной работы существует веб-редактор запросов c подсветкой синтаксиса и автодополнением. Результаты выполнения запросов могут визуализироваться как в табличной форме, так и в виде карты, столбцовой диаграммы, галереи изображений и т. д.[17]
Контент-модель
Утверждения — это способ хранения любой информации об известном элементе. Формально, они состоят из пар ключ-значение, которые хранят соответствие свойства (например, «автор», или «дата публикации») с одним или несколькими значениями (например, «Артур Конан-Дойл» или «1902»). Например, неформальное утверждение «молоко — белое» (англ.milk is white) было бы закодировано с помощью утверждения, которое хранит пару. Это пара, состоящая из свойства P462 (цвет) — https://www.wikidata.org/wiki/Property:P462 со значением Q23444 (белый) https://www.wikidata.org/wiki/Q23444 в записи Q8495 (молоко) https://www.wikidata.org/wiki/Q8495.
Утверждения могут устанавливать отношение между свойством и более чем одним значением. Например, свойство «occupation» (род занятий) для Марии Кюри могло бы быть связано со значениями «физик» и «химик», чтобы отразить факт того, что она занималась и тем, и другим[18].
Значения могут быть разных типов, включая другие записи Викиданных, строки, числа или файлы с фото/видео. Свойства предписывают, с какими типами значений их можно связывать. Например, свойство «официальный сайт» может быть поставлено в соответствие только со значениями типа «URL»[19].
Также, свойства могут определять более сложные правила относительно их предполагаемого использования. Эти правила называются «ограничения» (англ.constraints). Например, свойство «столица» включает в себя «ограничение на единственное значение») (англ.single value constraint), отражающее тот факт, что у любой территории (как правило) есть только одна столица. Ограничения трактуются скорее как подсказки, чем как нерушимые правила[20].
При желании, для уточнения значения утверждения могут использоваться квалификаторы (англ.qualifiers). Они предоставляют дополнительную информацию в контексте данного утверждения. Например, свойство «население» может быть расширено квалификатором «по состоянию на 2011 год». Также утверждения могут снабжаться ссылками, указывающими на подтверждающий утверждение контент[21].
Сообщество
В августе 2019 года сообщество викиданных насчитывало порядка 20 тысяч зарегистрированных активных учетных записей.[22]. Исследователи обычно делят их на три группы: незарегистрированные пользователи, зарегистрированные люди и боты[23]. При этом граница между людьми и ботами достаточно условна в связи с массовым использованием инструментов типа QuickStatements, автоматизирующих выполнение рутинных правок без программирования[24].
Статистически, уравновешенный вклад и зарегистрированных участников-людей и ботов повышает качество данных в проекте, а вклад незарегистрированных участников (составляющий 0,5 % от всех правок[25]) — снижает.[26] Порядка 2 % вклада анонимных участников имеют признаки автоматизированных правок, выполненных с использованием средств автоматизации. Это может быть проблемой для проектов, использующих викиданные, поскольку даже если небольшая доля подобных правок является вандализмом, репутация викиданных как относительно надежного источника структурированной информации может быть надолго подорвана.[27]
Как правило, большую часть пользователи времени занимаются одним видом деятельности, относительно редко переключаясь на другие (например те, кто добавляет в элементы интервики-ссылки, редко заполняют метки/описания, и наоборот)[23]. С течением «вики-жизни» пользователей, предпочитаемый вид деятельности может меняться, обычно в сторону задач, требующих навыков инженерии знаний (например, не просто добавления тривиальных фактов, а выделение супер/суб-классов элементов)[28]. Для выполнения некоторых подобных онтологических задач (например, для создание свойств) требуются специальные права доступа и процесс их получения может рассматриваться в качестве «вики-карьеры»[23].
Боты
Ботами называются программы, которые автоматизируют повторяющиеся или рутинные задачи, которые люди считают трудоемкими и утомительными. Они управляются и контролируются волонтерами («ботовладельцами»)[22].
После нескольких случаев крайне неудачных действий ботов в OpenStreetMap и англоязычной википедии, в последней появился процесс предварительного обсуждения заявок на получение статуса бота и последующего её утверждения.
В викиданных существует аналогичный процесс, тем не менее, порядка 3 % правок, совершенных от имени «живых» участников, выполняется с применением автоматизации[27].
Сообщество викиданных положительно относится к ботам, выстроив продуктивный процесс взаимодействия в весьма короткий срок.[22]
В 2014 году более 80 % правок в викиданных совершались ботами,[23][25] что позволило ряду исследователей назвать этот проект «социотехнической системой»[29].
При этом, если в языковых разделах википедии боты преимущественно выполняют примитивные технические задачи, то в викиданных — в основном обновление содержательной информации.[22]
Около 50 % правок приходится на модификацию утверждений и ещё порядка 30 % — на изменение меток, описаний и альтернативных названия.[23]
Исследователи[30] идентифицируют три основные проблемы, связанные со значительным объемом бото-правок в викиданных:
Соотношение объема информации в викиданных (импортированных ботами) и числа участников-людей приводит к тому что Закон Линуса в этом проекте не работает.
Набор источников, используемых ботами, значительно уже нежели набор источников, используемых людьми.[31] Комбинация этого фактора и ещё более ограниченного числа ботовладельцев может быть серьезной угрозой для представления широкого спектра точек зрения в викиданных.
Огромный процент бото-правок в совокупности с многоязычностью членов сообщества может ограничивать участие существующих и приток новых пользователей в проект. Косвенным подтверждением этого тезиса является то, что на октябрь 2018 года лишь 10787 (из 45 миллионов) элементов викиданных имели страницы обсуждения.
Сообщества других вики-проектов
Почти сразу после того, как появилась техническая возможность отображать утверждения, сообщество крупнейшего раздела википедии обсуждало возможность показа служебного идентификатора IMDb. Решили что информация по прежнему будет показываться только из самой статьи, но в случае несовпадения идентификатора с тем, что есть в викиданных, она будет внесена в специальную служебную категорию для последующей выверки[32]. С тех пор пропоненты и оппоненты использования викиданных продолжают дискуссию[33]. В частности для удовлетворения требований последних по максимальной независимости их проектов от «внешних проектов», выработан принцип, который требует возможность переопределить значение любого элемента инфобокса внутри текста вики-статьи, подавив таким способом его отображение из викиданных[11].
↑Data Revolution for Wikipedia (неопр.). Wikimedia Deutschland (30 марта 2012). Дата обращения: 11 сентября 2012. Архивировано из оригинала 11 сентября 2012 года.