Поиском плохих статей в «Википедии» займется машина с искусственным интеллектом

Global Look Press

Интернет-энциклопедия «Википедия» начнет использовать алгоритм, способный оценивать качество статей и вносимых правок и в случае чего оповещать редакторов онлайн-энциклопедии о необходимости вмешательства. Об этом сообщается в официальном блоге Wikimedia Foundation.

Сервис под названием ORES (Objective Revision Evaluation Service) при помощи методов машинного обучения на примере одобряемых редакторами правок научился оперативно выявлять случаи некорректных правок, вандализма или удаления страниц. Система поддерживает анализ статей на 14 языках, причем на обработку одной правки ORES тратит от 50 до 100 миллисекунд — итоговое время зависит от того, проверял ли алгоритм эту статью ранее, передает N+1.
В фонде Wikimedia называют ORES искусственным интеллектом.

По словам представителей Wikimedia Foundation, подобная технология сильно облегчит работу редакторов «Википедии», поскольку в энциклопедии ежедневно требуется проверить около полумиллиона правок. Ранее редакторы уже использовали различные механизмы защиты страниц от вандализма. Например, в англоязычной «Википедии» использовались инструменты Huggle и STiki. По словам разработчиков, сейчас они будут работать над расширением поддерживаемых ORES языков.

Как добавляет TJ, представители Wikimedia опубликовали два примера правки, анализом которых занимался ORES. В первом случае алгоритм с вероятностью 91,63% назвал внесенное пользователем изменение вредным: в нем полезную ссылку заменили на бессмысленное предложение. Во втором случае ORES с вероятностью 86,83% предсказал, что правка вредной не является. В ней редактор указал правильную ссылку на статью про спектакль «Старуха» режиссера Роберта Уилсона.

На основе анализа правок ORES умеет выставлять оценку качества статьям в целом при помощи уже существовавшей ранее в «Википедии» модели анализа с использованием машинного обучения. По данным Wikimedia на 31 января 2015 года, в англоязычном разделе энциклопедии было более 4,6 миллиона статей, оценку которым проставили вручную (эти данные использовали для машинного обучения алгоритма). Из них только около 33 тысяч имели качество выше уровня «хорошая статья».