Российские пропагандистские материалы заполонили Wikimedia Commons, влияя на обучение ИИ

Польский эксперт предупреждает, что контент российских государственных СМИ заполонил Wikimedia Commons, открытый мультимедийный репозиторий, который служит

основным источником для обучения моделей искусственного интеллекта. Большие объемы российских пропагандистских материалов, включая контент об аннексии Крыма, загружаются в Wikimedia Commons, что, по словам одного эксперта, является преднамеренной попыткой повлиять на то, как системы искусственного интеллекта понимают мир. Марцин Жабинский, президент Института социально-политических технологий «Кибернет» и член консультативного совета министра иностранных дел по вопросам устойчивости к дезинформации, заявил Польскому информационному агентству (PAP), что эта тенденция носит преднамеренный характер.

«Википедия и Викимедиа Коммонс являются одними из важнейших источников для обучения ИИ и для того, чтобы ИИ мог запрашивать знания о реальном мире», — сказал он. Поиск в репозитории на английском языке по запросу «аннексия Крыма» иллюстрирует проблему: из 51 результата более 40 получены с официального сайта Президента Российской Федерации или с российского государственного телеканала «Независимое телевидение Севастополя». Среди материалов — видеозаписи митингов в поддержку аннексии и изображения с церемонии подписания договора о включении Крыма в состав России, а также заявления Путина о политике в отношении Крыма.

Собственные данные Фонда Викимедиа подтверждают опасения по поводу сбора информации ИИ. По данным фонда, пропускная способность, используемая для загрузки мультимедийного контента с Викимедиа Коммонс, увеличилась на 50 процентов с 2024 года, и это произошло не из-за читателей или медиа-организаций, а из-за «автоматизированных программ, которые сканируют каталог изображений с открытой лицензией Викимедиа Коммонс и загружают изображения в модели ИИ».

Жабинский также указал на риск, связанный с метаданными и описаниями изображений, прикрепленными к загружаемым файлам. «Гораздо более интересным фрагментом метаинформации является краткое описание того, что изображено на фотографии. И это уже очень большое пространство для злоупотреблений, поскольку это может повлиять на то, как получатель или языковая модель интерпретируют файл», — сказал он.

Он также предупредил, что изображения могут содержать скрытые инструкции, полученные с помощью стеганографии — методов, невидимых человеческому глазу, но читаемых моделями ИИ, — которые могут изменить то, как модель анализирует контент или реагирует на него. Польское отделение движения Wikimedia, Wikimedia Polska, предложило иную интерпретацию ситуации. Основываясь на предоставленных примерах и консультациях с активными волонтерами, ассоциация заявила, что не видит «оснований говорить о задокументированном, скоординированном вмешательстве России в Wikimedia Commons».

Она объяснила большой объем материалов российского происхождения лицензированием: часть контента российского президентского сайта опубликована под лицензией Creative Commons Attribution 4.0 International, что делает его доступным для загрузки при условии, что он также соответствует критериям образовательной полезности. Волонтер, упомянутый ассоциацией, отметил, что репозиторий загружает внешние материалы, доступные по приемлемым свободным лицензиям, и что это не подразумевает одобрения нарративов исходной организации.

Жабинский признал, что проблема остается плохо изученной. Он предупредил, что, если поиск на Wikimedia Commons будет постоянно занижать масштабы страданий Украины, выдвигая на первый план геополитическую подоплеку, это приведет к обесцениванию человеческих жертв конфликта. «Между тем, масштабы деятельности российских организаций в репозитории Wikimedia будут только усиливаться, достигая подавляющих размеров», — сказал он (фото-Wikimedia Commons contributors/wikimedia).

Бизнес