Исследование Nature: как госСМИ Китая влияют на обучение мировых ИИ

Новое исследование, опубликованное в авторитетном научном журнале Nature, проливает свет на механизмы формирования ответов современных чат-ботов на базе искусственного интеллекта. Ученые установили, что государственные медиаресурсы КНР, включая агентство Синьхуа и газету «Жэньминь Жибао», стали доминирующим источником данных в крупнейших открытых наборах для обучения языковых моделей. Это приводит к тому, что алгоритмы ИИ начинают транслировать официальную позицию Пекина, особенно при взаимодействии с пользователями на китайском языке.

Доминирование официального контента в датасетах

Ключевым объектом анализа стал открытый многоязычный набор данных CulturaX, который широко используется разработчиками по всему миру для тренировки нейросетей. Исследователи обнаружили значительный количественный перекос в источниках информации:

  • Объем контента от государственных СМИ и партийных приложений, таких как «Сюэси Цянго», превышает объем китайского сегмента Википедии в 41 раз.
  • Официальные материалы Китая глубоко интегрированы в обучающую выборку популярного чат-бота ChatGPT от OpenAI.
  • Преобладание государственного дискурса в цифровой среде создает условия, при которых алгоритмы отдают приоритет официально одобренным формулировкам.

Языковой барьер и идеологическая направленность

Анализ показал, что реакция ИИ-моделей на чувствительные темы существенно зависит от языка запроса и происхождения самой модели. В то время как англоязычные версии популярных чат-ботов демонстрируют более нейтральный или критический подход к освещению событий в Китае, их китайскоязычные аналоги зачастую выдают ответы, строго соответствующие линии правительства КНР.

Особое внимание в отчете уделено модели V4 Pro от DeepSeek. В отличие от западных аналогов, эта система сохраняет пропекинскую направленность независимо от языка, на котором общается пользователь. Исследователи отмечают, что это может быть следствием специфической фильтрации данных или целенаправленной настройки параметров весов модели на этапе дообучения.

Перспективы регулирования обучающих данных

Результаты исследования ставят перед технологическим сообществом важные вопросы о прозрачности источников данных и «информационной чистоте» обучающих выборок. Специалисты полагают, что в ближайшие годы разработчикам придется внедрять более строгие протоколы аудита контента, чтобы избежать непреднамеренного искажения фактов в ответах ИИ. Дальнейшее развитие отрасли, вероятно, будет направлено на создание механизмов депредвзятости, способных разделять фактическую информацию и риторику государственных медиа.

Материал соответствует редакционной политике Techimo Все публикации проходят проверку фактов и соответствуют стандартам независимой журналистики.
Подробнее

Techimo в Telegram

Самые свежие новости технологий, инсайды и обзоры гаджетов раньше, чем на сайте. Без спама.

Подписаться на канал