Фото австралийских детей оказались в наборах данных для обучения ИИ без согласия родителей 📸🤖
Исследование Human Rights Watch (HRW) показало, что фотографии австралийских детей были использованы для обучения нескольких инструментов генерации изображений ИИ без согласия детей или их родителей. Анализ менее 0,0001% из 5,85 миллиардов изображений набора данных Laion-5B, который используют такие сервисы, как Stable Diffusion и Midjourney, выявил 190 фото австралийских детей, собранных из открытых источников в интернете.
Laion-5B создавался путём автоматического сбора изображений с веб-сайтов. Хотя организация не хранит сами фотографии, она содержит ссылки на оригинальные изображения и сопутствующий текст. HRW отметила, что на некоторых фото можно было легко идентифицировать детей, включая имена, даты и места съёмки. Например, одна фотография показывала двух мальчиков на фоне яркого мурала с указанием их имён, возраста и детского сада.
Исследователь HRW Хе Джун Хан пояснила, что фото берутся с сайтов обмена изображениями, школьных страниц и видеохостингов. «Эти материалы обычно не индексируются Google и не предназначены для публичного доступа, — говорит она. — Люди делятся ими с родителями и детьми, а не для широкой аудитории».
Среди фото также обнаружены изображения детей коренных народов Австралии, некоторые из которых были сделаны более десяти лет назад. Это вызывает вопросы о защите данных недавно умерших людей и использовании их изображений в обучении ИИ.
Организация Laion заявила, что данные о детях поступали только из общедоступных разделов интернета, и после обращения HRW все приватные данные были удалены из набора. Однако сама фотография остаётся в интернете, и другие компании могут использовать её для создания своих закрытых наборов данных.
HRW предупреждает о потенциальном вреде для двух групп детей: тех, чьи фото попали в набор, и тех, кто может стать объектом использования вредоносных ИИ-инструментов, например, приложений для создания дипфейков. Хан отметила, что многие бесплатные приложения для изменения изображений создаются на базе Laion-5B и могут использоваться во вред детям.
В июне федеральное правительство Австралии приняло законопроект о запрете создания и распространения дипфейк-порнографии, но HRW утверждает, что это не решает основную проблему: персональные данные детей остаются незащищёнными. Организация предлагает внести изменения в Privacy Act, чтобы запретить сбор данных детей для обучения ИИ и недобровольное цифровое воспроизведение их изображений.
По словам Хан, это важный шаг для защиты детей от потенциального злоупотребления технологиями, и законодательство должно закреплять такие меры на практике.