Искусственный интеллект достиг предела: компании переходят на «синтетические» данные 🤖📚
Элон Маск заявил, что современные компании, разрабатывающие искусственный интеллект, почти исчерпали доступные данные для обучения моделей. По его словам, сумма человеческих знаний, используемая для тренировки систем ИИ, уже «выработана», и теперь технологические фирмы вынуждены прибегать к синтетическим данным — материалам, созданным самими ИИ-моделями.
«Суммарные знания человечества для обучения ИИ исчерпаны. Это произошло, по сути, в прошлом году», — отметил Маск, основавший собственную компанию xAI в 2023 году.
Современные модели, такие как GPT-4o, обучаются на огромных массивах информации из интернета, анализируя шаблоны и закономерности. С их помощью ИИ предсказывает слова в предложениях и выполняет другие интеллектуальные задачи.
В интервью Маск подчеркнул, что единственный способ компенсировать недостаток исходных данных — использование синтетического материала, который «сам пишет эссе, выдвигает гипотезу, проверяет себя и проходит процесс самообучения».
Крупные технологические компании уже применяют такой подход: синтетические данные использовались для доработки крупных моделей ИИ, включая Phi-4 и другие. Однако Маск предупредил о рисках, связанных с «галлюцинациями» моделей — ошибочными или бессмысленными ответами, которые могут снижать качество синтетических данных.
Эксперты отмечают, что чрезмерное использование синтетического материала может привести к снижению точности и креативности моделей. По словам Эндрю Данкана из Alan Turing Institute, подобная практика чревата «коллапсом модели», когда результаты её работы теряют качество. Кроме того, растущее количество контента, созданного ИИ, может оказаться включённым в будущие обучающие наборы данных, создавая замкнутый круг.
Контроль за качественными данными остаётся ключевым элементом развития ИИ, и доступ к ним — предмет активных обсуждений в научном и технологическом сообществе. Синтетические данные открывают новые возможности, но требуют аккуратного подхода, чтобы сохранить точность и разнообразие искусственного интеллекта.