Компании, занимающиеся искусственным интеллектом, исчерпали данные для обучения своих моделей и “исчерпали” сумму человеческих знаний, сказал Илон Маск.
Как пишет The Guardian, самый богатый человек в мире предположил, что технологическим фирмам придется обратиться к “синтетическим” данным – или материалам, созданным с помощью моделей искусственного интеллекта, – для создания и тонкой настройки новых систем, что уже происходит в условиях быстро развивающейся технологии.
“Совокупный объем человеческих знаний был исчерпан при обучении ИИ. В основном это произошло в прошлом году”, - сказал Маск в интервью, которое транслировалось в прямом эфире на его платформе социальных сетей X.
Модели искусственного интеллекта, такие как модель GPT-4o, управляющая чат–ботом ChatGPT, “обучаются” на огромном массиве данных, взятых из Интернета, где они, по сути, учатся распознавать закономерности в этой информации, что позволяет им предсказывать, например, следующее слово в предложении.
Маск сказал, что “единственный способ” преодолеть нехватку исходного материала для обучения новых моделей - это перейти к синтетическим данным, созданным с помощью искусственного интеллекта.
Ссылаясь на исчерпанность источников данных, он сказал: “Единственный способ дополнить их - это использовать синтетические данные, на которых ... можно написать эссе или дипломную работу, а затем оценить себя и... пройти этот процесс самообучения”.
Признанная экстремистской и запрещенная в России компания Meta, владелец соцсетей Facebook и Instagram, использовала синтетические данные для точной настройки своей крупнейшей модели искусственного интеллекта Llama, в то время как Microsoft также использовала контент, созданный с помощью искусственного интеллекта, для своей модели Phi-4. Google и OpenAI, компания, стоящая за ChatGPT, также использовали синтетические данные в своей работе с искусственным интеллектом.
Однако Маск также предупредил, что привычка моделей искусственного интеллекта генерировать “галлюцинации” – термин, обозначающий неточные или бессмысленные выходные данные, – представляет опасность для процесса синтеза данных.
В интервью Марку Пенну, главе рекламной группы Stagwell, которое транслировалось в прямом эфире, он рассказал, что галлюцинации сделали процесс использования искусственного материала “сложным”, потому что “как вы узнаете, является ли это галлюцинацией или реальным ответом”.
Высококачественные данные и контроль над ними - одно из законных полей битвы в условиях бума искусственного интеллекта. В прошлом году OpenAI признала, что было бы невозможно создавать такие инструменты, как ChatGPT, без доступа к материалам, защищенным авторским правом, в то время как креативные индустрии и издатели требуют компенсации за использование их результатов в процессе обучения моделей.