Маск заявил об «исчерпании» всех человеческих знаний для обучения искусственного интеллекта

«Единственный способ – перейти к синтетическим данным, созданным с помощью ИИ»

Илон Маск говорит, что все человеческие данные для обучения ИИ "исчерпаны". Миллиардер предлагает перейти к самообучающимся синтетическим данным, созданным с помощью моделей искусственного интеллекта.

«Единственный способ –  перейти к синтетическим данным, созданным с помощью ИИ»
Фото: Jen Golbeck/Keystone Press Agency/Global Look Press

Компании, занимающиеся искусственным интеллектом, исчерпали данные для обучения своих моделей и “исчерпали” сумму человеческих знаний, сказал Илон Маск.

Как пишет The Guardian, самый богатый человек в мире предположил, что технологическим фирмам придется обратиться к “синтетическим” данным – или материалам, созданным с помощью моделей искусственного интеллекта, – для создания и тонкой настройки новых систем, что уже происходит в условиях быстро развивающейся технологии.

“Совокупный объем человеческих знаний был исчерпан при обучении ИИ. В основном это произошло в прошлом году”, - сказал Маск в интервью, которое транслировалось в прямом эфире на его платформе социальных сетей X.

Модели искусственного интеллекта, такие как модель GPT-4o, управляющая чат–ботом ChatGPT, “обучаются” на огромном массиве данных, взятых из Интернета, где они, по сути, учатся распознавать закономерности в этой информации, что позволяет им предсказывать, например, следующее слово в предложении.

Маск сказал, что “единственный способ” преодолеть нехватку исходного материала для обучения новых моделей - это перейти к синтетическим данным, созданным с помощью искусственного интеллекта.

Ссылаясь на исчерпанность источников данных, он сказал: “Единственный способ дополнить их - это использовать синтетические данные, на которых ... можно написать эссе или дипломную работу, а затем оценить себя и... пройти этот процесс самообучения”.

Признанная экстремистской и запрещенная в России компания Meta, владелец соцсетей Facebook и Instagram, использовала синтетические данные для точной настройки своей крупнейшей модели искусственного интеллекта Llama, в то время как Microsoft также использовала контент, созданный с помощью искусственного интеллекта, для своей модели Phi-4. Google и OpenAI, компания, стоящая за ChatGPT, также использовали синтетические данные в своей работе с искусственным интеллектом.

Однако Маск также предупредил, что привычка моделей искусственного интеллекта генерировать “галлюцинации” – термин, обозначающий неточные или бессмысленные выходные данные, – представляет опасность для процесса синтеза данных.

В интервью Марку Пенну, главе рекламной группы Stagwell, которое транслировалось в прямом эфире, он рассказал, что галлюцинации сделали процесс использования искусственного материала “сложным”, потому что “как вы узнаете, является ли это галлюцинацией или реальным ответом”.

Высококачественные данные и контроль над ними - одно из законных полей битвы в условиях бума искусственного интеллекта. В прошлом году OpenAI признала, что было бы невозможно создавать такие инструменты, как ChatGPT, без доступа к материалам, защищенным авторским правом, в то время как креативные индустрии и издатели требуют компенсации за использование их результатов в процессе обучения моделей.

Что еще почитать

В регионах

Новости

Самое читаемое

Реклама

Автовзгляд

Womanhit

Охотники.ру