OpenAI запускает партнерскую инициативу, направленную на создание обучающих наборов данных для ИИ

10.11.2023

Компания OpenAI объявила о новой инициативе OpenAI Data Partnerships, в рамках которой она будет собирать записи от других организаций, чтобы создать наборы данных для обучения искусственного интеллекта.

Качество обучающих файлов напрямую влияет на надежность нейронной сети, для построения которой они используются. Чем более релевантен набор данных, тем точнее нейронная сеть может отвечать на вопросы пользователей. Создание высококачественного набора данных часто является трудоемким и дорогостоящим процессом, что, вероятно, является одной из причин, по которой OpenAI обращается за помощью к внешним организациям.

Одной из целей новой партнерской инициативы компании является сбор частных наборов данных, которые могут быть использованы для обучения ее базовых моделей ИИ. Кроме того, OpenAI будет использовать записи для настройки моделей. На прошлой неделе на мероприятии DevDay компания представила программу, которая позволяет предприятиям настраивать GPT-4 под свои требования путем «изменения каждого этапа процесса обучения модели».

Еще одной целью инициативы является создание набора данных искусственного интеллекта с открытым исходным кодом, который будет бесплатным для разработчиков. База данных будет специально ориентирована на проекты языковых моделей. Компания также может рассмотреть возможность использования файлов из репозитория для создания и публикации моделей ИИ с открытым исходным кодом.

OpenAI уже предлагает коллекцию нейронных сетей с открытым исходным кодом. Два новейших дополнения к линейке, Whisper large-v3 и Consistency Decoder, были представлены на мероприятии DevDay на прошлой неделе. Они сосредоточены на задачах транскрипции и генерации изображений соответственно.

«Мы заинтересованы в крупномасштабных наборах данных, которые отражают человеческое общество и которые сегодня еще не доступны онлайн для широкой публики», —написал OpenAI в своем блоге. «Мы особенно ищем данные, которые выражают человеческие намерения (например, длинные письменные тексты или разговоры, а не отдельные фрагменты), на любом языке, теме и в любом формате».

OpenAI заинтересована в получении разных типов обучающих данных, включая текст, изображения, аудио и видео. Это говорит о том, что компания планирует использовать предоставленные партнерами файлы для обучения не только языковых моделей, но и других типов нейронных сетей, таких как генераторы изображений. OpenAI примет обучающие наборы данных, даже если они содержат ошибки или хранятся в таком формате, который трудно обработать.

«Мы можем работать с данными практически в любой форме и можем использовать нашу собственную технологию искусственного интеллекта следующего поколения, чтобы помочь вам оцифровать и структурировать ваши данные», - заявили в OpenAI.

Источник: