Facebook хочет сделать искусственный интеллект лучше, попросив людей сломать его




Facebook хочет сделать искусственный интеллект лучше, попросив людей сломать его - блог Guland

Взрывные успехи ИИ в последнее десятилетие или около того, как правило, списываются на большое количество данных и большие вычислительные мощности. Но бенчмарки также играют решающую роль в продвижении прогресса-тесты, которые исследователи могут противопоставить своему ИИ, чтобы увидеть, насколько он продвинут. Например, ImageNet, открытый набор данных из 14 миллионов изображений, устанавливает цель для распознавания изображений. MNIST сделал то же самое для распознавания рукописного текста и GLUE (General Language Understanding Evaluation) для обработки естественного языка, что привело к прорывным языковым моделям, таким как GPT-3.

Фиксированная цель вскоре настигается. ImageNet обновляется, и клей был заменен суперклеем, набором более сложных лингвистических задач. Тем не менее, рано или поздно исследователи сообщат, что их ИИ достиг сверхчеловеческого уровня, превзойдя людей в той или иной задаче. И это проблема, если мы хотим, чтобы контрольные показатели продолжали стимулировать прогресс.

Таким образом, Facebook выпускает новый вид теста, который настраивает АИС против людей, которые делают все возможное, чтобы сбить их с толку. Этот тест , называемый Dynabench, будет настолько сложным, насколько люди решат его сделать.



Бенчмарки могут быть очень обманчивыми, говорит Доуве Кила из Facebook AI Research, который возглавлял команду, стоящую за этим инструментом. Чрезмерное сосредоточение внимания на контрольных показателях может означать потерю из виду более широких целей. Тест может стать заданием.

«В конечном итоге вы получаете систему, которая лучше справляется с тестом, чем люди, но не лучше с общей задачей», — говорит он. «Это очень обманчиво, потому что выглядит так, будто мы намного дальше, чем есть на самом деле».

Кила считает, что сейчас это особая проблема НЛП. Языковая модель, подобная GPT-3, кажется разумной, потому что она так хорошо имитирует язык. Но трудно сказать, насколько эти системы действительно понимают.

Подумайте о том, чтобы попытаться измерить человеческий интеллект, говорит он. Вы можете дать людям тесты на IQ, но это не говорит вам, действительно ли они понимают предмет. Для этого вам нужно поговорить с ними, задать вопросы.

Dynabench делает нечто подобное, используя людей для опроса АИС. Выпущенный сегодня в интернете, он приглашает людей зайти на сайт и опросить модели, стоящие за ним. Например, вы можете дать языковой модели страницу Википедии, а затем задать ей вопросы, оценивая ее ответы.

В некотором смысле эта идея похожа на то, как люди уже играют с GPT-3, проверяя его пределы, или на то, как чат-боты оцениваются на приз Лебнера, конкурс, в котором боты пытаются пройти как люди. Но с помощью Dynabench сбои, которые обнаруживаются во время тестирования, автоматически возвращаются в будущие модели, делая их все время лучше.

На данный момент Dynabench сосредоточится на языковых моделях, потому что они являются одним из самых простых видов искусственного интеллекта для взаимодействия с людьми. «Все говорят на одном языке, — говорит Кила. «Вам не нужно никаких реальных знаний о том, как сломать эти модели.»

Но этот подход должен работать и для других типов нейронных сетей, таких как системы распознавания речи или изображений. Вам просто нужен способ, чтобы люди загружали свои собственные изображения — или заставляли их рисовать вещи, чтобы проверить это, говорит Кила: «долгосрочное видение этого заключается в том, чтобы открыть его, чтобы каждый мог раскрутить свою собственную модель и начать собирать свои собственные данные».

«Мы хотим убедить сообщество искусственного интеллекта, что есть лучший способ измерить прогресс», — добавляет он. «Надеюсь, это приведет к более быстрому прогрессу и лучшему пониманию того, почему модели машинного обучения все еще терпят неудачу».



Понравилась статья? Пожалуйста, оцените и поделитесь:

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд
Загрузка...

Вам также будет интересно


Добавьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *