Facebook AI Research, Google DeepMind, Вашингтонский (UW) и Нью-Йоркский (NYU) университеты представили SuperGLUE — комплекс тестовых задач на понимание языка, разработанный ими для оценки современных высокопроизводительных моделей ИИ.
SuperGLUE создавали, исходя из предпосылки, что модели глубокого обучения для диалогового ИИ «достигли потолка» и требуют постановки перед ними более серьёзных задач. За базовый уровень при оценке производительности авторы приняли модель BERT компании Google. В прошлом году BERT считалась одной из лучших по продуктивности, но с тех пор её обошли такие модели, как Microsoft MT-DNN, Google XLNet и Facebook RoBERTa. Многие из них частично основаны на BERT и обеспечивают производительность выше среднечеловеческого уровня.
В апреле 2018 года команда исследователей из NYU, UW и DeepMind подготовила эталонный тест General Language Understanding Evaluation (GLUE). По сравнению с ним SuperGLUE нацелен на более сложные задачи и должен стать стимулом к построению моделей, способных к пониманию неординарных языковых нюансов.
GLUE присуждает модели числовой балл, отражающий сводную производительность по девяти задачам понимания английского предложения для систем Natural Language Understanding (NLU), таких как Stanford Sentiment Treebank (SST-2), служащая для эмоциональной оценки онлайн-обзоров фильмов. RoBERTa сейчас возглавляет рейтинг GLUE, демонстрируя лучшую продуктивность на 4 из 9 задачах этого теста.
Новый пакет включает в себя восемь задач на способность системы ИИ следить за логикой рассуждений, распознавать причину и следствие, отвечать на вопросы «да» или «нет» после прочтения короткого отрывка. Кроме того, SuperGLUE содержит Winogender, инструмент для выявления гендерного предубеждения.
Список лидеров рейтинга SuperGLUE будет размещен на сайте super.gluebenchmark.com. Подробности о SuperGLUE можно прочитать в статье, опубликованной в мае на сервере arXiv и пересмотренной в июле.
Параллельно, NYU объявил о выпуске обновлённого инструментария Jiant в помощь разработчикам ИИ-моделей для понимания текстов общей тематики. Jiant базируется на PyTorch и настроен для работы с реализациями HuggingFace PyTorch моделей BERT и GPT от OpenAI, а также с тестами GLUE и SuperGLUE.
0 комментариев
Добавить комментарий