TRUEBench — новая методика оценки ИИ

Компания Samsung представила методику TRUEBench (Trustworthy Real‑world Usage Evaluation Benchmark) для объективной оценки продуктивности искусственного интеллекта. Этот инструмент позволяет измерить, насколько эффективно большие языковые модели (LLM) справляются с реальными рабочими задачами.

В отличие от существующих бенчмарков, которые зачастую ориентированы исключительно на английский язык и ограничены форматом «вопрос – ответ», TRUEBench моделирует подлинно рабочие ситуации. Методика учитывает не только точность ответа, но и соответствие скрытым ожиданиям пользователя, что делает оценку более реалистичной.

TRUEBench охватывает широкий спектр корпоративных задач — от генерации контента и анализа данных до суммаризации текстов и перевода. Всего в методике представлено 10 категорий и 46 подкатегорий типовых бизнес‑задач. Для тестирования используется 2 485 наборов данных, охватывающих 12 языков и включающих кросс‑лингвистические сценарии. Диапазон тестируемых запросов варьируется от коротких сообщений длиной в 8 символов до объёмных документов, содержащих более 20 000 символов.

Особая ценность методики заключается в подходе к формированию критериев оценки. В Samsung Research этот процесс организован как последовательное взаимодействие человека и ИИ. Сначала специалисты‑аннотаторы разрабатывают базовые параметры оценки. Затем искусственный интеллект анализирует их на наличие ошибок, противоречий и избыточных ограничений. После этого люди дорабатывают критерии с учётом замечаний ИИ. Итерации повторяются до достижения максимальной точности. На основе утверждённых критериев проводится автоматическая проверка LLM‑моделей, что обеспечивает надёжность результатов и минимизирует субъективность. При этом для успешного прохождения теста модель обязана выполнить все заданные условия, что делает оценку особенно детализированной.

Результаты тестирования и образцы данных TRUEBench размещены на глобальной open‑source платформе Hugging Face. Это позволяет пользователям сравнивать до пяти моделей одновременно, получая комплексное представление об их производительности. Дополнительно публикуются данные о средней длине ответов, что даёт возможность оценивать не только качество, но и эффективность работы моделей.

Вам может также понравиться...

Добавить комментарий