Независимость от реализации требует агента-оценщика, который читает код и выполняет тест-план

Связка 1

Начальное состояние: Агент-оценщик не мог оценивать реализацию приложения, если она изменялась (пользователь выбирает язык, фреймворк), поскольку тесты были привязаны к конкретной реализации
Преобразование: Создание агента-оценщика, который читает код, открывает браузер, направляет его на приложение и шаг за шагом выполняет тест-план на естественном языке, при этом не зная ничего о самом приложении
Конечное состояние: Оценщик стал полностью независим от реализации: он проверяет функциональность через браузер и тест-план, собирает неудачные шаги и генерирует оценку независимо от языка или фреймворка приложения

И это, как я уже говорил, было тем, на что мы потратили большую часть наших усилий. Оказалось, что когда мы работали над предыдущей версией агента, мы вложили много усилий в создание функции автоматического тестирования приложений, которая буквально ничего не знает о самом приложении. Потому что, если задуматься, когда речь идет о байт-кодинге, мы не даем пользователям никаких ограничений. Они могут сами выбирать язык, который хотят использовать. Мы можем выбрать другой фреймворк.

Поэтому оценщик должен быть полностью независим от того, как выглядит реализация. И наш агент-оценщик делает следующее: он читает код, затем открывает браузер и направляет его на приложение, которое построил наш агент, и затем шаг за шагом проходит по нашему плану тестирования. И даже план тестирования выражен на естественном языке. А действия выглядят так: откройте панель администратора, войдите с определенной учетной записью и нажмите на этот переключатель. И если какой-либо из этих шагов не удается, мы собираем их все вместе и генерируем оценку.

Таким образом, мы проходим все эти планы тестирования, а затем решаем, хороша ли оценка или нет. В этом и заключается ключевая сложность. Когда речь идет о Sweepbench, у нас всегда есть фиксированная поверхность. Мы знаем репозитории. Мы знаем тестовую среду. Мы точно знаем, как заставить это работать. В ByteBench поверхность полностью зеленая. И именно поэтому нам потребовалось несколько месяцев работы, чтобы добиться этого.

Теперь, как я уже упоминал, мы объявляем об этом сегодня. Вот QR-код. Вы можете найти весь бенчмарк в открытом доступе на bytebench.ai. Я позволю вам углубиться в статью. Она будет представлена через пару недель на конференции по ИИ и агентным системам. Питер, руководитель проекта и первый автор статьи, сидит здесь. Так что после моего выступления, пожалуйста, подойдите и поговорите с ним, если хотите узнать больше подробностей.

Я просто дам вам краткий обзор наиболее заметных результатов. Прежде всего, мы замечаем почти двукратный разрыв между фронтальными моделями и моделями с открытым весом. И я хочу, чтобы вы обратили на это внимание, потому что мы знаем, что каждый игрок в области моделей, каждый создатель моделей стремится к определенным бенчмаркам.

Видео-источник

Независимость от реализации требует агента-оценщика, который читает код и выполняет тест-план

Связка 1