Для задач высокого интеллекта низкие усилия на больших моделях дают лучшую отдачу

Для задач высокого интеллекта низкие усилия на большой модели могут дать лучшую отдачу от затрат при балансировании скорости и интеллекта, позволяя быстрее получить качественный результат (быстрое время до последнего токена)

Видео-источник

Открыть видео на YouTube

Для задач высокого интеллекта низкие усилия на больших моделях дают лучшую отдачу

Связка 1

Начальное состояние: Исполнитель стоит перед выбором между малой моделью и большой моделью с разными уровнями усилий, не зная оптимального соотношения производительности, скорости и стоимости для задачи
Преобразование: Практическая проверка на задаче симуляции светофора показала, что Opus 4.7 с низкими усилиями потратил примерно столько же выходных токенов и лишь немного больше времени, чем Hycu 4.5 с максимальными усилиями, но достиг гораздо лучшего результата
Конечное состояние: Для задач высокого интеллекта низкие усилия на большой модели могут дать лучшую отдачу от затрат при балансировании скорости и интеллекта, позволяя быстрее получить качественный результат (быстрое время до последнего токена)


Однако, как я уже упоминал, всегда полезно проверить это на практике и посмотреть, что произойдет на самом деле, потому что результат может вас удивить. В начале выступления я упомянул, что масштабирование вычислений во время выполнения — это второй способ масштабирования интеллекта, в отличие от масштабирования во время обучения.

Возникает вопрос: если оба подхода дают схожие компромиссы по производительности, скорости и стоимости, когда следует использовать меньшую модель, а когда — более низкий уровень усилий на большей модели? В качестве кратких рекомендаций я бы сказал: во-первых, низкие усилия на большой модели хороши для задач, требующих высокого интеллекта, когда вы пытаетесь оптимизировать скорость. Возвращаясь к нашему примеру с симуляцией светофора, можно увидеть, что Opus 4.7 с низкими усилиями потратил примерно столько же выходных токенов и занял лишь немного больше времени, чем Hycu 4.5 с максимальными усилиями, но, я бы сказал, достиг гораздо лучшего результата. Таким образом, часто низкие усилия на более крупной и интеллектуальной модели могут дать лучшую отдачу от затрат при балансировании скорости и интеллекта для задач, требующих высокого интеллекта.

С другой стороны, меньшие модели могут быть очень хороши, если вы пытаетесь оптимизировать стоимость, и ваша задача не требует высокого интеллекта. Если у вас есть простые задачи для LLM, которые нужно выполнять в больших объемах — например, классификация, извлечение информации, базовое обобщение — здесь малые модели будут полезны и позволят сэкономить много средств, когда не нужен пиковый интеллект. Еще один случай, когда малые модели действительно полезны — если ваше приложение требует очень низкого времени до первого токена. То есть, вы хотите, чтобы Claude отвечал как можно быстрее на запрос пользователя; природа меньших моделей означает, что они часто генерируют токены гораздо раньше и обеспечивают лучшее время до первого токена.

Я думаю об этом так: используйте малые модели для быстрого времени до первого токена. Используйте большие модели с низкими усилиями для быстрого времени до последнего токена. Там, где это возможно, как я уже говорил, рекомендую оценивать оба варианта. Полезно строить такие кривые оценки для нескольких типов моделей и различных уровней усилий, а затем смотреть, какие компромиссы они дают для вашей задачи, которую вы пытаетесь оптимизировать.