Дмитрий Березинский рассказывает о важности роутинга и управления контекстом для оптимизации работы агентов на базе языковых моделей.
Key Takeaways
- Роутинг моделей позволяет существенно снизить стоимость запросов без значительной потери качества.
- Управление контекстом и правильный выбор модели важнее, чем использование только самой дорогой фронтир модели.
- Кэширование и наблюдаемость критичны для эффективной работы агентов и контроля затрат.
- Для актуализации знаний модели необходимы внешние источники данных, такие как RAG или большие контекстные окна.
- Инженерный подход к выбору между RAG и длинным контекстом зависит от конкретных требований и ресурсов.
Summary
- Стоимость запросов к фронтир модели может быть очень высокой, что требует оптимизации.
- Интеллект агента заключается не только в модели, но и в инфраструктуре вокруг неё: роутинг, ретривол и управление контекстом.
- Роутинг позволяет выбирать между дорогими и дешевыми моделями, снижая затраты при сохранении качества.
- Классификатор запросов решает, какую модель вызвать, что помогает экономить и улучшать качество.
- Важно учитывать особенности кэша при переключении моделей, чтобы не потерять эффективность.
- Наблюдаемость и метрики необходимы для контроля качества роутинга и затрат.
- Модель без актуальных знаний ограничена датой обучения, поэтому нужны внешние источники данных.
- Retrieval-Augmented Generation (RAG) — подход с использованием векторных баз для подстановки релевантных фрагментов в контекст.
- Альтернативный подход — использование очень больших контекстных окон для загрузки всей информации напрямую.
- Выбор между RAG и длинным контекстом зависит от сложности задачи и технических возможностей.











