Компактные модели

Как выбирать модели, когда бюджет по памяти и CPU ограничен.

Маленькая модель не всегда хуже. Во многих внутренних системах она оказывается устойчивее, предсказуемее и дешевле в эксплуатации, особенно если задача узкая и входные данные хорошо структурированы.

Когда компактный подход оправдан

Нужны быстрые ответы без долгого прогрева
Сервис работает на CPU или на небольшой виртуальной машине
Запросы однотипны и хорошо описываются шаблоном
Система должна переживать умеренную конкуренцию без скачков памяти

Что обычно помогает

Квантование до 4-bit или 8-bit при приемлемом качестве
Короткий контекст и строгий шаблон промпта
Разделение задач: классификация отдельно, генерация отдельно
Источники через RAG только там, где реально нужна привязка к данным

Ориентиры

Смотреть не только на качество ответа.

Холодный старт

Если модель тяжело стартует после рестарта, то её сложнее безопасно эксплуатировать на небольших хостах и резервных узлах.

Поведение под нагрузкой

Хороший рабочий вариант держит латентность предсказуемой и не превращает умеренный рост запросов в каскад таймаутов.

Наблюдаемость

Чем проще пайплайн, тем легче понять, из-за чего портится ответ: из-за модели, retrieval, шаблона или структуры входных данных.

Практический вывод

Лучше несколько небольших компонентов, чем один тяжёлый центр тяжести.

В прикладной эксплуатации часто выигрывает не самая умная модель, а та, которая спокойно работает неделями, предсказуемо ест память, быстро перезапускается и не требует отдельного GPU-узла для каждого сценария.

Назад на главную Дальше: инфраструктура