Холодный старт
Если модель тяжело стартует после рестарта, то её сложнее безопасно эксплуатировать на небольших хостах и резервных узлах.
Компактные модели
Маленькая модель не всегда хуже. Во многих внутренних системах она оказывается устойчивее, предсказуемее и дешевле в эксплуатации, особенно если задача узкая и входные данные хорошо структурированы.
Ориентиры
Если модель тяжело стартует после рестарта, то её сложнее безопасно эксплуатировать на небольших хостах и резервных узлах.
Хороший рабочий вариант держит латентность предсказуемой и не превращает умеренный рост запросов в каскад таймаутов.
Чем проще пайплайн, тем легче понять, из-за чего портится ответ: из-за модели, retrieval, шаблона или структуры входных данных.
Практический вывод
В прикладной эксплуатации часто выигрывает не самая умная модель, а та, которая спокойно работает неделями, предсказуемо ест память, быстро перезапускается и не требует отдельного GPU-узла для каждого сценария.