Vision-Language модели в контроле качества: что работает в 2026, а что маркетинг

Разбор VLM и мультимодальных LLM в промышленном ОТК по 6 источникам: где академические бенчмарки расходятся с обещаниями поставщиков и когда VLM реально оправдан.

Vision-Language модели в контроле качества: что реально работает в 2026, а что пока маркетинг

Классическое машинное зрение в ОТК требует сотен-тысяч размеченных примеров под каждый новый дефект и полного переобучения при смене детали или освещения. С середины 2025 года на этот процесс всё активнее накладывается другой класс моделей — vision-language (VLM) и мультимодальные LLM (MLLM): по свежим подборкам конференций CVPR и ICCV 2025–2026, уже 15–25% статей по промышленному anomaly detection используют именно такой мультимодальный подход. Разберём, что показывают реальные исследования 2025–2026 годов, где выводы учёных расходятся с маркетингом поставщиков, и стоит ли директору производства сейчас в это вкладываться.

Что меняется: от жёсткого пайплайна к «покажи и спроси»

Классический подход (см. наш разбор компьютерного зрения в ОТК) требует сотен-тысяч размеченных примеров дефекта на каждый новый тип детали — так называемая проблема «холодного старта». VLM/MLLM-подход работает иначе: модель заранее обучена на огромном массиве изображений и текста и способна находить аномалию по текстовому описанию или паре примеров («few-shot»), без полного переобучения.

Практический признак того, что это не нишевый эксперимент, а растущее направление: в репозитории awesome-industrial-anomaly-detection (3,7 тыс. звёзд, 677 коммитов, живо поддерживается) отдельная категория «MLLM-based AD» выросла до самостоятельного раздела, и, по оценке из свежих подборок конференций CVPR 2025–2026 и ICCV 2025, 15–25% принятых статей по anomaly detection используют мультимодальные/vision-language подходы — это уже не единичные работы, а заметная доля исследовательского поля.

Что показывают академические бенчмарки

Три независимые работы 2025–2026 годов сходятся в одном практическом выводе: готовые VLM «из коробки» пока проигрывают специализированным детекторам, и весь вопрос — как это расхождение сократить.

  • YOLO-World для few-shot дефектов (MDPI Algorithms, 2026) — адаптация открытой vision-language модели YOLO-World через семантическое предобучение именно для того, чтобы обойти «холодный старт»: классические детекторы плохо сходятся, когда размеченных примеров дефекта единицы.
  • Vision-Language In-Context Learning (arXiv:2502.09057) — модель находит дефектные зоны на новых, ранее не виденных изображениях детали по нескольким примерам «в контексте», без дополнительного дообучения весов.
  • MMAD (arXiv:2410.09453) — комплексный бенчмарк, который прогоняет несколько мультимодальных LLM через промышленные задачи anomaly detection именно для того, чтобы измерить этот разрыв системно, а не на отдельных кейсах.

Прямое и самое свежее (19 февраля 2026) подтверждение разрыва — работа EAGLE (arXiv:2602.17419, Ewha Womans University). Её собственная формулировка проблемы предельно чёткая:

MLLM «всё ещё отстают от специализированных детекторов аномалий по точности бинарной классификации» (лог/нет дефекта).

Решение EAGLE — не дообучать MLLM веса, а гибридизировать: подключить выход классического expert-детектора как источник порога уверенности и с его помощью направлять внимание MLLM на нужную область изображения (Threshold-Guided Prompt Selection + Confidence-Aware Attention Sharpening). Результат на стандартных промышленных датасетах MVTec-AD и VisA — до 94,4% и 88,1% точности различения аномалий соответственно, без единого шага дообучения, что сопоставимо с моделями, которые дообучались под конкретную задачу.

Вывод из академического слоя источников: разрыв между «просто спросить готовую VLM» и промышленным качеством контроля реален, но закрывается не через ожидание более умной модели, а через гибридные архитектуры вокруг неё.

Что говорят поставщики — и где это расходится с бенчмарками

Практический материал от интегратора AI vision-инспекции (ifactoryapp.com, 2026) даёт другую картину — коммерческую, а не исследовательскую: заявленная точность детекции 95–99% против человеческого контролёра на уровне 70–80% (с деградацией на 15–25% после двух часов непрерывной работы), скорость 10 000+ деталей в час против 2–3 у человека, и финансовые цифры со ссылкой на Forrester — 374% ROI за три года, окупаемость 7–8 месяцев. Названы кейсы (BMW — снижение брака на 37%, Intel — экономия $2 млн/год на контроле пластин).

Важно честно показать, где эти два слоя источников расходятся:

Академические бенчмарки (EAGLE, MMAD, YOLO-World-few-shot) Материалы поставщиков (ifactoryapp)
Метрика Точность на открытых промышленных датасетах (MVTec-AD, VisA) Обобщённая «точность детекции» без указания датасета/методологии
Диапазон точности 88–94% (лучшие гибридные методы, без дообучения) 95–99% (единая цифра для всех задач)
Прозрачность метода Полностью воспроизводимо: код, датасет, метрика в открытом доступе Методология измерения не раскрыта
Позиция по MLLM «из коробки» Явно уступают специализированным детекторам Не разделяется — подаётся как единая категория «AI vision»

Это не значит, что цифры поставщика неверны — ROI и скорость обработки вполне могут быть реальными на конкретных внедрениях. Но они не с чем сверить: нет датасета, нет методологии, нет доступа к модели. Академические 88–94% — это верифицируемый потолок для честного тестирования на открытых данных; коммерческие 95–99% — это заявление без данных для проверки. Для решения о внедрении это разница между «вот воспроизводимый результат» и «поверьте на слово».

Где это реально применимо уже сейчас

Из сопоставления источников вытекает практический, не рекламный вывод:

  1. Для новых дефектов при остром дефиците разметки (запуск новой детали, первые недели пилота) — few-shot/in-context VLM-подходы работают буквально по нескольким примерам дефекта вместо сотен-тысяч, которые нужны классическому детектору для сходимости. Именно эту проблему решают YOLO-World-few-shot и in-context-learning работы.
  2. Для готового продакшена с большим объёмом брака в истории — специализированный детектор (классическое CV, см. гайд по камерам и освещению) пока точнее и предсказуемее «из коробки»; MLLM здесь оправдан только в гибридной схеме вроде EAGLE — как надстройка для объяснения причины дефекта человеку, а не как замена детектора.
  3. Для отчётности и разбора причин — сильная сторона VLM не в самой детекции, а в том, что модель может текстом объяснить, что именно не так с деталью, что упрощает передачу задачи в ремонт/наладку без участия оператора-эксперта.

Практический вывод для директора производства: не искать VLM, которая «заменит всё», а спрашивать интегратора конкретно — на каком открытом датасете и с какой методологией измерена заявленная точность, и предлагается ли гибридная схема (expert-детектор + VLM-объяснение) или чистый MLLM «из коробки», который, по независимым данным 2026 года, пока не дотягивает до специализированных систем.

Источники

Частые вопросы

Значит ли появление VLM, что классическое компьютерное зрение в ОТК устарело?
Нет. По данным бенчмарков EAGLE и MMAD (2025–2026), специализированные детекторы на своей задаче всё ещё точнее MLLM «из коробки» — лучшие гибридные VLM-схемы дают 88–94% точности на открытых датасетах MVTec-AD и VisA, вплотную приближаясь к дообученным моделям, но не превосходя их. VLM закрывает конкретный пробел — холодный старт при нехватке разметки и объяснимость результата, а не заменяет весь стек компьютерного зрения.
Нужно ли дообучать VLM под свою производственную линию?
Судя по работе EAGLE (arXiv:2602.17419, февраль 2026) — необязательно. Гибридная тюнинг-free схема (expert-детектор + MLLM) на открытых промышленных датасетах даёт 94,4% и 88,1% точности на MVTec-AD и VisA соответственно — без единого шага дообучения весов модели, что сопоставимо с результатами дообученных систем.
Можно ли доверять цифрам ROI от поставщиков вроде «374% за три года»?
Относиться как к ориентиру, а не как к гарантии. Методология расчёта таких цифр (включая ссылку на Forrester) в открытых материалах поставщиков не раскрывается. Для сравнения: академические цифры точности 88–94% воспроизводимы на открытых датасетах с публичным кодом — коммерческие ROI-цифры такой проверки не проходят.