Vision-Language модели в контроле качества: что реально работает в 2026, а что пока маркетинг
Классическое машинное зрение в ОТК требует сотен-тысяч размеченных примеров под каждый новый дефект и полного переобучения при смене детали или освещения. С середины 2025 года на этот процесс всё активнее накладывается другой класс моделей — vision-language (VLM) и мультимодальные LLM (MLLM): по свежим подборкам конференций CVPR и ICCV 2025–2026, уже 15–25% статей по промышленному anomaly detection используют именно такой мультимодальный подход. Разберём, что показывают реальные исследования 2025–2026 годов, где выводы учёных расходятся с маркетингом поставщиков, и стоит ли директору производства сейчас в это вкладываться.
Что меняется: от жёсткого пайплайна к «покажи и спроси»
Классический подход (см. наш разбор компьютерного зрения в ОТК) требует сотен-тысяч размеченных примеров дефекта на каждый новый тип детали — так называемая проблема «холодного старта». VLM/MLLM-подход работает иначе: модель заранее обучена на огромном массиве изображений и текста и способна находить аномалию по текстовому описанию или паре примеров («few-shot»), без полного переобучения.
Практический признак того, что это не нишевый эксперимент, а растущее направление: в репозитории awesome-industrial-anomaly-detection (3,7 тыс. звёзд, 677 коммитов, живо поддерживается) отдельная категория «MLLM-based AD» выросла до самостоятельного раздела, и, по оценке из свежих подборок конференций CVPR 2025–2026 и ICCV 2025, 15–25% принятых статей по anomaly detection используют мультимодальные/vision-language подходы — это уже не единичные работы, а заметная доля исследовательского поля.
Что показывают академические бенчмарки
Три независимые работы 2025–2026 годов сходятся в одном практическом выводе: готовые VLM «из коробки» пока проигрывают специализированным детекторам, и весь вопрос — как это расхождение сократить.
- YOLO-World для few-shot дефектов (MDPI Algorithms, 2026) — адаптация открытой vision-language модели YOLO-World через семантическое предобучение именно для того, чтобы обойти «холодный старт»: классические детекторы плохо сходятся, когда размеченных примеров дефекта единицы.
- Vision-Language In-Context Learning (arXiv:2502.09057) — модель находит дефектные зоны на новых, ранее не виденных изображениях детали по нескольким примерам «в контексте», без дополнительного дообучения весов.
- MMAD (arXiv:2410.09453) — комплексный бенчмарк, который прогоняет несколько мультимодальных LLM через промышленные задачи anomaly detection именно для того, чтобы измерить этот разрыв системно, а не на отдельных кейсах.
Прямое и самое свежее (19 февраля 2026) подтверждение разрыва — работа EAGLE (arXiv:2602.17419, Ewha Womans University). Её собственная формулировка проблемы предельно чёткая:
MLLM «всё ещё отстают от специализированных детекторов аномалий по точности бинарной классификации» (лог/нет дефекта).
Решение EAGLE — не дообучать MLLM веса, а гибридизировать: подключить выход классического expert-детектора как источник порога уверенности и с его помощью направлять внимание MLLM на нужную область изображения (Threshold-Guided Prompt Selection + Confidence-Aware Attention Sharpening). Результат на стандартных промышленных датасетах MVTec-AD и VisA — до 94,4% и 88,1% точности различения аномалий соответственно, без единого шага дообучения, что сопоставимо с моделями, которые дообучались под конкретную задачу.
Вывод из академического слоя источников: разрыв между «просто спросить готовую VLM» и промышленным качеством контроля реален, но закрывается не через ожидание более умной модели, а через гибридные архитектуры вокруг неё.
Что говорят поставщики — и где это расходится с бенчмарками
Практический материал от интегратора AI vision-инспекции (ifactoryapp.com, 2026) даёт другую картину — коммерческую, а не исследовательскую: заявленная точность детекции 95–99% против человеческого контролёра на уровне 70–80% (с деградацией на 15–25% после двух часов непрерывной работы), скорость 10 000+ деталей в час против 2–3 у человека, и финансовые цифры со ссылкой на Forrester — 374% ROI за три года, окупаемость 7–8 месяцев. Названы кейсы (BMW — снижение брака на 37%, Intel — экономия $2 млн/год на контроле пластин).
Важно честно показать, где эти два слоя источников расходятся:
| Академические бенчмарки (EAGLE, MMAD, YOLO-World-few-shot) | Материалы поставщиков (ifactoryapp) | |
|---|---|---|
| Метрика | Точность на открытых промышленных датасетах (MVTec-AD, VisA) | Обобщённая «точность детекции» без указания датасета/методологии |
| Диапазон точности | 88–94% (лучшие гибридные методы, без дообучения) | 95–99% (единая цифра для всех задач) |
| Прозрачность метода | Полностью воспроизводимо: код, датасет, метрика в открытом доступе | Методология измерения не раскрыта |
| Позиция по MLLM «из коробки» | Явно уступают специализированным детекторам | Не разделяется — подаётся как единая категория «AI vision» |
Это не значит, что цифры поставщика неверны — ROI и скорость обработки вполне могут быть реальными на конкретных внедрениях. Но они не с чем сверить: нет датасета, нет методологии, нет доступа к модели. Академические 88–94% — это верифицируемый потолок для честного тестирования на открытых данных; коммерческие 95–99% — это заявление без данных для проверки. Для решения о внедрении это разница между «вот воспроизводимый результат» и «поверьте на слово».
Где это реально применимо уже сейчас
Из сопоставления источников вытекает практический, не рекламный вывод:
- Для новых дефектов при остром дефиците разметки (запуск новой детали, первые недели пилота) — few-shot/in-context VLM-подходы работают буквально по нескольким примерам дефекта вместо сотен-тысяч, которые нужны классическому детектору для сходимости. Именно эту проблему решают YOLO-World-few-shot и in-context-learning работы.
- Для готового продакшена с большим объёмом брака в истории — специализированный детектор (классическое CV, см. гайд по камерам и освещению) пока точнее и предсказуемее «из коробки»; MLLM здесь оправдан только в гибридной схеме вроде EAGLE — как надстройка для объяснения причины дефекта человеку, а не как замена детектора.
- Для отчётности и разбора причин — сильная сторона VLM не в самой детекции, а в том, что модель может текстом объяснить, что именно не так с деталью, что упрощает передачу задачи в ремонт/наладку без участия оператора-эксперта.
Практический вывод для директора производства: не искать VLM, которая «заменит всё», а спрашивать интегратора конкретно — на каком открытом датасете и с какой методологией измерена заявленная точность, и предлагается ли гибридная схема (expert-детектор + VLM-объяснение) или чистый MLLM «из коробки», который, по независимым данным 2026 года, пока не дотягивает до специализированных систем.
Источники
- EAGLE — Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in MLLMs (arXiv:2602.17419, 19 февраля 2026)
- MMAD — A Comprehensive Benchmark for Multimodal LLMs in Industrial Anomaly Detection (arXiv:2410.09453)
- Vision-Language In-Context Learning Driven Few-Shot Visual Inspection Model (arXiv:2502.09057)
- Adapting Vision-Language Models (YOLO-World) for Few-Shot Industrial Defect Detection — MDPI Algorithms, 2026
- awesome-industrial-anomaly-detection — реестр статей и датасетов, GitHub
- AI Vision Inspection for Manufacturing: Automated Defect Detection Guide 2026 — ifactoryapp