Синтетические данные для контроля качества: сколько реальных дефектов нужно нейросети в 2026

Разбор диффузионного синтеза, domain randomization и VAE для генерации дефектов по 7 источникам: сколько реальных примеров нужно на самом деле и как поставщики округляют академические цифры.

Синтетические данные для контроля качества: сколько реальных дефектов нужно нейросети в 2026

Компьютерное зрение в ОТК (см. наш разбор классического подхода) и VLM-модели (см. разбор vision-language подходов) упираются в одно узкое место: реальных примеров дефекта физически мало. При запуске новой детали брак первые недели держится в районе 0,1–0,5%, а отдельный тип дефекта может не встретиться ни разу за 3–4 месяца работы линии. Обучить детектор на 5–10 фотографиях классически невозможно — модель либо не сходится, либо заучивает случайный фон вместо самого дефекта. Ответ последних двух лет — генеративные модели (диффузия, VAE, рендеринг с domain randomization) для синтеза недостающих дефектов. По 7 источникам разберём, что это реально даёт по данным 2024–2026 годов и насколько точно поставщики пересказывают эти цифры в маркетинге.

Дефицит дефектов: почему классические датасеты не набираются

Стандартный supervised-детектор требует сотен–тысяч размеченных примеров каждого типа дефекта, а зрелая линия за 12 месяцев работы может накопить всего 40–60 реальных фотографий редкого брака. Дисбаланс классов усиливает проблему: если бездефектных деталей 998 из 1000, а дефектных — 2, модель по умолчанию учится игнорировать редкий класс, потому что это даёт минимальную ошибку на обучающей выборке. Ручная доразметка новых дефектов занимает недели и требует эксперта ОТК — распознать 5 визуально похожих типов скола на глаз способен только обученный контролёр, а не разметчик общего профиля.

Диффузия и перенос дефекта без единого реального примера

Диффузионный синтез дефектов поднимает точность детекции (mAP) с 65,0% до 85,1% даже при переносе на совершенно новую деталь без единого реального образца брака — это результат работы Relimetrics, апрель 2026 (arXiv:2604.22850), решающей задачу запуска новой детали (New Product Introduction). Метод сочетает masked textual inversion, noise-blended генерацию и градиентную постобработку для синтеза дефектов на новой поверхности. В менее экстремальном режиме few-shot (несколько реальных примеров плюс синтетика) mAP вырос с 78,8% до 83,3% — прирост на 20 процентных пунктов в zero-shot против 4,5 в few-shot показывает, что чем острее дефицит реальных примеров, тем больше выигрыш от синтеза.

Domain randomization: детектор, обученный только на рендере

Другой подход — рендерить всю сцену целиком: 3D-модель детали, случайное освещение, случайный фон и текстуру материала. Исследование arXiv:2506.07539 (принято на ICRA 2025) собрало датасет SIP15-OD — 15 деталей из 3 промышленных сценариев — и обучило YOLOv8 исключительно на синтетических рендерах, без единого реального фото в обучающей выборке. Результат на 3 сценариях SIP15-OD — 94,1%, 99,5% и 95,3% mAP@50; на отдельном датасете для робототехники — 96,4% mAP@50. Авторы называют материал поверхности, метод рендеринга и «дистракторы» (посторонние объекты в кадре) главными факторами, определяющими перенос от рендера к реальной камере.

VAE: старый метод, точные цифры — и где их округлили поставщики

VAE (вариационный автокодировщик) — более простой и старый метод по сравнению с диффузией, но именно на нём проще всего проверить точность пересказа науки в маркетинге. Работа 2024 года (arXiv:2401.00393, Cognitive Computation, Ferdousi и др.) взяла датасет дефектов рельс Canadian Pacific Railway — 50 реальных фотографий на 5 классов дефекта — и обучила VAE генерировать синтетику. Модель сгенерировала 500 синтетических изображений при ошибке реконструкции 0,021, а классификатор ViT, дообученный на этом наборе, показал точность 98–99% по всем 5 классам дефектов.

Блог поставщика UnitX Labs пересказывает этот же кейс как иллюстрацию своего продукта GenX — но уже с другими цифрами: «450 синтетических изображений из 50 оригиналов, почти 100% точность классификатора». Сверка с первоисточником показывает расхождение по обеим цифрам: в статье — 500 синтетических изображений, а не 450, и конкретная точность 98–99% ViT по 5 классам, а не округлённые «почти 100%» без разбивки по классам.

Показатель Источник (arXiv:2401.00393) Пересказ UnitX Labs
Синтетических изображений 500 450
Метрика Reconstruction loss 0,021 + ViT-точность 98–99% по 5 классам «почти 100% точность классификатора»
Проверяемость Датасет и архитектура VAE описаны в статье Ссылка на «a case study» без ссылки на саму статью

Похожесть на фото не значит прирост точности

Отдельная работа 2026 года (arXiv:2602.18525) проверила предположение, на котором держится весь маркетинг генеративного синтеза: если синтетическая картинка визуально похожа на реальную (низкий FID), значит, она полезна для обучения детектора. Авторы прогнали 6 генераторов (GAN, диффузия, гибриды) через YOLOv11 на 3 датасетах при доле синтетики от 10% до 150% от размера реальной выборки и сравнили метрики похожести с реальным приростом mAP.

«Стандартные глобальные генеративные метрики (например, FID) часто не предсказывают итоговую точность детекции (mAP)» — arXiv:2602.18525

Прирост оказался сильно зависим от сценария: на «Pedestrian» (плотные сцены с перекрытиями) — до +7,6% относительного mAP, на «PottedPlant» (многоэкземплярные сцены с высокой вариативностью) — до +30,6%, а на «Traffic Signs» (разреженный, почти насыщенный класс) — эффект минимален. Один и тот же генератор синтетики даёт +30% прироста на одной задаче и близкий к 0% на другой, и заранее по «реалистичности» картинки это не предсказать.

Поставщики: 9x, 3x — и без методологии

UnitX заявляет для своего продукта FleX снижение доли пропущенных дефектов (escape rate) в 9 раз и ускорение развёртывания в 3 раза по сравнению с предыдущим поколением систем (пресс-релиз UnitX, декабрь 2025). Окупаемость по материалам того же поставщика (UnitX Labs, 5 критериев оценки) — 12–18 месяцев для мелкосерийного производства (10+ типов деталей) и 18–24 месяца для крупносерийного, а снижение затрат на переналадку — 60–80% за 3 года со ссылкой на McKinsey, но без прямой ссылки на сам отчёт.

Ни для одной из этих 5 цифр (9x, 3x, 12–18 мес., 18–24 мес., 60–80%) поставщик не публикует датасет или метод измерения — методология везде описана как «наши внутренние данные и референс-клиенты», без единого внешнего аудита.

Что это значит для внедрения на вашей линии

  1. Для запуска новой детали, когда реальных дефектов ещё 0 (ни одного), — диффузионный few-shot/zero-shot синтез (тип arXiv:2604.22850) закрывает разрыв переносом дефекта с похожей поверхности, а не ожиданием месяцев накопления брака.
  2. Для совсем новой детали без единого реального дефектного фото — domain randomization даёт 94–99% mAP@50 в условиях ICRA 2025, но это результат на конкретных 15 деталях и 3 сценариях: цифру обязательно перепроверять на своей камере и освещении, а не переносить как гарантию.
  3. VAE — самый дешёвый и воспроизводимый из 3 методов: 50 реальных фото уже достаточно для 500 синтетических при точности 98–99%. При выборе поставщика инструмента синтеза стоит запросить исходный датасет и метрику, а не итоговый процент — 2026 год дал минимум 1 задокументированный случай (UnitX GenX), где 500 округлили до 450, а «98–99%» — до «почти 100%».
  4. Перед покупкой любого генератора синтетики просите не FID и не «визуально реалистично», а измеренный прирост mAP именно на вашей задаче: тест на 6 генераторах и 3 датасетах в 2026 году показал, что это разные вещи, и разрыв между ними доходит до 30 процентных пунктов.

Источники

Частые вопросы

Сколько реальных фотографий дефекта нужно, чтобы вообще начать обучение, если это новая деталь?
По данным диффузионного few-shot метода (arXiv:2604.22850, 2026) достаточно нескольких примеров — точность (mAP) на новой поверхности выросла с 78,8% до 83,3% при few-shot и с 65,0% до 85,1% в режиме zero-shot, когда реальных примеров дефекта на самой детали нет вообще ни одного, а перенос идёт с похожей поверхности. Это не отменяет необходимость проверки результата на своей камере и освещении.
Можно ли обучить детектор дефектов вообще без реальных фотографий брака?
Да, при рендеринге сцены с domain randomization: исследование arXiv:2506.07539 (ICRA 2025) обучило YOLOv8 только на синтетических рендерах 15 деталей и получило 94,1–99,5% mAP@50 на трёх производственных сценариях. Но это лабораторный результат на конкретном наборе деталей — перед внедрением цифру нужно перепроверять на своей линии, а не принимать как универсальную гарантию.
Стоит ли доверять цифрам вроде «9x меньше пропущенных дефектов» из материалов поставщиков?
Частично и с проверкой источника. Например, блог UnitX Labs пересказывает академический кейс VAE-синтеза (arXiv:2401.00393) как «450 изображений из 50, почти 100% точность», хотя в самой статье — 500 синтетических изображений и точность ViT 98–99% по 5 классам, без единой цифры «100%». Собственные метрики поставщика (9x, 3x, ROI) нигде не сопровождаются датасетом или независимым измерением — это не значит, что они неверны, но проверить их нечем.