Аннотация
Существуют некоторые проблемы в традиционной классификации дефектов бумаги, такие как низкая обобщающая способность, малое количество распознаваемых типов и недостаточная точность распознавания. Метод глубокого обучения предлагает новую схему для классификации дефектов бумаги. Однако сверточная нейронная сеть предъявляет строгие требования к размеру входного изображения. Это требует, чтобы в процессе практического инженерного применения для собранных изображений дефектов бумаги, подлежащих классификации, область, содержащая дефект бумаги, должна быть сегментирована во время предварительной обработки, а затем размер области дефекта бумаги должен быть скорректирован в соответствии с входными требованиями используемого классификатора. Чтобы решить вышеуказанные проблемы, в распознавании дефектов бумаги была использована двухэтапная сеть обнаружения целей Faster R-CNN (Region-Convolutional Neural Network) для решения проблемы требований к размеру входного изображения. Кроме того, слой деформируемой свертки был добавлен после традиционного слоя свертки для более эффективного и точного изучения характеристик дефектов бумаги, чтобы повысить точность и правильность распознавания и классификации дефектов бумаги. Наконец, уровень деформируемого пулинга областей интереса (RoI) был использован для замены уровня пулинга RoI классической Faster R-CNN для более точной локализации и классификации области дефектов бумаги. Эксперименты показывают, что предложенный алгоритм имеет дальнейшее улучшение точности и масштабируемости по сравнению с предыдущим алгоритмом.Ключевые слова
Распознавание дефектов бумаги, Faster R-CNN, деформируемая свертка
Основная часть
1. Введение
В процессе производства дефекты бумаги представляют собой поверхностные дефекты, такие как грязные пятна, отверстия, складки, царапины, пыль и трещины. Появление дефектов бумаги оказывает негативное влияние на последующее использование, особенно на аэрокосмическую бумагу, бумагу для электролитических конденсаторов, обойную бумагу-основу и другие специальные виды бумаги с высокой добавленной стоимостью на более поздних этапах, что приводит к огромным экономическим потерям, поэтому необходимо проводить точную диагностику и своевременное устранение проблем. Технология веб-диагностики заключается в определении, содержит ли бумага дефекты, путем сбора изображения бумаги в онлайн-режиме с помощью промышленной камеры. Если изображения бумаги содержат дефекты, проводится дальнейшая классификация и распознавание. Как правило, процесс веб-диагностики можно разделить на три основных этапа: получение и предварительная обработка изображения бумаги, онлайн-обнаружение дефектов бумаги и распознавание или классификация дефектов бумаги.Распознавание дефектов бумаги является ключевым шагом во всем процессе диагностики дефектов бумаги. Точное распознавание различных дефектов бумаги имеет большое значение для выяснения причин возникновения дефектов бумаги и раннего предупреждения неисправностей бумагоделательной машины.
В области распознавания дефектов бумаги большинство исследований было посвящено использованию искусственной нейронной сети и сверточной нейронной сети для создания классификатора. Ни и др. использовали нейронную сеть обратного распространения (BP) для создания классификатора дефектов бумаги для различения четырех видов дефектов бумаги: отверстий, загрязнений, складок и трещин. Вэй и др. улучшили проблему медленной скорости сходимости нейронной сети BP и использовали общую ошибку, генерируемую обучающими выборками, для корректировки весов и повышения скорости алгоритма BP. Были изучены применения машины опорных векторов (SVM), двумерного вейвлет-преобразования, теории классификации, нейронной сети с радиально-базисной функцией (RBFNN) и других в классификации дефектов бумаги. Эти алгоритмы требовали сначала извлечения признаков дефектов бумаги, затем использования извлеченных признаков дефектов бумаги в качестве входа классификатора и вывода классифицированных результатов. Поэтому для получения хорошего эффекта классификации необходимо выбрать большое количество признаков различных типов дефектов бумаги и спроектировать мощный классификатор множественных дефектов бумаги. Следовательно, для каждого дефекта бумаги, который необходимо идентифицировать и классифицировать, нам нужно исследовать и извлекать его признаки и преобразовывать классификатор, поэтому трудно улучшить тип идентификации и эффективность.
В последние годы, с развитием и популяризацией глубокого обучения и сверточных нейронных сетей, многие ученые предложили классификаторы дефектов бумаги на основе сверточных нейронных сетей. Но сверточная нейронная сеть предъявляет строгие требования к размеру входного изображения, что требует, чтобы в процессе практического инженерного применения область, содержащая дефекты бумаги, должна быть сегментирована во время предварительной обработки, а размер области дефекта бумаги должен быть скорректирован в соответствии с входными требованиями используемого классификатора. Например, сверточная нейронная сеть VGG16 требует, чтобы размер входного изображения составлял 224×224 пикселя, в то время как размер одного кадра изображения, собранного промышленной камерой, составляет 4096×1048 пикселей, что примерно в 84 раза превышает размер входного изображения, требуемый VGG16. В процессе нормализации неизбежно возникнут такие проблемы, как потеря информации или деформация объекта. Как только возникает ошибка в процессе предварительной обработки дефектов бумаги, это неизбежно приводит к ошибке классификации дефектов бумаги на более позднем этапе.
Ввиду вышеуказанных проблем, на основе классической сети обнаружения объектов Faster R-CNN (Region-Convolutional Neural Network) был предложен метод распознавания дефектов бумаги на основе деформируемой нейронной сети. Во-первых, двухэтапная сеть обнаружения объектов Faster R-CNN была использована в качестве базовой сети для решения проблемы требований к размеру входного изображения. Во-вторых, слой деформируемой свертки был добавлен после традиционного слоя свертки VGG16 для извлечения признаков, чтобы повысить точность распознавания и классификации дефектов бумаги. Наконец, деформируемый пулинг RoI (Region-of-Interest) был использован для замены пулинга RoI классической Faster R-CNN для более точной локализации и классификации области дефектов бумаги.
2. Сеть обнаружения Faster R-CNN
В настоящее время система диагностики дефектов бумаги на бумагоделательной линии в основном разделена на два независимых этапа: онлайн-обнаружение дефектов бумаги и классификация дефектов бумаги. На этапе онлайн-обнаружения дефектов бумаги проверяется только наличие дефектов бумаги на изображении, но не различаются типы дефектов бумаги. На этапе классификации дефектов бумаги классифицируются типы дефектов бумаги, содержащихся на бумаге. В настоящее время процесс классификации в основном выполняется сверточной нейронной сетью. Из-за ограничений модели CNN изображения бумаги необходимо предварительно обрабатывать и нормализовать. В то же время каждое изображение бумаги может содержать только один дефект бумаги, что сильно ограничивает его обобщающую способность. Поэтому двухэтапная сеть обнаружения изображений объектов Fast R-CNN была использована в качестве базовой сети, и был предложен алгоритм распознавания дефектов бумаги с более высокой обобщающей способностью, который может одновременно классифицировать дефекты бумаги и идентифицировать области дефектов бумаги.2.1 Обнаружение объектов
Обнаружение объектов — это технология компьютерного зрения, которая использует алгоритмы для поиска интересующих объектов на изображениях. Традиционное обнаружение объектов включало предварительную обработку, скользящее окно, извлечение признаков, выбор признаков, классификацию, постобработку и так далее. Традиционное извлечение признаков имело плохую обобщающую способность и низкую точность. Поскольку сверточная нейронная сеть (CNN) обладает способностью к извлечению, выбору и классификации признаков, CNN может быть непосредственно использована для выполнения извлечения признаков, классификации и регрессии в процессе обнаружения объектов.Алгоритмы обнаружения объектов на основе глубокого обучения можно разделить на одноэтапные алгоритмы обнаружения объектов и двухэтапные алгоритмы обнаружения объектов. Двухэтапный алгоритм обнаружения рассматривает обнаружение объектов как проблему классификации, то есть сначала генерируются области-кандидаты объектов, а затем классифицируются и калибруются области-кандидаты для получения окончательных результатов обнаружения. Среди двухэтапных алгоритмов обнаружения объектов алгоритмы сверточных нейронных сетей на основе областей в настоящее время являются наиболее широко используемыми алгоритмами обнаружения объектов, такими как R-CNN, Fast R-CNN, Faster R-CNN и т.д. Алгоритмы серии R-CNN объединяют генерацию областей-кандидатов со сверточной нейронной сетью (CNN) и используют сверточную нейронную сеть для классификации областей-кандидатов и определения их как фона или объектов. [9] По сравнению с шестью этапами традиционных алгоритмов обнаружения объектов, алгоритмы обнаружения объектов на основе сверточных нейронных сетей на основе областей имеют только три этапа: генерация областей-кандидатов, классификация областей-кандидатов и постобработка, что обеспечивает высокую обобщающую способность и высокую точность обнаружения объектов.
2.2 Faster R-CNN
Fast R-CNN — это улучшенная структура сети обнаружения объектов на основе R-CNN и Fast R-CNN, направленная на решение проблем большого занимаемого дискового пространства, потери ресурсов из-за повторного извлечения признаков, медленной скорости обучения и тестирования.Сеть обнаружения объектов Fast R-CNN в основном состояла из сетей предложения областей (RPN) для генерации областей-кандидатов и Fast R-CNN для классификации и регрессии границ. [13-14] Обе части используют одну и ту же сверточную нейронную сеть для извлечения признаков изображения. Таким образом, время обнаружения области-кандидата объекта значительно сокращается, скорость обнаружения объектов повышается, и она становится более подходящей для процесса диагностики в реальном времени на промышленной линии.
Структура сети Fast R-CNN показана на рис. 1.

Рис. 1. Структура сети Faster R-CNN.
Реализация функционала Faster R-CNN в основном выполнялась следующими сетями:
1) Сеть извлечения признаков
Часть извлечения признаков Faster R-CNN использовалась для извлечения карты признаков изображения. Ее структура была такой же, как у сети CNN, включая серию операций свертки и пулинга. Поэтому извлечение признаков этой части может быть непосредственно выполнено с использованием классической сетевой модели. В алгоритме, предложенном в этой статье, извлечение признаков этой части улучшено на основе VGG16.
2) Сеть предложения областей (RPN)
RPN использовалась для создания региональных предложений-кандидатов. Она определяет объект и фон с помощью softmax и продолжает идентифицировать и классифицировать региональные предложения-кандидаты, определенные как фон.
Входом RPN может быть изображение любого размера. Выходом является пакет прямоугольных предложений областей, и каждое предложение соответствует оценке объекта и информации о местоположении.
3) Пулинг RoI
Пулинг RoI объединял карту признаков, сгенерированную первыми двумя частями, и информацию о предложении-кандидате. Координатное положение предложения-кандидата во входном изображении отображалось на последней полученной карте признаков, соответствующее положение на карте признаков подвергалось пулингу, и выход подключался как вход к последнему слою для классификации.
4) Слой классификации
Используется для определения категории предложений-кандидатов. В то же время слой классификации может быть подключен для калибровки точного положения рамки-кандидата.
3. Распознавание дефектов бумаги на основе деформируемой сверточной нейронной сети
3.1 Деформируемая свертка
В традиционной модели сверточной нейронной сети размер ядра свертки в основном фиксирован: 5×5, 3×3 или 1×1. Для сложных или мелких признаков изображения такое ядро свертки может потерять ключевую информацию о признаках. Размер ядра свертки VGG16 составляет 3×3. Поэтому, если область дефекта бумаги была небольшой (грязные пятна, отверстия) или вытянутой (складки и трещины), ядро свертки не смогло бы воспринять и извлечь ее признаки, что привело бы к неправильной классификации. Основываясь на этом, Дай предложил концепцию деформируемой свертки в 2017 году, которая использовалась для улучшения фиксированной геометрии модели сверточной нейронной сети и улучшения способности традиционной сверточной нейронной сети к моделированию пространственной информации, чтобы решить такие проблемы, как ограниченный размер ядра свертки традиционной сверточной нейронной сети.Смещение добавлялось к соответствующей позиции каждой точки выборки в ядре свертки. Благодаря этим смещениям ядро свертки могло выполнять выборку случайным образом вблизи текущей позиции и больше не ограничивалось предыдущими регулярными точками решетки. Расширенная операция свертки называется деформируемой сверткой.
3.2 Реализация деформируемой свертки
Реализация деформируемой свертки заключается во введении двух новых модулей в сверточную нейронную сеть для усиления способности исходной CNN моделировать геометрические преобразования. Этими двумя модулями являются деформируемая свертка и деформируемый пулинг RoI. Оба основаны на идее добавления пространственного местоположения выборки в модуль, который имеет дополнительное смещение и изучает смещение для целевой задачи без дополнительного контроля. Новый модуль может легко заменить обычные аналоги в существующей CNN и может легко проводить сквозное обучение с помощью стандартного обратного распространения для создания деформируемой сверточной сети.3.2.1 Деформируемая свертка
Деформируемая свертка означает, что ядро свертки добавляет дополнительный параметр направления для каждого элемента, так что ядро свертки может быть расширено до большого диапазона в процессе обучения. То есть двумерное смещение добавляется к позициям сетки выборки традиционной сверточной нейронной сети, так что сетка выборки может свободно деформироваться. Смещение может быть изучено из входной карты признаков путем добавления дополнительного сверточного слоя, и его размер зависит от входного признака.Структура деформируемой свертки показана на рис. 2.

Рис. 2. Деформируемая свертка.
На рис. 2 вышестоящий обходной путь изучает размер смещений через сверточный слой (conv). На рисунке поле смещения является дополнительным сверточным слоем, и количество каналов вдвое превышает размер ядра свертки. Например, для ядра 3×3, если размер ядра свертки равен 9, количество каналов равно 18.
Математическое выражение деформируемой свертки: пусть R будет матрицей выборки с p0 в качестве центральной точки, математическое выражение деформируемой свертки для любой точки y(p0) на входной карте признаков показано в уравнении (1).
(1) y(p0) = Σ pn∈R w(pn) · x(p0 + pn + Δpij)
Где,
w(pn): Вес, соответствующий каждой точке выборки.
Δpij: Деформируемая свертка — это изучаемое смещение, добавляемое в каждой позиции точки выборки стандартной свертки.
3.2.2 Деформируемый пулинг RoI
Деформируемый пулинг RoI заключается в добавлении смещения к каждой подобласти (bin) предыдущего пулинга RoI для перемещения в целом, чтобы он мог адаптироваться к локальному позиционированию объектов разной формы.Аналогично, смещение может быть изучено из входной карты признаков и области RoI. Структура деформируемого пулинга RoI показана на рис. 3.
https://cdn.apub.kr/journalsite/sites/ktappi/2022-054-02/N0460540205/images/JKTAPPI_2022_v54n2_37_f0....
Рис. 3. Деформируемый пулинг RoI.
Математическое выражение деформируемого пулинга RoI показано в уравнении (2).
(2) y(ij) = Σ p∈bin(i,j) x(p0 + p + Δpij) / nij
Как показано на рис. 3, смещение было получено путем обхода сверточного слоя. Во-первых, обходной путь выполнял пулинг RoI на входной карте признаков для генерации новой карты признаков. Затем операция полносвязного слоя (FC) выполнялась на новой карте признаков для вывода нормализованного смещения. Δpij можно получить, умножив нормализованное смещение и ширину и высоту (w, h) RoI с помощью поэлементного произведения.
3.3 Распознавание дефектов бумаги на основе деформируемой сверточной нейронной сети
Направленная на решение проблемы низкой точности распознавания существующих алгоритмов распознавания дефектов бумаги, был предложен алгоритм распознавания дефектов бумаги на основе деформируемой сверточной нейронной сети путем объединения идеи деформируемой сверточной нейронной сети с классической моделью обнаружения объектов Faster R-CNN.Во-первых, в соответствии с характеристиками каждого изображения дефекта бумаги, изученными на предыдущем этапе, модель сверточной нейронной сети VGG16 была использована в качестве сети признаков, и слой деформируемой свертки был добавлен к ее традиционному слою свертки для лучшего восприятия характеристик различных типов дефектов бумаги. Во-вторых, слой пулинга областей интереса (RoI) в сети Faster R-CNN был заменен на деформируемый пулинг RoI для дальнейшего повышения точности области обнаружения.
3.3.1 Проектирование структуры сети на основе деформируемой сверточной нейронной сети
1) Сеть извлечения признаков на основе деформируемой сверткиВ этом алгоритме VGG16 использовалась в качестве базовой сети для извлечения признаков дефектов бумаги, где входным изображением было изображение бумаги из базы данных изображений дефектов бумаги. Во-вторых, два слоя деформируемой свертки были добавлены после четвертого и десятого слоев (то есть второго и четвертого строительных слоев) из 13 сверточных слоев исходной сверточной нейронной сети VGG16. Третий строительный слой выводит извлеченные текстурные признаки, а пятый строительный слой извлекает локальные характеристики объекта. Поэтому деформируемая свертка была добавлена перед двумя строительными слоями, и геометрическое преобразование с дополнительным смещением использовалось для эффективной обработки области дефекта бумаги, чтобы сделать извлеченные признаки изображения дефекта бумаги более точными и эффективно повысить точность классификации дефектов бумаги.
Структура сети извлечения признаков дефектов бумаги на основе деформируемой свертки показана на рис. 4.
https://cdn.apub.kr/journalsite/sites/ktappi/2022-054-02/N0460540205/images/JKTAPPI_2022_v54n2_37_f0...
Рис. 4. Структура деформируемой сверточной нейронной сети.
2) Деформируемый пулинг RoI
В этом алгоритме слой пулинга RoI в сети Faster R-CNN (показан на рис. 2) был заменен на деформируемый пулинг RoI. Поскольку деформируемый пулинг RoI имеет те же формы ввода и вывода, что и обычный слой пулинга RoI, соответствующие слои в существующей модели могут быть непосредственно заменены для более точной локализации области дефекта бумаги на изображении, чтобы провести более точную классификацию.
3) Настройка параметров деформируемой структуры
Структуры добавленного слоя деформируемой свертки и слоя деформируемого пулинга RoI были показаны на рис. 2 и рис. 3 соответственно. На рис. 2 дополнительный сверточный слой (поле смещения) для изучения смещения на верхнем пути и слой FC на рис. 3 были инициализированы нулем. Скорость обучения слоя деформации была согласована со скоростью обучения этого слоя.
3.3.2 Функция потерь
Глубокая сверточная нейронная сеть изучает параметры с помощью обратного распространения ошибки между результатами предсказания образцов данных и реальной меткой. Для задач классификации часто используемые функции потерь включают функцию кросс-энтропийных потерь, функцию потерь с большим зазором (hinge loss), функцию потерь с рампой (ramp loss) и функцию потерь центров (center loss). Функция потерь с рампой и функция потерь центров обычно используются в задачах классификации с большим количеством шумов в выборках. Для изображений дефектов бумаги, из-за простой среды сбора и меньшего количества шумов, в исследовании использовалась функция кросс-энтропийных потерь. Для задач классификации ее эффект обычно лучше, чем у функции потерь с большим зазором.Функция кросс-энтропийных потерь также называется функцией потерь softmax, которая описывается следующим образом:
В задаче классификации есть N обучающих выборок, которые разделены на классы C. Входной признак i-й выборки классификационного слоя — xi, а соответствующая ей реальная метка — yi ∈ {1,2,…,C}. Конечный выход сети (т.е. результат предсказания для выборки i) — h=(h1, h2,…, hc)^T, функция кросс-энтропийных потерь показана в уравнении (3).
(3) L = - (1/N) Σ_i Σ_c 1{yi = c} * log (h_c)
3.3.3 Регуляризация сети
Чтобы предотвратить явление переобучения модели и сделать модель обладающей высокой обобщающей способностью, использовалась технология «регуляризации» для контроля сложности модели, чтобы модель могла не только хорошо работать на обучающих выборках, но и показывать хорошие результаты классификации на новых данных и тестовых наборах.Dropout — это метод регуляризации сети, обычно используемый в полносвязном слое современных глубоких сверточных нейронных сетей. Это эффективный метод ансамблевого обучения для глубоких моделей, одновременно ограничивающий сложность сети. В определенной степени он смягчает сложную совместную адаптацию между нейронами и снижает «лень» между нейронами, тем самым избегая явления переобучения.
Принцип dropout описывается следующим образом:
В процессе обучения сети вес каждого нейрона в полносвязном слое случайным образом сбрасывается в ноль с вероятностью p (т.е. переводится в неактивное состояние). На этапе тестирования все нейроны активированы, но вес каждого нейрона должен быть умножен на 1-p, чтобы вес на этапах обучения и тестирования имел одинаковое ожидаемое значение.
4. Результаты и обсуждение
4.1 Экспериментальная среда и настройка параметров
4.1.1 Экспериментальная среда
Экспериментальная среда: операционная система Win10, процессор Intel Core™ I7-7500U, 8 ГБ ОЗУ, 256 ГБ SSD. Для построения и обучения модели использовалась платформа Matlab 2019b.4.1.2 Настройка параметров
1) Инициализация параметровВ процессе обучения сети инициализация сетевых параметров в значительной степени определяет конечную производительность сети. Чтобы получить лучший эффект обучения, в этой статье использовались параметры предварительно обученной модели вместо метода случайной инициализации. В предыдущей исследовательской работе (как описано в ссылке 15) модель VGG16 уже была обучена до сходимости с использованием изображений дефектов бумаги. Поэтому в этой работе параметры обучения модели были сохранены и загружены в сеть деформируемой свертки для обучения, чтобы изучить информацию о деформации ядра свертки.
2) Выбор оптимизатора для самообучения с учителем
В этой статье использовался самообучающийся оптимизатор Adam. Adam использует оценку момента первого порядка и момента второго порядка градиента для динамической настройки скорости обучения каждого параметра. Его преимущество заключается в том, что после коррекции смещения скорость обучения каждого итерационного процесса будет ограничена определенным диапазоном, что делает обновление параметров относительно стабильным.
Во время эксперимента базовая скорость обучения оптимизатора Adam составляла 0,001, а диапазон динамического изменения импульса составлял 0,9–0,99.
3) Другие настройки параметров
Максимальное количество итераций обучения установлено на 5000; размер пакета (batch size) составил 64. Во время обучения скорость обучения затухала каждые 5000 шагов, коэффициент затухания составлял 0,005.
4.2 Экспериментальные результаты и анализ
4.2.1 Сбор данных
В этом исследовании пять типов изображений дефектов бумаги и изображения без дефектов были собраны лабораторным оборудованием веб-контроля.Поскольку появление дефектов бумаги было маловероятным событием, для обучения и тестирования сверточной нейронной сети требуются большие наборы данных. Хотя метод переноса обучения и донастройки глубокой сверточной нейронной сети может снизить требование к размеру выборки, достаточные обучающие данные могут избежать проблемы переобучения. Поэтому, чтобы увеличить масштаб набора данных изображений дефектов бумаги, в процессе создания набора данных изображений дефектов бумаги использовались зеркальное отображение, вращение и другие операции (например, поворот изображений дефектов бумаги на 90°, 180° и 270°, что может увеличить набор данных изображений дефектов бумаги, сохраняя при этом характеристики изображений дефектов бумаги) и многократный сбор одного и того же дефекта бумаги при воздействии различных источников света для расширения набора данных. В итоге было получено 370 изображений загрязнений, 340 изображений отверстий, 280 изображений ярких пятен, 350 изображений складок, 360 изображений трещин и 300 изображений нормальной бумаги в качестве набора данных изображений дефектов бумаги. Обучающий набор и тестовый набор были разделены в соотношении 4:1.
4.2.2 Эффект распознавания и анализ тестовых образцов
Обученная модель была протестирована на данных тестового набора. Некоторые образцы и эффекты их распознавания показаны на рис. 5. Число после типа представляло вероятность принадлежности к этому типу. Как показано на рис. 5c, идентифицированная область была трещиной с вероятностью 0,86, что указывает на то, что с вероятностью 86% эта область была трещиной. Из результатов распознавания четырех типов дефектов бумаги и изображений с множественными дефектами бумаги, приведенных на рис. 5, видно, что правильность классификации и точность локализации алгоритма, предложенного в этой статье, были относительно хорошими.https://cdn.apub.kr/journalsite/sites/ktappi/2022-054-02/N0460540205/images/JKTAPPI_2022_v54n2_37_f0...
Рис. 5. Результаты обнаружения различных дефектов бумаги.
На рис. 6 показан эффект распознавания изображения с множественными дефектами бумаги. Как видно из Рис. 6, для изображений с множественными дефектами бумаги алгоритм, представленный в этой статье, может точно отметить несколько дефектов бумаги и выдать точные результаты классификации.
https://cdn.apub.kr/journalsite/sites/ktappi/2022-054-02/N0460540205/images/JKTAPPI_2022_v54n2_37_f0...
Рис. 6. Результат обнаружения множественных дефектов бумаги.
Между тем, размер изображений дефектов бумаги, показанных на рис. 5, составлял 224×224 пикселя, но на рис. 6 размер не был 224×224 пикселя (фактический размер двух изображений, показанных на рис. 6, составлял 689×516 пикселей). Видно, что алгоритм по-прежнему имел хороший эффект распознавания. Таким образом, предложенный алгоритм предъявляет строгие требования к размеру входных изображений дефектов бумаги.
Во время эксперимента проводился статистический анализ распознавания пяти типов дефектов бумаги и нормальных изображений бумаги без дефектов. Результаты показаны в Таблице 1. Определение нормального изображения бумаги без дефекта заключалось в том, что после того, как сеть предложения областей генерирует кадры-кандидаты, если все кадры-кандидаты были определены как фон, это изображение считалось нормальным изображением бумаги без дефекта.
Таблица 1. Результаты классификации тестовых образцов
|
Реальный тип |
Загрязнение |
Отверстие |
Яркое пятно |
Складка |
Трещина |
Нормальная бумага |
Правильное число |
Всего |
Точность (%) |
|
Загрязнение |
74 |
0 |
0 |
0 |
0 |
0 |
74 |
74 |
100 |
|
Отверстие |
0 |
65 |
3 |
0 |
0 |
1 |
65 |
68 |
95,59 |
|
Яркое пятно |
0 |
2 |
51 |
0 |
0 |
3 |
51 |
56 |
91,07 |
|
Складка |
0 |
0 |
0 |
67 |
1 |
2 |
67 |
70 |
95,71 |
|
Трещина |
0 |
0 |
0 |
1 |
69 |
2 |
69 |
72 |
95,83 |
|
Нормальная бумага |
0 |
0 |
0 |
0 |
0 |
60 |
60 |
60 |
100 |
|
Всего образцов |
|
|
|
|
|
|
386 |
400 |
96,50 |
1) Предложенный алгоритм показал высокую точность распознавания и классификации, достигающую более 90% для различных типов дефектов бумаги.
2) Для яркого пятна, из-за его низкой контрастности по сравнению с фоном бумаги, точность распознавания
4.2.3 Сравнительный анализ упрощенных моделей
Поскольку основная работа предложенного метода заключалась в изменении существующей структуры Faster R-CNN для ее применения к распознаванию дефектов бумаги, эффективность модифицированной структуры сети была важна для оценки работы данного исследования.Чтобы дополнительно подтвердить эффективность предложенной в данной статье структуры деформируемой свертки, структура деформируемой свертки, представленная на рис. 4, была дополнительно улучшена для сравнения. В ходе эксперимента первый и второй слои деформируемой свертки в сети, показанной на рис. 4, были удалены, а слой деформируемого пулинга RoI был заменен обычным пулингом RoI. Вышеуказанная упрощенная сетевая модель была обучена тем же экспериментальным методом, и точность классификации и скорость обнаружения были протестированы на тестовом наборе. Результаты сравнения показаны в Таблице 2.
Таблица 2. Результаты абляционного теста
| Модель | Точность (%) | Скорость распознавания (Единица: кадр/секунду) |
|---|---|---|
| Удаление первой деформируемой свертки | 95,45 | 1,2 |
| Удаление второй деформируемой свертки | 95,47 | 1,7 |
| Пулинг RoI | 94,45 | 1,4 |
| Faster R-CNN | 93,75 | 3,3 |
| Предложенная модель | 96,50 | 1,0 |
1) По сравнению с сетью обнаружения объектов Faster R-CNN до добавления деформируемой структуры, хотя скорость обнаружения была ниже, точность классификации была улучшена примерно на 3 процентных пункта.
2) Деформируемая сверточная нейронная сеть, предложенная в данной статье, показала самую высокую точность распознавания и классификации дефектов бумаги, а скорость обнаружения была почти такой же, как при удалении одного слоя деформируемой свертки или замене слоя пулинга.
Во всем процессе диагностики дефектов бумаги распознавание и классификация изображений дефектов бумаги были последним шагом, поэтому требования к работе в реальном времени были относительно низкими. В то же время возникновение дефекта бумаги было относительно маловероятным событием. Следовательно, после быстрого обнаружения на раннем этапе количество изображений бумаги, отправляемых на последний шаг для распознавания и классификации, было относительно небольшим. Основываясь на двух вышеуказанных причинах, скорость распознавания алгоритма, предложенного в данной статье, составляла около 1 кадра/секунду, то есть время обнаружения одного изображения составляло около 1 секунды, что в основном соответствует использованию на реальной производственной линии.
5. Заключение
Направленная на решение проблемы низкой точности распознавания дефектов бумаги, вызванной малой площадью изображения или неправильной формой изображения дефекта бумаги, собранного на реальной производственной линии, был предложен метод распознавания дефектов бумаги на основе двухэтапного алгоритма обнаружения изображений Faster R-CNN и деформируемой свертки. Из-за малой площади и неправильной формы дефектов бумаги точность классификации Faster R-CNN в процессе распознавания дефектов бумаги была низкой, а локализация — недостаточно точной. Для решения вышеуказанных проблем две деформируемые свертки были добавлены после традиционного слоя свертки для более точного извлечения характеристик дефектов бумаги. Затем деформируемый пулинг RoI был использован вместо обычного пулинга RoI, что сделало позиционирование более точным. Эксперименты показывают, что предложенный алгоритм имеет дальнейшее улучшение точности и масштабируемости по сравнению с предыдущим алгоритмом.Литература
1. Ni, J., Xu, J., and Hu, M.Y., Paper defects classifier design based on BP neural network, Transactions of China Pulp and Paper 25(2):76-78 (2010).2. Qu, Y. H., Tang, W., and Feng, B., Web inspection algorithm for low contrast paper defects based on artificial bee colony optimization, Journal of Korea TAPPI 52(2):43-51 (2020). doi:10.7584/JKTAPPI.2020.04.52.2.43
3. Qu, Y. H., Tang, W., and Wen, H., On-line detection and classification method based on background subtraction and SVM, Packaging Engineering 9(23):176-180 (2018).
4. Qu, Y. H., Tang, W., and Feng, B., Web inspection algorithm for low contrast paper defects based on artificial bee colony optimization, Journal of Korea TAPPI 52(2):43-51 (2020). doi:10.7584/JKTAPPI.2020.04.52.2.43
5. Li, G. M., Xue, D. H., and Jia, X. H., Paper defects classification based on multi-scale image enhancement combined with convolution neural network, China Pulp and Paper 8(37):47-54(2018).
6. Lu, Q. S., Research on object detection method based on deep learning, Beijing: Beijing University of Posts and Telecommunications 4:6 (2020).
7. Tian, H. L., Ding, S., and Yu, C. W., Research of video abstraction based on object detection and tracking, Computer Science 43(11):297-299 (2016).
8. Li, X. D., Ye, M., and Li, T., Review of object detection based on convolutional neural networks, Application Research of Computers 34(10):2881-2886, 2891 (2017).
9. Wu, X., Song, X. R., and Gao, S., Review of target detection algorithms based on deep learning, Transducer and Microsystem Technologies 40(02):4-7, 18 (2021).
10. Girshick, R., Donahue, J., and Darrell, T., Rich feature hierarchies for accurate object detection and semantic segmentation, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 580-587 (2017).
11. Ren, S., He, K., and Girshick, R., Faster R-CNN: Towards real-time object detection with region proposal networks, 29th Annual Conference on Neural Information Processing Systems, pp. 91-99 (2015).
12. Ma, J. L., Chen, B., and Sun, X. F., General objects detection framework based on improved faster R-CNN, Journal of Computer Application 41(9):2712-2719 (2021).
13. Cai, Z. X., Li, R. X., and Dai, Y. D., Fabric defect recognition system based faster R-CNN, Journal of Computer Application 30(2):83-88 (2021).
14. Cheng, Y., Xia, L. Z., and Yan, B., A defect detection method based on faster RCNN for power equipment, Journal of Physics: Conference Series 1754(1):1884-2022 (2021). doi:10.1088/1742-6596/1754/1/012025
15. Qu, Y. H., Tang, W., and Feng, B., Paper defects classification based on VGG16 and transfer learning, Journal of Korea TAPPI 53(2):5-14 (2021). doi:10.7584/JKTAPPI.2021.04.53.2.5
16. Dai, J., Qi, H., and Xiong, Y., Deformable convolutional networks, Proceedings of the 2017 IEEE International Conference on Computer Vision, pp. 764-773 (2017). doi:10.1109/ICCV.2017.89
17. Zhu, X., Hu, H., and Lin, S., Deformable ConvNets v2: more deformable, better results, 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 9300-9308 (2019). doi:10.1109/CVPR.2019.00953
18. Wu, S. M., Zhu, Y., and Wang, F., An electronic device container quality detection method based on cascade R-CNN, Computer and Modernization 2020(11):33-38, 46 (2020).