СЦБИСТ - железнодорожный форум, блоги, фотогалерея, социальная сеть - [04-2024] Особенности алгоритма распознавания номера вагона по изображению

Особенности алгоритма распознавания номера вагона по изображению

ЛЮБЧЕНКО Александр Александрович, Филиал № 11 ООО «ОЦРВ» Сириус, лаборатория искусственного интеллекта и нейронных сетей, заведующий лабораторией, Омский государственный технический университет, доцент, канд. техн, наук, г. Сочи, Россия
СМОЛИН Илья Юрьевич, Филиал № 11 ООО «ОЦРВ» Сириус, лаборатория искусственного интеллекта и нейронных сетей, старший специалист по анализу данных, г. Сочи, Россия

Ключевые слова: ИИ, компьютерное зрение, нейронная сеть, детектирование, номер вагона
Аннотация. Стратегия цифровой трансформации холдинга «РЖД» предполагает активное использование технологии искусственного интеллекта для снижения операционных затрат и увеличения выручки от предоставляемых услуг. Области применения интеллектуальных сервисов на базе технологий ИИ в рамках компании многочисленны. В работе [1] авторы с помощью компьютерного зрения распознают движения человека в рамках задачи нормирования рабочего времени. В [2] рассмотрены вопросы идентификации подвижных единиц железнодорожного транспорта по их геометрическим параметрам. Искусственные нейронные сети также были применены для составления расписаний графика движений поездов [3] и прогнозирования объемов грузоперевозок [4].
В статье представлено решение для распознавания номера грузового железнодорожного вагона по изображению с применением методов компьютерного зрения.

http://morepic.ru/images3/4575869809..._7218_3780.jpg

В рамках развития основного инструмента управления активами вагонного хозяйства ЕК АСУВ предполагается разработка мобильного приложения осмотрщика вагонов на станциях для обеспечения полного и достоверного учета выполняемых работ, сокращения времени на их регистрацию, а также повышения качества данных по выполняемым операциям и оперативного получения актуальной информации.
Для достижения таких целей в мобильном приложении необходимо предусмотреть функцию распознавания номера вагона с помощью камеры мобильного устройства и функцию распознавания речи осмотрщика в части ввода основных данных о поезде голосом.

Задача распознавания номера железнодорожного вагона не нова. Существуют разработки [5-7], предоставляющие целую систему, содержащую набор камер и датчиков.
В данной работе представлена реализация собственного решения для распознавания номера грузового вагона по изображению с применением методов компьютерного зрения на мобильном устройстве с точностью не ниже, чем у упомянутых разработок. Также приведены результаты тестирования, подтверждающие эффективность примененных подходов для достижения высокого качества распознавания по сравнению с существующими аналогами.
Предложенный алгоритм распознавания содержит два главных блока: детектирование области номера и распознавание цифр восьмизначного номера вагона.

На первом этапе входное изображение масштабируется до определенных размеров и подается в сеть детектирования объектов. На выходе из нейронной сети получаются ограничивающие прямоугольники с номерами вагонов. Далее по найденным координатам изображение кадрируется и масштабируется до 512x128 пикселей.
Полученное изображение подается в конволюци-онную рекуррентную сеть для распознавания цифр номера вагонов, на выходе из модели выдается распознанный номер вагона. Далее этот номер проверяется на контрольную сумму. Если сумма верна, то номер распознан правильно, иначе - распознан с ошибкой.
В качестве сети для детектирования номера была выбрана готовая архитектура YoloV5 [8], которая имеет приемлемое качество работы и высокую скорость инференса (непрерывная работа нейронной сети на конечном устройстве), а также легко конвертируется под мобильные устройства.
Для обучения сети детектирования объектов использовались изображения из открытых источников. Набор данных содержит более 4,5 тыс. изображений с различными углами обзора, расстоянием до вагона, освещением и погодными условиями.
При обучении применялись аугментации данных [9]: поворот изображения, масштабирование, отражение по горизонтали, мозаика изображений, изменение оттенка и насыщенности изображения, а также смешивание изображений в некотором соотношении (mixup). Аугментация позволяет создать дополнительные данные, чтобы бороться с проблемой переобучения нейросетей.
Обучение проводилось на двух вариантах сети YoloV5: N и S. Параметры обучения: размер входного изображения - 640x640 (320x320), batch_size - 32, количество эпох обучения 200, видеокарта - Nvidia DGX-V100. Результаты экспериментов на отложенной тестовой выборке представлены в табл. 1.
Из таблицы видно, что метрика детекции тАР@0.5 составляет 0,893 при модели YoloV5s, что является очень хорошим результатом для задачи детектирования объектов.
Задача распознавания номера вагона решалась с помощью архитектуры CRNN, где совмещаются сверточные и рекуррентные нейронные сети.
В качестве модели для извлечения признаков используются первые три блока сети ResNet34 с дополнительным первым слоем со сверткой 7*7 и шагом 1 для увеличения ширины изображения после извлечения признаков. Один блок ResNet состоит из 3, 4 и 6 остаточных блоков с 64, 128 и 256 выходными каналами соответственно. После ResNet-блоков используется операция Adaptive Average Pooling для адаптивного усреднения по входному 2Б-сигналу. Далее идут 3 блока двунаправленной рекуррентной сети BiGRU для работы с последовательностями и финальный полносвязный слой (FC).
Для повышения разнообразия в обучающем наборе были использованы аугментации, в том числе собственная нестандартная реализация, которая имитирует различные загрязнения и подтеки на вагоне.
Параметры обучения: размер входного изображения - 512x128, batch_size - 48, количество эпох обучения 250, learning_rate (скорость обучения) -OneCycleLR (maxjr = 0,001) [10], видеокарта - Nvidia DGX-V100.
Первые эксперименты проходили путем добавления одной аугментации к базовому решению, далее обучение проводилось с полным набором выбранных аугментаций. Также применялось изменение скорости обучения (разогрев) и предварительное масштабирование изображений при подаче в нейронную сеть.
Эксперименты показали, что комбинация всех аугментаций и изменение скорости обучения (learning rate) с предварительным масштабированием позволяют повысить метрику качества CER (частоту ошибок в символах) до 0,015.
Для того, чтобы выполнить сравнительный анализ качества работы предложенного решения в рамках вычисляемых метрик, CER и точности детектирования номера были протестированы известные архитектуры Keras-OCR и Tesseract-OCR, так как для них можно вычислить интересуемые метрики качества. Результаты расчета представлены в табл. 2.
Можно сделать вывод, что в среднем точность предложенного решения увеличилась на 37 %, а частота ошибок в символах (CER) уменьшилась на 94 %.

С целью интеграции разработанного решения в приложение под мобильную платформу все обученные модели были сконвертированы в формат tflite. Подробное руководство по данной процедуре представлено в [11].
Цифровизация технологических и производственных процессов на железнодорожном транспорте остается одной из приоритетных задач в отрасли. Технологии компьютерного зрения позволяют автоматизировать функции, основанные на зрительном восприятии человеком, тем самым снизив влияние человеческого фактора и одновременно повысив качество данных.
Специалистами ОЦРВ были обучены две нейронные сети для детектирования и распознавания номера, подобраны параметры обучения, применяемые аугментации, в том числе собственной нестандартной реализации. Была решена проблема переобучения и повышена устойчивость работы модели в неблагоприятных условиях (низкое освещение кадра, большой угол съемки, загрязненность номера). Реализованный алгоритм достигает высокого качества как в задаче нахождения объектов (точность детектирования не менее 98 %), так и в задаче распознавания символов (частота символьных ошибок не более 0,015).
Разработанное цифровое решение имеет ярко выраженную практическую значимость и планируется к внедрению в мобильное приложение осмотрщика грузовых вагонов, применяемое сегодня работниками при выполнении операции на пунктах технического осмотра. Оно может быть рассмотрено как опытная технология не только для мобильных комплексов, но и стационарных устройств контроля.

Применение данной технологии с высокими показателями качества работы в стационарных системах без непосредственного участия человека позволит снизить долю операций в опасной зоне и тем самым повысить безопасность труда.

СПИСОК источников

1. Штехин С.Е., Карачев Д.К., Иванова Ю.К. Разработка алгоритма распознавания движений человека методами компьютерного зрения в задаче нормирования рабочего времени//Труды Института системного программирования РАН. 2020. Т. 32, №. 1. С. 121-136.
2. Ромкин М.В. Идентификация объектов железнодорожного подвижного состава по их геометрическим параметрам // Труды X Международной конференции «Идентификация систем и задачи управления». М. : Институт проблем управления, 2015. С. 738-750.
3. Игнатенков А. В., Ольшанский А. М. Применение искусственной нейронной сети для построения расписаний процессов на примере графика движения поездов// Современные информационные технологии и ИТ-образование. 2015. Т. 2, № 11. С. 50-55.
4. Якупов Д.Т., Рожко О.Н. Перспективы применения искусственных нейронных сетей для прогнозирования объемов грузоперевозок в транспортных системах//Статистика и Экономика. 2017. № 5. С. 49-60.
5. Intlab Wagon. SDK распознавания номеров грузовых вагонов // Intlab видеоаналитика [сайт компании]. URL: https://www.intlab.com/products/intlab-wagon (дата обращения: 22.11.2022).
6. АРДИС // Mallenom Systems : [сайт компании]. URL: https://www.mallenom.ru/products/videokontrol-i-uchet-zhd-transporta/ardis/ (дата обращения: 22.11.2022).
7. Система регистрации и распознавания номеров жд вагонов и цистерн «ИНТЕГРА-ВИДЕО-ЖД» // Консорциум Интегра-С [сайт компании]. 2023. URL: https://www. integra-s.ru/raspoznavanie-zhd-nomerov/ (дата обращения: 22.11.2022).
8. Семейство моделей Y0L0v5. [Электронный ресурс]. URL: https://github.com/ultralytics/yolov5 (дата обращения: 22.11.2022).
9. Learning data augmentation strategies for object detection = Аугментация данных в нейронных сетях / В. Zorf, E.D. Gubuk, G. Ghiasi, Ts.-Y. Lin, J. Shlens, Q.V. Le//ArXive: 1906.11172v1.2019. June 11. 13 p. URL: https://arxiv.org/ pdf/1906.11172v1.pdf (дата обращения: 22.11.2022).
10. Onecycle LR // PyTorch [портал]. 2023. URL: https:// pytorch.org/docs/stable/generated/torch.optim.lr_scheduler. OneCycleLR.html (дата обращения: 22.11.2022).
11. Развертывание моделей машинного обучения на мобильных и периферийных устройствах // TensorFlow [сайт]. URL: https://www.tensorflow.org/lite (дата обращения: 22.11.2022).