Ученые МТУСИ повысили производительность системы глубокой видеоаналитики PVision
В секторе «Технологии искусственного интеллекта» МТУСИ, которым руководит Громов Максим, ведутся научно-практические разработки в области глубокой видеоаналитики. Об этом порталу FBM.RU сообщила пресс-служба вуза.
В ходе работы сотрудники постоянно улучшают качество продукта, как по точности, так и по уменьшению вычислительной сложности.
Недавно появилась новая нейросетевая архитектура YOLOv8. Она зарекомендовала себя в области детектирования и классификации объектов на изображении. В YOLOv8 добавлена возможность сегментации объектов, а также повышена скорость ее функционирования.
YOLOv8 использует глубокую сверточную нейронную сеть, чтобы извлекать признаки из изображений, а затем выполнять детектирование объектов при помощи предсказания нейросети. Алгоритм также можно дополнительно обучить на пользовательских данных, что позволит улучшить его точность в конкретной области применения.
Для обучения YOLOv8 требуется два условия: большие датасеты и более мощные сервера. Со второй частью специалисты справились, ведь в МТУСИ был кластер серверов с графическими ускорителями NVIDIA TESLA A100. А в качестве набора данных использовался самый большой датасет из открытых источников – GrowdHuman. Помимо этого эксперты собрали собственный датасет из видеоматериалов с более чем 100 камер, с разным уровнем освещенности, углом обзора и другими внешними факторами. Как результат, получился датасет, который состоит более чем из 70000 объектов. Его назвали MTUCI.Human.
Архитектура YOLOv8 была впервые обучена на столь большом датасете. Это стало следствием значительного прироста точности детектирования (>97%) и классификации (>90%). Ученые проводили тесты в режиме реального времени на действующей системе видеонаблюдения (более 50 камер).
Обучению подвергались такие модели YOLOv8, как Nano, Small, Medium и Large. Благодаря этому можно использовать, как простые IoT устройства с небольшими вычислителями, так и высокоточные модели, которые есть в составе программного комплекса PVision-SaaS.
Команда Громова смогла повысить скорость и качество работы уже имеющихся сервисов по детектированию объектов, например распознавание средств индивидуальной защиты, определение марки и типа транспортного средства, определение пола и возраста людей, подсчет потока людей, автомобилей и других объектов.
На данный момент специалисты проводят исследования применения данной модели для детектирования и распознавания объектов с помощью видеокамер, которые установлены на борту беспилотных летательных аппаратов.