doi: 10.18698/2309-3684-2025-3-85102
Статья посвящена разработке многоагентной модели эвакуации, учитывающей физические характеристики агентов (возрастные категории, скорость, маневренность), уровень паники, социальные взаимодействия в группах типа «лидер–последователь» и наличие нескольких эвакуационных выходов, открывающихся c заданным интервалом (рассматривался интервал 6 секунд). Для обучения поведения агентов используется алгоритм Multi-Agent Proximal Policy Optimization (MAPPO). Используется гибридное пространство действий, сочетающее дискретный выбор выхода и непрерывное управление движением. Обучение проводится по принципу «curriculum learning» с постепенным наращиванием количества агентов. Это позволяет агентам адаптироваться к сложным сценариям с высокой скученностью и улучшить обобщающую способность модели для экспериментов с разным числом агентов. Среда представляет собой помещение заданных размеров (рассматривались помещения 15×20 м) с заданным количеством выходов определенной ширины (рассматривалось 3 выхода по 1,5 м). В модель заложена логика распространения информации о выходах. Индивидуальные агенты узнают информацию о новых открытых выходах в радиусе 5 м и передают сигнал соседям. Лидеры изначально знают обо всех доступных выходах вне зависимости от расстояния. Предусмотрен механизм распространения паники в зависимости от скученности агентов, расстояния до выхода и прошедшего времени с начала эвакуации. Введены специфические правила поведения для социальных групп: лидеры принимают стратегические решения, а пожилые последователи получают бонус к скорости при следовании за лидером. В текущей реализации выбор выхода для индивидуальных агентов основан на кратчайшем расстоянии агента до него. В социальных группах решение о выборе выхода принимается лидером на основе среднего расстояния всех агентов. Проведены вычислительные эксперименты для 40 агентов в различных сценариях: с разным числом лидеров (2–16) и без групп (индивидуальная эвакуация). Проведенные вычислительные эксперименты показали, что в рассматриваемых условиях сценарии с социальными группами приводят к более быстрой эвакуации (снижение общего времени составило около 38%). Также при групповой эвакуации наибольшее преимущество получают уязвимые агенты, в рассматриваемом случае – пожилые. Оптимальное число лидеров составляет 4–6: дальнейшее увеличение их количества не дает статистически значимых улучшений. По итогам экспериментов зафиксировано снижение количества столкновений и меньший уровень паники при таком числе лидеров. Полученные результаты демонстрируют практическую применимость подхода MAPPO к задачам анализа процессов эвакуации в реалистичных условиях.
[1] Коткова Е.А., Матвеев А.В., Нефедьев С.А. и др. Агентное моделирование процесса эвакуации людей при пожарах в зданиях: обзор подходов и исследований. Современные наукоемкие технологии, 2023, № 10, с. 55–62.
[2] Zia K., Ferscha A. An agent-based model of crowd evacuation: combining individual, social and technological aspects. Proceedings of the 2020 ACM SIGSIM conference on principles of advanced discrete simulation. New York, Association for Computing Machinery, 2020, pp. 129–140.
[3] Коткова Е.А. Перспективы применения искусственных нейронных сетей при моделировании процесса эвакуации. Пожарная и техносферная безопасность: проблемы и пути совершенствования, 2020, № 1(5), с. 359–361.
[4] Суханов В.О., Кузьмин А.И., Скороходов Д.В. Геоинформационная система поддержки принятия решений на эвакуацию населения. Пожарная безопасность: проблемы и перспективы, 2019, т. 1, № 10, с. 411–413.
[5] Сажин И.С., Головенко Е.Л., Чаниев Б.Ю. и др. Интеллектуальная система оповещения и управления эвакуацией людей на основе информационного моделирования чрезвычайных ситуаций в здании. Наука, техника и образование, 2021, № 4(79), с. 40–44.
[6] Коткова Е.А., Матвеев А.В. Методика интеллектуального прогнозирования эффективности управления эвакуацией людей из общественных зданий. Вестник Санкт-Петербургского университета Государственной противопожарной службы МЧС России, 2021, № 4, с. 107–120.
[7] Цвиркун А.Д., Резчиков А.Ф., Самарцев А.А. и др. Интегрированная модель динамики распространения опасных факторов пожара в помещениях и эвакуации из них. Вестник компьютерных и информационных тех-нологий, 2019, т. 2, № 176, с. 47–54.
[8] Цвиркун А.Д., Резчиков А.Ф., Самарцев А.А. и др. Система интегрированного моделирования распространения опасных факторов пожара и эвакуации людей из помещений. Автоматика и телемеханика, 2022, № 5, с. 26–42.
[9] Samartsev A., Ivaschenko V., Rezchikov A., et al. Multiagent model of people evacuation from premises while emergency. Advances in Systems Science and Applications, 2019, vol. 19, no. 1, pp. 98–115.
[10] Гамаюнова В.О., Богомолов А.С., Кушников В.А. и др. Мультиагентное моделирование эвакуации из помещений с учетом столкновений агентов. Известия Саратовского университета. Новая серия. Серия: Математика. Механика. Информатика, 2025, т. 25, № 1, с. 106–115.
[11] Rosa A.C., Falqueiro M.C., Bonacin R., et al. EvacuAI: An Analysis of Escape Routes in Indoor Environments with the Aid of Reinforcement Learning. Sensors, 2023, vol. 23, no. 21, art. no. 8892.
[12] Ünal A.E., Gezer C., Pak B.K., et al. Generating emergency evacuation route directions based on crowd simulations with reinforcement learning. 2022 Innovations in Intelligent Systems and Applications Conference ASYU. Antalya: IEEE, 2022, pp. 1–6.
[13] Xu D., Huang X., Mango J., et al. Simulating multi-exit evacuation using deep reinforcement learning. Transactions in GIS, 2021, vol. 25, no. 3, pp. 1542–1564.
[14] Malebary S.J., Basori A.H., Soliman alkayal E. Reinforcement learning for Pedestrian evacuation Simulation and Optimization during Pandemic and Panic situation. Journal of Physics: Conference Series, 2021, vol. 1817, no. 1, art. no. 012008.
[15] Komatsu H. Multi-agent reinforcement learning using echo-state network and its application to pedestrian dynamics. arXiv preprint arXiv:2312.11834, 2023.
[16] Sinpan N., Sasithong P., Chaudhary S., et al. Simulative Investigations of Crowd Evacuation by Incorporating Reinforcement Learning Scheme. ICACS '22: Proceedings of the 6th International Conference on Algorithms, Computing and Systems. New York: Association for Computing Machinery, 2022, pp. 1–5.
[17] Hassanpour S., Rassafi A.A., González V.A., et al. A hierarchical agent-based approach to simulate a dynamic decision-making process of evacuees using reinforcement learning. Journal of choice modelling, 2021, vol. 39, art. no. 100288.
[18] Schulman J., Wolski F., Dhariwal P., et al. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347, 2017.
[19] Yu C., Velu A., Vinitsky E., et al. The Surprising Effectiveness of PPO in Co-operative Multi-Agent Games. arXiv preprint arXiv:2103.01955, 2022.
[20] Liu Z., Yao C., Na W., et al. MAPPO-Based Optimal Reciprocal Collision Avoidance for Autonomous Mobile Robots in Crowds. 2023 IEEE International Conference on Systems, Man, and Cybernetics SMC. Honolulu: IEEE, 2023, pp. 3907–3912.
[21] Guo Y., Liu J., Yu R., et al. MAPPO-PIS: A Multi-agent Proximal Policy Optimization Method with Prior Intent Sharing for CAVs Cooperative Deci-sion-Making. Computer Vision – ECCV 2024 Workshops. Cham: Springer Nature Switzerland, 2025, pp. 244–263.
[22] Shixin Z., Feng P., Anni J., et al. The unmanned vehicle on-ramp merging model based on AM-MAPPO algorithm. Scientific Reports, 2024, vol. 14, no. 1, art. no. 19416.
[23] Lowe R., Wu Y., Tamar A., et al. Multi-agent actor-critic for mixed cooperative-competitive environments. Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc, 2017, pp. 6382–6393.
[24] Xiong J., Wang Q., Yang Z., et al. Parametrized Deep Q-Networks Learning: Reinforcement Learning with Discrete-Continuous Hybrid Action Space. arXiv preprint arXiv:1810.06394, 2018.
[25] Srivastava N., Hinton G., Krizhevsky A., et al. Dropout: a simple way to prevent neural networks from overfitting. Journal of Machine Learning Re-search, 2014, vol. 15, no. 56, pp. 1929–1958.
[26] Gal Y., Ghahramani Z. Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning. Proceedings of The 33rd International Conference on Machine Learning. New York: PMLR, 2016, pp. 1050–1059.
[27] Narvekar S., Peng B., Leonetti M., et al. Curriculum Learning for Rein-forcement Learning Domains: A Framework and Survey. Journal of Machine Learning Research, 2020, vol. 21, no. 181, pp. 1–50.
[28] Sutton R.S., Barto A. Reinforcement learning: an introduction. Second edition. Cambridge, The MIT Press, 2018, 552 p.
[29] Lillicrap T.P., Hunt J.J., Pritzel A., et al. Continuous control with deep reinforcement learning. arXiv preprint arXiv:1509.02971, 2015.
[30] Об утверждении свода правил СП 1.13130 «Системы противопожарной защиты. Эвакуационные пути и выходы»: Приказ МЧС России от 19 марта 2020 г. N 194. Москва. 2020.
[31] Trivedi A., Rao S. Agent-Based Modeling of Emergency Evacuations Considering Human Panic Behavior. IEEE Transactions on Computational Social Systems, 2018, vol. 5, no. 1, pp. 277–288.
[32] Ding N., Sun C. Experimental study of leader-and-follower behaviours during emergency evacuation. Fire Safety Journal, 2020, vol. 117, art. no. 103189.
[33] Wang L., Zheng J., Zhang X., et al. Pedestrians behavior in emergency evacuation: Modeling and simulation. Chinese Physics B, 2016, vol. 25, no. 11, art. no. 118901.
Силинская А.А., Богомолов А.С., Кушников В.А. Моделирование эвакуации из помещений с учетом социальных групп и множественных выходов. Математическое моделирование и численные методы, 2025, № 3, с. 85–102.
Количество скачиваний: 4