Кваліфікаційна роботапояснювальна записка сторінка 5

ігровими інтелектом. Суперники, що отримані з платформи Kaggle,
побудовані на основі адаптивного штучного інтелекту (таблиця 4.3).
Таблиця 4.3 – Ефективність роботи нового агенту порівняно з агентами із
іншими популярними адаптивними ігровими інтелектами для ігри «Змійка»
Назва суперника
Опис
Ймовірність перемоги
Smart Geese genetic_agent
Ігровий штучний інтелект на основі генетичних алгоритмів.
67%
inclined_risk_agent
Ігровий штучний інтелект на основі жадібної політики зі
схильністю використовувати ризик та нейронної мережі на основі згорткових шарів
56%
risk_averse_greedy
Ігровий штучний інтелект на основі жадної політики та нейронної мережі на основі
згорткових шарів.
60%

57 4.2 Аналіз взаємодії адаптивних ігрових агентів
4.2.1 Опис обладнання та програмного забезпечення для тестування
Тестування програмного забезпечення − це процес, що призначений для виявлення інформації про якість продукту відносно контексту, в якому він має використовуватись.
Тестування ігрового штучного інтелекту проводиться на ігровому полі
при взаємодії об’єктів ігри. Останньою платформою для тестування є Kaggle,
де агент може зіграти із іншими агентами на одному ігровому полі і отримати оцінку в залежності від того, який агент виграв ігрову партію.
Kaggle виконує більше 50 ігрових сесій із одними і тими агентами, щоб отримати точний результат того, який агент збирає найбільшу кількість фруктів.
Програма була протестована на наступних машинах:
-
Intel Core i5 2.3 GHz, 8Gb RAM, MacOS Catalina;
-
AMD Ryzen 3.6 GHz, 32 Gb RAM, Windows 10, RTX 2070 Super.
4.2.2 Тестування агенту в режимі реального часу
Для демонстрації ігрового процесу було розгорнуто застосунок на платформу Kaggle. Початковий статус ігрового поля наведено на рисунку 4.5.
Ігрове поле – це матриця, 7 рядків та 11 колонок. Агенти розміщуються в довільному порядку, що згенерований платформою. Так як назва змагання,
де можливо виконувати агенти, є «Hungry Geese», тому агенти мають вигляд гусаків, але по поведінці кожен агент грає як змійка. Фрукти розміщуються та появляються у випадкових клітинках на ігровому полі. Щоб зрівняти шанси кожного агенту платформа має обмеження, що фрукти не можуть знаходитися рядом. Максимальна кількість фруктів, які одночасно можуть знаходиться на ігровому полі, дорівнює 2.

58
На платформу було надано 4 агенту, серед яких ігровий штучний
інтелект, створений в ході кваліфікаційної роботи, та агенти, що побудовані
на основі таких підходів:
- жадібна політика та нейронна мережа на основі згорткових шарів;
- жадібна політика зі схильністю використовувати ризик та нейронна мережа на основі згорткових шарів;
- генетичний алгоритм.
Кожен агент представлений наступними різними кольорами гусаків.
Агент номер 1 представлений синім кольором, агент номер 2 представлений зеленим кольором, агент номер 3 представлений білим кольором, а ігровий штучний інтелект, створений в ході кваліфікаційної роботи, представлений червоним кольором. Завданням кожного агенту є збір фруктів та уникнення зіткнення із тілом суперника та самим собою.
Рисунок 4.5 – Функція запуску ігрового середовища та агентів всередині
Після запуску застосунку, платформа Kaggle інтегрує агентів в ігрове середовище і запускає суперників одночасно, агенти починають гру в однакових умовах. При вживанні фрукта «Змійка» росте в довжину (рисунок
4.6).

59
Рисунок 4.6 – Стан ігрового середовища після виконання 30 кроків
Після 30 кроків всі агенти присутні на ігровому полі і продовжують збирати фрукти. Після виконання 70 кроків червоний агент відстає на 2
фрукта від агенту, побудованого на основі генетичних алгоритмів, і займає 2
місце серед всіх змійок (рисунок 4.7).
Рисунок 4.7 – Стан ігрового середовища після виконання 70 кроків

60
Після виконання 90 кроків більшість агентів починає стикатися з другими агентами із-за великої довжини «хвоста» змійок. На 90 кроках помирає штучний інтелект на основі генетичних алгоритмів та штучний
інтелект на основі жадної політики та нейронної мережі на основі згорткових шарів. Після виконання 103 кроків агент 1 стикається із самим собою і
червоний агент залишається єдиним. Так як агент залишився посліднім, то він був здатний зібрати всю необхідну їжу, щоб вирватися вперед серед всіх агентів (рисунок 4.8).
Рисунок 4.8– Стан ігрового середовища після виконання 103 кроків
Головною особливістю агенту було те, що він не мав схильності
зібрати найбільшу кількість їжі за невеликий проміжок часу, а збирав фрукти послідовно балансуючи свій розмір та шанс колізії з іншими змійками.
Отже, було продемонстровано роботу створеного агенту на ігровому полі використовуючи платформу Kaggle, та інших агентів, що представлені
розробниками на сайті змагання на даній платформі. Дана демонстрація представляла собою одну із зіграних партій серед 4 змійок.

61
ВИСНОВКИ
В результаті виконання кваліфікаційної роботи досліджені методи забезпечення адаптивності ігрового штучного інтелекту, на прикладі
реалізації динамічного агенту для ігри «Змійка» на основі моделей навчання з підкріпленням (Reinforcement learning).
Проведений аналіз предметної області, створено тестове ігрове середовище для гри «Змійка» для попереднього тестування ігрових агентів,
що побудовані з використання різних методів. Для побудови ігрових агентів використані Deep Q-Learning neural network та Monte-Carlo tree search, що допомогло створити базові моделі поведінки агентів.
Покращена ефективність агентів за допомогою великої кількості
симуляцій, модифіковано параметри ігрового штучного інтелекту, і згідно результатів було змінено архітектуру нейронної мережі для досягнення шансу виграшу агенту більше 60 відсотків, у порівнянні з іншими агентами на платформі «Kaggle».
Для підсумкового тестування агентів було використано середовище змагання «Hungry Geese» платформи «Kaggle». Створений агент був випробуваний із іншими агентами і показав високий шанс виграшу порівняно з аналогами. Він має високу здатність до збору фруктів та досить великий час життя порівняно з аналогами, але не має схильності до збору фруктів доки всі агенти присутні на ігровому полі.
В майбутньому можливо покращити ефективність адаптивного
ігрового штучного інтелекту шляхом налаштування комплексних моделей та ансамблів методів обчислювального інтелекту.

62
ПЕРЕЛІК ДЖЕРЕЛ ПОСИЛАННЯ
1. Супруненко, М. Ю. Методи забезпечення адаптивності ігрового штучного інтелекту [Текст] / М. Ю. Супруненко, Г. С. Іващенко //
I Міжнародна наукова конференція «Комплексний підхід до модернізації
науки: методи, моделі та мультидисциплінарність». – Вінниця, 2021. – Том 2.
– С. 32–34. DOI: https://doi.org/10.36074/mcnd-19.11.2021.
2. Espeholt L. IMPALA: Scalable Distributed Deep-RL with Importance
Weighted Actor-Learner Architectures [Текст] / L. Espeholt, H. Soyer //
Proceedings of the 35th International Conference on Machine Learning. – 2018. –
P. 1–10.
3. HandyRL [Електронний ресурс] – Режим доступу : www/ URL:
https://github.com/DeNA/HandyRL. – 11.11.2021 г. – Загл. з екрану.
4. Mnih V. Playing Atari with Deep Reinforcement Learning [Текст] /
V. Mnih, K. Kavukcuoglu // NIPS Deep Learning Workshop 2013. – 2013. – P. 1–
9.
5. Henderson P. An Introduction to Deep Reinforcement Learning [Текст] /
P. Henderson, V. François-Lavet // An Introduction to Deep Reinforcement
Learning. – 2018. – P. 2–5.
6. Kaiser Ł. Model Based Reinforcement Learning for Atari [Текст] /
Ł. Kaiser, M. Babaeizadeh // ICLR 2020. – 2020. – P. 1–2.
7. Zhang J. Exploration of Reinforcement Learning to SNAKE [Текст] /
J. Zhang, M. Tang, B. Ma // 2019 International Conference on Computational
Science and Computational Intelligence (CSCI). – 2019. – P. 1–5.
8. Kaggle [Електронний ресурс] – Режим доступу : www/ URL:
https://www.kaggle.com/. – 11.11.2021 г. – Загл. з екрану.
9. Hungry Geese [Електронний ресурс]– Режим доступу : www/ URL:
https://www.kaggle.com/c/hungry-geese/. – 11.11.2021 г. – Загл. з екрану.
10. Paszke A. An Imperative Style, High-Performance Deep Learning

63
Library [Текст] / A. Paszke, S. Gross // NeurIPS. – 2019. – P. 1–12.
11. Python [Електронний ресурс] – Режим доступу : www/ URL:
https://www.python.org. – 11.11.2021 г. – Загл. з екрану.
12. Scalable Distributed Deep-RL with Importance Weighted Actor-Learner
Architectures [Електронний ресурс] – Режим доступу : www/ URL:
https://github.com/deepmind/scalable_agent/tree/6c0c8a701990fab9053fb338ede9
c915c18fa2b1. – 11.11.2021 г. – Загл. з екрану.
13. Bing Z. Energy-Efficient Slithering Gait Exploration for a Snake-like
Robot based on Reinforcement Learning [Текст] / Z. Bing, C. Lemke // IJCAI. –
2019. – P. 1–5.
14. Fitzek D. Deep Q-learning decoder for depolarizing noise on the toric code [Текст] / D. Fitzek, M. Eliasson. – P. 1–17.
15. Swaminathan A. Off-Policy Policy Gradient with State Distribution
Correction [Електронний ресурс] / A. Swaminathan, 1. Liu. – 2019. – P. 1–17.
16. Islam R. Off-Policy Policy Gradient Algorithms by Constraining the
State Distribution Shift [Текст] / R. Islam, K. Teru. – 2019. – P. 1–13.
17. Chaslot G. Monte-Carlo Tree Search: A New Framework for Game AI
[Текст] / G. Chaslot, S. Bakkes // AIIDE. – 2008. – P. 1–2.
18. Gelly S. Monte-Carlo tree search and rapid action value estimation in computer Go [Текст] / S. Gelly, D. Silver. – 2011. – P. 1–5.
19. Silver D. A general reinforcement learning algorithm that masters chess,
shogi, and Go through self-play [Текст] / D. Silver, T. Hubert. – 2018. – P. 1–3.
20. Hendrycks D. Gaussian error linear units (GELUS) [Текст] / D.
Hendrycks, K. Gimpel. – 2016. – P. 1–9.
21. Frey B. Adaptive dropout for training deep neural networks [Текст] /
B. Frey, L. Ba // NIPS. – 2013. – P. 1–2.
22. N Tsitsiklis J. analysis of temporal difference learning with function approximation. [Текст] / J. N Tsitsiklis, V. Roy // NIPS. – 1996. – P. 1–2.
23. V J. analysis of temporal difference learning with function approximation [Текст] / J. V, B. Van Ro // NIPS. – 1996. – P. 1–7.

64 24. Sallans B. Reinforcement Learning with Factored States and Actions
[Текст] / B. Sallans, G. E. Hinton // J. Mach. Learn. Res. – 2004. – P. 1–2.
25. Jen L. An application of SARSA temporal difference learning to Super
Mario [Текст] / Lucas Jen – 2004. – P. 1–2.
26. Hungry Geese – Agents Comparison [Електронний ресурс] – Режим доступу : www/ URL: https://www.kaggle.com/ihelon/hungry-geese-agents- comparison. – 11.11.2021 г. – Загл. з екрану.
27. Wirth R. CRISP-DM: Towards a Standard Process Model for Data
Mining [Текст] / R. Wirth, J. Hipp – 2005. – P. 1–5.
28. Cross-validation: evaluating estimator performance
[Електронний ресурс]
–
Режим доступу
:
www/
URL:
https://scikit- learn.org/stable/modules/cross_validation.html. – 11.11.2021 г. – Загл. з екрану.