Створили штучний інтелект, який здатен вигравати у всі ігри на світі

П'ятниця, 07 грудня 2018, 03:37

Розробники революційної самонавчальної системи штучного розуму AlphaGo Zero оголосили про створення нової версії цієї машини, здатної самостійно вчитися грати в будь-яку настільну гру і обігравати людей

Її опис було представлено в журналі Science, передає Depo.ua.

Система ІІ AlphaGo була розроблена Девідом Сільвером і його колегами в кінці 2014 року, і її робота була "протестована" на чемпіоні Європи Фані Хої, який програв усі п'ять матчів машині. У березні 2016 року AlphaGo переміг чемпіона світу з го, Лі Седола, в серії з п'яти матчів, тільки один з яких завершився перемогою людини.

Сільвер і його команда створили принципово нову нейронну мережу, яка базується на так званих алгоритмах навчання з підкріпленням. Ця нейромережа, на відміну від її попередників, почала свою роботу з стану абсолютного новачка з нульовим багажем знань.

Успішне завершення експериментів з AlphaGo Zero змусило Сільвера і його команду задуматися про те, чи можна застосувати аналогічну нейромережу для завоювання корони чемпіона в інших типах стратегічних і настільних ігор.

Для цього вчені вмонтували в AlphaGo Zero ще один новий елемент - евристичні алгоритми випадкового пошуку рішень, а також код, що враховував існування нічиї в деяких іграх. До того ж, нова версія "альфи" безперервно удосконалювала свою структуру, а не оновлювалася етапами, як її попередниця.

Ці відносно прості зміни, як показали подальші досліди, значно підвищили швидкість самонавчання цієї системи штучного розуму і перетворили її в універсальну машину, здатну грати в усі види настільних стратегій.

Її роботу вчені перевірили на трьох типах ігор - го, звичайних шахах і їх японському різновиді, сьогі. У всіх трьох випадках нове дітище Сільвера досягло рівня гросмейстера менше ніж за мільйон ігор, досягнувши майже людської вибірковості при виборі можливих ходів всього за 9-12 годин тренувань для шахів, і за 13 днів для го.

Ще раніше вона обіграла найдосконаліші комп'ютерні програми, які грають у ці ігри - алгоритм Stockfish "здався" на четверту годину тренування AlphaZero, а система Elmo, поточний чемпіон в сьогі, простягнув всього дві години. І нарешті, перша версія AlphaGo почала поступатися її "онуку" приблизно на 30 години його навчання.

Наступними "жертвами" AlphaZero, як відзначили вчені, можуть стати "справжні" комп'ютерні ігри, такі як Starcraft II і Dota 2.

ЧИТАЙТЕ ТАКОЖ:

Надрукувати

Сподобалося? Підпишіться на нашу сторінку в Facebook. Отримуй першим найважливіші новини Луцька та Волині в Telegram та Viber. Не пропусти головного! Будь в курсі!

мітки: