Мастера DELPHI, Delphi programming community Рейтинг@Mail.ru Титульная страница Поиск, карта сайта Написать письмо 
| Новости |
Новости сайта
Поиск |
Поиск по лучшим сайтам о Delphi
FAQ |
Огромная база часто задаваемых вопросов и, конечно же, ответы к ним ;)
Статьи |
Подборка статей на самые разные темы. Все о DELPHI
Книги |
Новинки книжного рынка
Новости VCL
Обзор свежих компонент со всего мира, по-русски!
|
| Форумы
Здесь вы можете задать свой вопрос и наверняка получите ответ
| ЧАТ |
Место для общения :)
Орешник
Коллекция курьезных вопросов из форумов
Основная («Начинающим»)/ Базы / WinAPI / Компоненты / Сети / Media / Игры / Corba и COM / KOL / FreePascal / .Net / Прочее / rsdn.org

 
Чтобы не потерять эту дискуссию, сделайте закладку « предыдущая ветвь | форум | следующая ветвь »
Страницы: 1 2 3 4 5 6 7 8

AlphaZero - как работает??


Mystic ©   (22.02.19 13:38[140]


> Alpha Zero шахматная программа на этом принципе появилась
> почти сразу,  а для го по-прежнему нет?


Го программа появилась раньше, и при написании шахматной программы использовался опыт го-программы.


java_guy ©   (22.02.19 15:11[141]

Вот интересное в википедии прочитал: "In early 2018, another team branched Leela Chess Zero from the same code base, also to verify the methods in the AlphaZero paper as applied to the game of chess. AlphaZero's use of Google TPUs was replaced by a crowd-sourcing infrastructure and the ability to use graphics card GPUs via the OpenCL library. Even so, it is expected to take a year of crowd-sourced training to make up for the dozen hours that AlphaZero was allowed to train for its chess match in the paper"


java_guy ©   (22.02.19 16:16[142]

Мистик, а если бы вы решили написать свою шашечную программу на принципах AlphaZero/LeelaZero, то как бы вы тренировали ее? Сколько миллиардов партий должен сыграть движок, чтобы сильно заиграть? Вряд ли это получится с одним домашним ноутбуком


Mystic ©   (22.02.19 16:23[143]

Ну... 1600 TPU умножить на 10 часов... Эквивалентно работе одного GPU в течение 10 * 1600 * 3 = 48 000 часов = 2000 дней = 5½ лет


xayam ©   (23.02.19 20:52[144]

в  чате сказали, исторический момент - стокфиш выигрывает tcec в последний раз :)


Mystic ©   (24.02.19 00:32[145]


> Мистик, а если бы вы решили написать свою шашечную программу
> на принципах AlphaZero/LeelaZero, то как бы вы тренировали
> ее? Сколько миллиардов партий должен сыграть движок, чтобы
> сильно заиграть?


Ну... AlphaZero это 6 миллионов партий вроде. Для шашек, я думаю, хватит одного миллиона с головой. А если добавить базы окончаний, то ещё на порядок меньше.


java_guy ©   (25.02.19 12:53[146]

Мистик, смотрите, что я нашел:
In Komodo's MCTS mode the search tree is expanded in best-first manner based on winning probabilities determined neither by random playouts nor by a neural network, but a tiny alpha-beta searchplus quiescence and static evaluation, also similar to UCT, dealing with the crucial trade-off between exploration and exploitation. While playing strength is lower with MCTS, positional play and judgement may well be better in many positions, not to mention a more risky and entertaining playing style.

Комодо не играет партии до конца случайным образом, а оценивает узлы в MCTS-дереве маленькой альфа-бетой.


Mystic ©   (25.02.19 12:57[147]

Тут об этом не сказано, что Komodo не играет партии до конца. Тут сказано про расширение дерева поиска, т. е. для нового узла проводится короткий alpha-beta анализ позиции, на основании которого сортируются ходы для дальнейшего включения в MCTS.

И судя по адекватности оценок в окончаниях (0.00 в случае крепости) Komodo MCTS таки доигрывает.


java_guy ©   (25.02.19 13:34[148]

determined neither by random playouts 


java_guy ©   (25.02.19 13:37[149]

В классическом MCTS нужно сыграть партию для каждого созданного узла. Просто времени не хватит для построения дерева с приемлемым Depth. Может только в эндшпиле


java_guy ©   (25.02.19 14:04[150]

Вот здесь Ларри Кауфман всё объясняет: http://www.talkchess.com/forum3/viewtopic.php?f=2&t=67441

Большая ветка. Поражен, как агрессивно на него нападают. Думал, только у нас так


Mystic ©   (25.02.19 14:25[151]

Правильно, Komodo MCTS доигрывает партию до конца, но не случайными ходами. Если узел неизвестный, в нём запускается alpha-beta перебор, который выдаёт ожидаемый процент очкой для каждого хода. А дальше работает UTC.


Страницы: 1 2 3 4 5 6 7 8 версия для печати

Написать ответ

Ваше имя (регистрация  E-mail 







Разрешается использование тегов форматирования текста:
<b>жирный</b> <i>наклонный</i> <u>подчеркнутый</u>,
а для выделения текста программ, используйте <code> ... </code>
и не забывайте закрывать теги! </b></i></u></code> :)


Наверх

  Рейтинг@Mail.ru     Титульная страница Поиск, карта сайта Написать письмо