AlphaZero

Վիքիպեդիայից՝ ազատ հանրագիտարանից

AlphaZero, ծրագիր նյարդային ցանցի համար, մշակված DeepMind ընկերության կողմից, որը օգտագործում է AlphaGo Zero-ի ընդհանրացված տարբերակը։ 2017 թվականի դեկտեմբերի 5-ին AlphaZero 24 ժամվա ընթացքում սովորեց խաղալ գերմարդկային մակարդակի շախմատ, սյոգի և գո, դրանով հաղթելով Stockfish և Elmo-ին[1]։

Տարբերությունը AlphaGo Zero-ից[խմբագրել | խմբագրել կոդը]

AlphaZero (AZ)-ն AlphaGo Zero (AGZ)-ի ալգորիթմի ընդհանրացված տարբերակն է, որը բացի գոից, կարողանում է խաղալ սյոֆի և շախմատ։ AZ և AGZ-ն իրարից տարբերվում են․

  • AGZ-ն ունի առաջադրանքների կատարման հստակ կանոնակարգ։
  • Նյարդային ցանցը թարմացվում է անընդհատ։

AlphaZero-ն ընդդեմ Stockfish և Elmo[խմբագրել | խմբագրել կոդը]

Այն ժամանակ երբ ավանդական ծրագրերը գնահատում են դիրքը խաղում շնորհիվ գրոսսմեյստերների փորձի, AlphaZero-ն օգտագործում է գնահատման խոր նյարդային ցանցը, որն էլ պահանջում է մեծ ժամանակ մի դիրքի համար։ AlphaZero-ն կարողանում է հաշվարկել 80 000 շախմատային դիրք մի վայրկյանում և 40 000 դիրք սյոգի համար։ Այն դեպքում երբ Stockfish կարողանում է հաշվարկել 70 միլլիոն, իսկ Elmo-ն 35 միլլիոն մեկ վայրկյանում։

Արդյունքներ[խմբագրել | խմբագրել կոդը]

Շախմատ[խմբագրել | խմբագրել կոդը]

Շախմատ խաղալիս AlphaZero և Stockfish-ը ամեն քայլի համար ունեին մեկ րոպե ժամանակ։ AlphaZero-ն ուներ ավելի լավ ծրագրային ապահովում քան Stockfish-ը։ 100 խաղից AlphaZero-ն 25 պարտյա հաղթեց սպիտակներով, 3-ը սևերով և 72 անգամ խաղն ավարտվեց ոչ ոքի[2]։

Սյոգի[խմբագրել | խմբագրել կոդը]

Հարյուր խաղերի ընթացքում AlphaZero-ն հաղթեց 90 անգամ, 8 անգամ պարտվեց և 2 անգամ խաղը ավարտվեց ոչ ոքի։

Գո[խմբագրել | խմբագրել կոդը]

8 ժամ ինքնուրույն սովորելուց հետո, AlphaZero-ն իր նախկին տարբերակի հետ պայքարում հաղթեց 60 անգամ և պարտվեց 40 անգամ։

Քննադատություն[խմբագրել | խմբագրել կոդը]

Որոշ գրոսսմեյստերներ, նշեցին, որ չարժե գերագնահատել AlphaZero-ի ուժերը, քանի, որ արդյունքները տարբեր կլնիենեին, եթե ծրագիրը հասանելիություն ունենար դեբյուտային բազային (քանի-որ Stockfish ծրագրված էր նույն կերպ)[3]։ AlphaZero-ն հաղթել է Stockfish-ին, վերջինիս զրկելով դեյբյուտային բազաից և էնդշպիլային աղյուսակից, խաղալով ավելի լավ համակարգչային սարքավորումներով[4][5]։ Stockfish նաև սահմանափակված է եղել ժամանակով մինչև քայլ կատարելը՝ մեկ րոպեն բավարար չէր, որպեսզի խորը մտածի կրիտիկական իրավիճակներում։ Բացի դա, օգտագործվել է Stockfish 8-ը որը թողարկվել էր դրանից մեկ տարի առաջ։

Սյոգի խաղի համակարգչային տարբերակի ծրագրավորղների խումբ նույնպես, լիովին բավարարված չէր խաղի արդյունքով[6][7]։

Ծանոթագրություններ[խմբագրել | խմբագրել կոդը]

  1. Silver, David; և այլք: (2017 թ․ դեկտեմբերի 5). «Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm». arXiv:1712.01815 [cs.AI]. {{cite arXiv}}: Explicit use of et al. in: |last2= (օգնություն)
  2. «'Superhuman' Google AI claims chess crown». BBC News. 2017 թ․ դեկտեմբերի 6. Վերցված է 2017 թ․ դեկտեմբերի 7-ին.
  3. «Google's AlphaZero Destroys Stockfish In 100-Game Match». Chess.com. Վերցված է 2017 թ․ դեկտեմբերի 7-ին.
  4. Knapton, Sarah (2017 թ․ դեկտեմբերի 6). «Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours» (անգլերեն). Telegraph.co.uk. Վերցված է 2017 թ․ դեկտեմբերի 6-ին.
  5. Vincent, James (2017 թ․ դեկտեմբերի 6). «DeepMind's AI became a superhuman chess player in a few hours, just for fun». The Verge. Վերցված է 2017 թ․ դեկտեմբերի 6-ին.
  6. «コンピュータ将棋 レーティング». Արխիվացված է օրիգինալից 2017 թ․ դեկտեմբերի 8-ին. Վերցված է 2020 թ․ հունիսի 23-ին.
  7. Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (2017 թ․ դեկտեմբերի 5). «Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm». arXiv:1712.01815 [cs.AI].