如何讓機器人通過自學習的方式學會玩“石頭、剪刀、布”游戲？

劉景亞 · 發(fā)表于 2016-4-8 17:44:57

本帖最后由劉景亞于 2016-4-11 18:26 編輯

前段時間的人機圍棋大戰(zhàn)賺足了人們的眼球，Google公司的AlphaGO也使機器學習和深度學習讓更多的人有了一定的了解，可謂做了一次很好的科技普及。
現(xiàn)在我們從簡單問題入手，如何基于機器學習，通過自學習的方式讓機器人學會玩“石頭、剪刀、布”游戲？
不知大家有何建議？歡迎大家發(fā)言參加討論。
*******************************************************************************************
分割線以上為原貼
*******************************************************************************************
非常感謝各位大俠的參與和討論。
關(guān)于機器人玩“石頭、剪子、布”游戲，我本打算分三個問題和步驟和大家一起探討。看到討論中，大家對這三個方面都有所涉及。
下面我把我對這個問題的認識拋出來與大家交流分享。
要讓一個機器人玩“石頭、剪刀、布”，我們分三步走。
第一步，如何讓機器人通過自學習的方式學會游戲規(guī)則？比如，一開始機器人并不知道石頭、剪子和布，哪個贏哪個，要玩游戲首先得學會規(guī)則。當然要實現(xiàn)這一步，有比較簡單的辦法，最直接的是程序員編程時，直接定義這個規(guī)則，這是以前經(jīng)常用的傳統(tǒng)的方法。現(xiàn)在我們想通過一種新的方法來實現(xiàn)，讓機器人像小孩一樣，通過不斷地實踐、摸索和總結(jié)掌握這個規(guī)則，也就是自學習和機器學習。
第二步，如何讓機器人在掌握規(guī)則后大概率獲勝？
第三步，能不能通過一種方法，使機器人在每局對戰(zhàn)時100%獲勝？
*****************************************************************************************
關(guān)于第一步，可以用如下方法實現(xiàn)：讓機器人和人對戰(zhàn)，在對戰(zhàn)的實踐過程中訓練機器人，使其不斷自學習以掌握規(guī)則。在對戰(zhàn)，人始終隨機出，機器人一開始并不知道規(guī)則，也隨機出。贏了有獎勵，輸了有懲罰，隨著對戰(zhàn)次數(shù)的增多，機器人就會對出拳的種類形成“價值判斷”。在訓練過程中，機器人會反復判斷，是隨機出還是基于已經(jīng)學到的部分知識。經(jīng)過不斷訓練，機器人就會學會游戲規(guī)則。這個過程區(qū)別于以往的程序員直接定義，和人類的學習過程十分類似。
那么這個方法有沒有效果，我們驗證一下。
下圖是我與機器人玩25局的情況，注意這個機器人一開始并不知道游戲規(guī)則。我隨機出拳，機器人一開始也隨機出，贏了獎勵，輸了懲罰。大家會發(fā)現(xiàn)，從第11局開始，機器人就已經(jīng)完全掌握了規(guī)則。

ywjianghu · 發(fā)表于 2016-5-8 09:46:29

樓主位沒有說明，這個機器人是帶視覺識別系統(tǒng)的吧？
單純從概率和經(jīng)驗上，是無法判斷人接下去出什么的。

劉景亞 · 發(fā)表于 2016-4-11 18:42:59

下圖是我與機器人每次玩25局，重復了6次的實驗結(jié)果。
圖中1表示機器人勝，2表示機器人負，3表示平局。
可以看出，機器人基本上在10局左右，就會掌握規(guī)則。

wsxm82 · 發(fā)表于 2016-4-11 10:14:52

用上“分歧終端機”呢，非誠勿擾里的那個

huiyu788 · 發(fā)表于 2016-4-9 07:58:07

可以根據(jù)對方出拳的情況，用多項式擬合，然后用多項式預(yù)測下一步對方出什么，對方每出一次拳，就修正多項式

shiqi67 · 發(fā)表于 2016-4-8 20:45:29

樓主的意思應(yīng)該是“如何讓機器人學會玩剪刀石頭布”，而不是“使機器人玩”剪刀石頭布吧……
樓上都跑偏了吧

冷月梧桐 · 發(fā)表于 2016-4-8 20:25:16

這是一個隨機概率的問題，石頭，剪刀，布就是三個動作點，然后隨機輸出一個動作點就會呈現(xiàn)一個動作就好了，從理論上來講是完全可行的

fiyu1314 · 發(fā)表于 2016-4-8 19:54:31

玩石頭剪刀布沒問題。很簡單。生成1 2 3 隨機數(shù)分別代表石頭剪刀布。自學習估計這個論壇里懂得就少了。去個程序員論壇估計能弄明白自學習的程序的都不多。頂多就是分析下這個人出什么的概率，和出完什么再出什么的概率。然后弄個算法分析下他會出什么的概率最大。再高科技點，就分析他出什么之前的渾身表情動作等。

木子12 · 發(fā)表于 2016-4-8 19:06:20

crazypeanut 發(fā)表于 2016-4-8 18:38 # Z1 A) A! w7 e. `8 Q+ f
如果不考慮心理學因素的話，猜拳不是博弈系統(tǒng)，是一個純概率系統(tǒng)，樣本空間為（剪，石），（剪，布），（剪 ...

之前好像有一個日本的機械手，就是這么干的，動作相當靈活

crazypeanut · 發(fā)表于 2016-4-8 18:38:22

本帖最后由 crazypeanut 于 2016-4-8 18:39 編輯

如果不考慮心理學因素的話，猜拳不是博弈系統(tǒng)，是一個純概率系統(tǒng)，樣本空間為（剪，石），（剪，布），（剪，剪），（石，剪），（石，布），（石，石），（布，剪），（布，石），（布，布）

獲勝組合是（剪，布），（石，剪），（布，石），概率為1/3，相應(yīng)的，平局組合和輸?shù)艚M合均為1/3

因此，如果沒有心理學算法在里面，用隨機算法隨機選擇出拳的話，獲勝幾率不會超過1/3

而將心理學因素考慮進去，就像8爺所說的，要加上圖形系統(tǒng)，增加了復雜性，也偏離了正道

個人建議，選擇五子棋或者黑白棋作為研究對象更合適，五子棋和黑白棋應(yīng)該算是最簡單的博弈系統(tǒng)了，棋子就黑白兩種，相對容易處理

有人可能說井字棋更簡單，但是作為博弈系統(tǒng)，井子棋有不敗的策略，沒有太大的研究價值

2266998 · 發(fā)表于 2016-4-8 18:15:31

應(yīng)該上一個圖形處理系統(tǒng)，先分辨對面這家伙是誰，再決定怎么玩，

人的活動，是有固定姿態(tài)的，比如下一步怎么活動，有細微表現(xiàn)，總結(jié)了這些姿態(tài)，就可以勝了對面的家伙，

		自動登錄	找回密碼
密碼			注冊會員

久久久国产一区二区_国产精品av电影_日韩精品中文字幕一区二区三区_精品一区二区三区免费毛片爱

如何讓機器人通過自學習的方式學會玩“石頭、剪刀、布”游戲？

本帖子中包含更多資源

相關(guān)帖子

本帖子中包含更多資源

評分

點評

點評

點評

點評

點評

點評

點評

點評