久久久国产一区二区_国产精品av电影_日韩精品中文字幕一区二区三区_精品一区二区三区免费毛片爱

 找回密碼
 注冊(cè)會(huì)員

QQ登錄

只需一步,快速開始

搜索
查看: 9643|回復(fù): 11

如何讓機(jī)器人通過自學(xué)習(xí)的方式學(xué)會(huì)玩“石頭、剪刀、布”游戲?

[復(fù)制鏈接]
1#
發(fā)表于 2016-4-8 17:44:57 | 只看該作者 |倒序?yàn)g覽 |閱讀模式
本帖最后由 劉景亞 于 2016-4-11 18:26 編輯   W) O6 a% P3 u6 @
0 V- _) p9 x; n' i) R! |. b* i2 H
前段時(shí)間的人機(jī)圍棋大戰(zhàn)賺足了人們的眼球,Google公司的AlphaGO也使機(jī)器學(xué)習(xí)和深度學(xué)習(xí)讓更多的人有了一定的了解,可謂做了一次很好的科技普及。9 d4 m; n. k. D. ]
現(xiàn)在我們從簡單問題入手,如何基于機(jī)器學(xué)習(xí),通過自學(xué)習(xí)的方式讓機(jī)器人學(xué)會(huì)玩“石頭、剪刀、布”游戲?/ g3 }# _% B( m0 K1 m% X( B& K; x  D
不知大家有何建議?歡迎大家發(fā)言參加討論。

. H' z1 q. T6 I*******************************************************************************************8 g7 f* e' y) F# U
分割線以上為原貼
* Q9 l7 T6 J" R4 m9 p*******************************************************************************************4 q5 _3 h- x$ I+ u8 d
非常感謝各位大俠的參與和討論。2 |+ e& F6 I0 r- {, [$ ?
關(guān)于機(jī)器人玩“石頭、剪子、布”游戲,我本打算分三個(gè)問題和步驟和大家一起探討。看到討論中,大家對(duì)這三個(gè)方面都有所涉及。
/ g. ^5 o6 _5 Y& k下面我把我對(duì)這個(gè)問題的認(rèn)識(shí)拋出來與大家交流分享。) u5 j9 Z# U- Z3 X$ p
要讓一個(gè)機(jī)器人玩“石頭、剪刀、布”,我們分三步走。
' {& r9 C) ~3 n7 A1 ?第一步,如何讓機(jī)器人通過自學(xué)習(xí)的方式學(xué)會(huì)游戲規(guī)則?比如,一開始機(jī)器人并不知道石頭、剪子和布,哪個(gè)贏哪個(gè),要玩游戲首先得學(xué)會(huì)規(guī)則。當(dāng)然要實(shí)現(xiàn)這一步,有比較簡單的辦法,最直接的是程序員編程時(shí),直接定義這個(gè)規(guī)則,這是以前經(jīng)常用的傳統(tǒng)的方法。現(xiàn)在我們想通過一種新的方法來實(shí)現(xiàn),讓機(jī)器人像小孩一樣,通過不斷地實(shí)踐、摸索和總結(jié)掌握這個(gè)規(guī)則,也就是自學(xué)習(xí)和機(jī)器學(xué)習(xí)。
2 V/ u9 J& s- o7 N3 L% I/ T第二步,如何讓機(jī)器人在掌握規(guī)則后大概率獲勝?
  V& f( ]4 P/ x第三步,能不能通過一種方法,使機(jī)器人在每局對(duì)戰(zhàn)時(shí)100%獲勝?
( B4 h  z8 T5 r3 B5 b*****************************************************************************************7 P5 [2 \9 B# Q2 _; ^7 B) R
關(guān)于第一步,可以用如下方法實(shí)現(xiàn):讓機(jī)器人和人對(duì)戰(zhàn),在對(duì)戰(zhàn)的實(shí)踐過程中訓(xùn)練機(jī)器人,使其不斷自學(xué)習(xí)以掌握規(guī)則。在對(duì)戰(zhàn),人始終隨機(jī)出,機(jī)器人一開始并不知道規(guī)則,也隨機(jī)出。贏了有獎(jiǎng)勵(lì),輸了有懲罰,隨著對(duì)戰(zhàn)次數(shù)的增多,機(jī)器人就會(huì)對(duì)出拳的種類形成“價(jià)值判斷”。在訓(xùn)練過程中,機(jī)器人會(huì)反復(fù)判斷,是隨機(jī)出還是基于已經(jīng)學(xué)到的部分知識(shí)。經(jīng)過不斷訓(xùn)練,機(jī)器人就會(huì)學(xué)會(huì)游戲規(guī)則。這個(gè)過程區(qū)別于以往的程序員直接定義,和人類的學(xué)習(xí)過程十分類似。& _( j" z  L- l! k; N
那么這個(gè)方法有沒有效果,我們驗(yàn)證一下。2 p5 E& x' K( K
下圖是我與機(jī)器人玩25局的情況,注意這個(gè)機(jī)器人一開始并不知道游戲規(guī)則。我隨機(jī)出拳,機(jī)器人一開始也隨機(jī)出,贏了獎(jiǎng)勵(lì),輸了懲罰。大家會(huì)發(fā)現(xiàn),從第11局開始,機(jī)器人就已經(jīng)完全掌握了規(guī)則。
$ h2 Y3 V% q# }
% g" h9 j- a! E' }
/ c. u) @8 j* T3 N9 P

# V8 g) r( A7 r8 h8 D% Z4 g8 t
3 ^6 s4 I  L% f( ^, v  V4 y5 g: e" i3 r4 F1 H9 ~

本帖子中包含更多資源

您需要 登錄 才可以下載或查看,沒有賬號(hào)?注冊(cè)會(huì)員

×
回復(fù)

使用道具 舉報(bào)

2#
發(fā)表于 2016-4-8 17:54:56 | 只看該作者
這種純概率的東西,要做算法是很簡單,但是勝率要提上去不容易啊

點(diǎn)評(píng)

我們要想一種方法,最終實(shí)現(xiàn)100%獲勝。  發(fā)表于 2016-4-11 18:20
3#
發(fā)表于 2016-4-8 18:15:31 | 只看該作者
應(yīng)該上一個(gè)圖形處理系統(tǒng),先分辨對(duì)面這家伙是誰,再?zèng)Q定怎么玩,; }8 ?, }4 ]) L2 l
/ f4 @( A1 q0 Y/ O% w$ D( B5 y
人的活動(dòng),是有固定姿態(tài)的,比如下一步怎么活動(dòng),有細(xì)微表現(xiàn),總結(jié)了這些姿態(tài),就可以勝了對(duì)面的家伙,% j2 [5 [4 p; `* m9 ?8 g' K
$ l7 t+ H6 u2 L' K+ t% f

點(diǎn)評(píng)

998大俠高人,這是我們做這個(gè)系統(tǒng)的最終目的和最高境界。  發(fā)表于 2016-4-11 18:21
8也的觀點(diǎn)讓我想起了那個(gè)很有名的猜拳理論。高舉拳,將注意力放在對(duì)方的手上,在出手的一瞬間,按照人的行為習(xí)慣,手會(huì)有一個(gè)瞬時(shí)的形態(tài)變化,據(jù)此可判斷對(duì)方出的是什么。只要眼力好,勝率超過95%  發(fā)表于 2016-4-9 02:24
8爺,久仰大名。他表達(dá)的不是這個(gè)意思,他舉得是圍棋的例子。所以他想要知道的是邏輯上的自學(xué)習(xí),簡單點(diǎn)說,就是第一次和這個(gè)人下棋因?yàn)樽哌@一步輸了,下次他就不會(huì)再走這步了。是類似這種邏輯怎么用程序?qū)崿F(xiàn),  發(fā)表于 2016-4-8 20:04
8爺,久仰大名。他表達(dá)的不是這個(gè)意思,他舉得是圍棋的例子。所以他想要知道的是邏輯上的自學(xué)習(xí),簡單點(diǎn)說,就是第一次和這個(gè)人下棋因?yàn)樽哌@一步輸了,下次他就不會(huì)再走這步了。是類似這種邏輯怎么用程序?qū)崿F(xiàn),  發(fā)表于 2016-4-8 20:03
八爺學(xué)過心理學(xué)吧,我有一親戚,以前流行喝酒猜拳的時(shí)候,陌生人頂多剛開始會(huì)輸幾把。熟人逢他必喝,假如他想喝了才會(huì)故意輸。就是機(jī)靈,觀察細(xì)致  發(fā)表于 2016-4-8 18:22
4#
發(fā)表于 2016-4-8 18:38:22 | 只看該作者
本帖最后由 crazypeanut 于 2016-4-8 18:39 編輯
, ^# N2 E8 T" a. t, v
" K" K' p* l! q如果不考慮心理學(xué)因素的話,猜拳不是博弈系統(tǒng),是一個(gè)純概率系統(tǒng),樣本空間為(剪,石),(剪,布),(剪,剪),(石,剪),(石,布),(石,石),(布,剪),(布,石),(布,布)
9 H& n% y8 t% q5 z+ d  |8 Q( v0 T$ ?
獲勝組合是(剪,布),(石,剪),(布,石),概率為1/3,相應(yīng)的,平局組合和輸?shù)艚M合均為1/3
$ F9 u# l7 u1 {2 z& f" T7 F! {# ~( F) ~" b% }
因此,如果沒有心理學(xué)算法在里面,用隨機(jī)算法隨機(jī)選擇出拳的話,獲勝幾率不會(huì)超過1/34 x- n6 T1 K2 L. ?+ f) s. W
6 ?# o/ d2 B4 }
而將心理學(xué)因素考慮進(jìn)去,就像8爺所說的,要加上圖形系統(tǒng),增加了復(fù)雜性,也偏離了正道
3 x8 G& a% K$ T7 L) K
, j* ~0 z6 o# C" J9 p- e個(gè)人建議,選擇五子棋或者黑白棋作為研究對(duì)象更合適,五子棋和黑白棋應(yīng)該算是最簡單的博弈系統(tǒng)了,棋子就黑白兩種,相對(duì)容易處理3 `7 \/ f% ^3 @5 b. T7 _. z% T
) H- i- m  J8 F: l2 n; _4 ?
有人可能說井字棋更簡單,但是作為博弈系統(tǒng),井子棋有不敗的策略,沒有太大的研究價(jià)值

點(diǎn)評(píng)

我在主樓對(duì)該系統(tǒng)做了進(jìn)一步說明,歡迎探討交流。  發(fā)表于 2016-4-11 18:22
之前好像有一個(gè)日本的機(jī)械手,就是這么干的,動(dòng)作相當(dāng)靈活  詳情 回復(fù) 發(fā)表于 2016-4-8 19:06
998那方法,是“作弊”的方法,相當(dāng)于滯后一步。要是根據(jù)上一步出法,就是考慮心理學(xué),博弈和統(tǒng)計(jì),求個(gè)概率勝法。  發(fā)表于 2016-4-8 18:56
5#
發(fā)表于 2016-4-8 19:06:20 | 只看該作者
crazypeanut 發(fā)表于 2016-4-8 18:38 3 A( K, o' c7 E9 e7 C/ A  ~% {8 T
如果不考慮心理學(xué)因素的話,猜拳不是博弈系統(tǒng),是一個(gè)純概率系統(tǒng),樣本空間為(剪,石),(剪,布),(剪 ...
% T. u- F$ s* a0 d  ]1 g$ T5 T$ Z
之前好像有一個(gè)日本的機(jī)械手,就是這么干的,動(dòng)作相當(dāng)靈活# ]+ w4 o* `! i/ O! ~

點(diǎn)評(píng)

實(shí)質(zhì)就是這樣的了,又不是下象棋。象棋之類的話還要一個(gè)內(nèi)核,一個(gè)掃描和伺服。你就石頭剪刀布的話就用幾個(gè)氣缸也可以控制手勢  發(fā)表于 2016-4-11 19:17
日本東京大學(xué)的研究室  發(fā)表于 2016-4-11 18:22
6#
發(fā)表于 2016-4-8 19:54:31 | 只看該作者
     玩石頭剪刀布沒問題。很簡單。生成1 2 3 隨機(jī)數(shù)分別代表石頭剪刀布。  自學(xué)習(xí)估計(jì)這個(gè)論壇里懂得就少了。去個(gè)程序員論壇估計(jì)能弄明白自學(xué)習(xí)的程序的都不多。頂多就是 分析下 這個(gè)人出什么的概率,和出完什么再出什么的概率。然后弄個(gè)算法分析下他會(huì)出什么的概率最大。再高科技點(diǎn),就分析他出什么之前的渾身表情動(dòng)作等。

點(diǎn)評(píng)

歡迎交流探討  發(fā)表于 2016-4-11 18:23
7#
發(fā)表于 2016-4-8 20:25:16 | 只看該作者
這是一個(gè)隨機(jī)概率的問題,石頭,剪刀,布就是三個(gè)動(dòng)作點(diǎn),然后隨機(jī)輸出一個(gè)動(dòng)作點(diǎn)就會(huì)呈現(xiàn)一個(gè)動(dòng)作就好了,從理論上來講是完全可行的

點(diǎn)評(píng)

實(shí)質(zhì)就是這樣的了,又不是下象棋。象棋之類的話還要一個(gè)內(nèi)核,一個(gè)掃描和伺服。你就石頭剪刀布的話就用幾個(gè)氣缸也可以控制手勢  發(fā)表于 2016-4-11 19:17
這個(gè)思路可進(jìn)一步探討  發(fā)表于 2016-4-11 18:24
8#
發(fā)表于 2016-4-8 20:45:29 | 只看該作者
樓主的意思應(yīng)該是“如何讓機(jī)器人學(xué)會(huì)玩剪刀石頭布”,而不是“使機(jī)器人玩”剪刀石頭布吧……) [8 \/ R) S; y* ~$ ~
樓上都跑偏了吧

點(diǎn)評(píng)

大家討論的問題都會(huì)涉及,我在主樓做了進(jìn)一步說明。  發(fā)表于 2016-4-11 18:24
9#
發(fā)表于 2016-4-9 07:58:07 | 只看該作者
可以根據(jù)對(duì)方出拳的情況,用多項(xiàng)式擬合,然后用多項(xiàng)式預(yù)測下一步對(duì)方出什么,對(duì)方每出一次拳,就修正多項(xiàng)式

點(diǎn)評(píng)

這個(gè)方法可行性可進(jìn)一步討論  發(fā)表于 2016-4-11 18:25
10#
發(fā)表于 2016-4-11 10:14:52 | 只看該作者
用上“分歧終端機(jī)”呢,非誠勿擾里的那個(gè)

點(diǎn)評(píng)

可作為應(yīng)用案例  發(fā)表于 2016-4-11 18:25

本版積分規(guī)則

Archiver|手機(jī)版|小黑屋|機(jī)械社區(qū) ( 京ICP備10217105號(hào)-1,京ICP證050210號(hào),浙公網(wǎng)安備33038202004372號(hào) )

GMT+8, 2025-7-7 05:09 , Processed in 0.074182 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回復(fù) 返回頂部 返回列表