Skip to content

Commit 3248c6c

Browse files
committed
Finished translating Reinforcement Learning
1 parent ab0586d commit 3248c6c

File tree

1 file changed

+14
-14
lines changed

1 file changed

+14
-14
lines changed

ja/cheatsheet-deep-learning.md

+14-14
Original file line numberDiff line numberDiff line change
@@ -204,7 +204,7 @@
204204

205205
**35. {Psa} are the state transition probabilities for s∈S and a∈A**
206206

207-
⟶ {Psa}は状態s∈Sと行動a∈Aの条件付き分布
207+
⟶ {Psa}は状態s∈Sと行動a∈Aの状態遷移確率
208208

209209
<br>
210210

@@ -216,79 +216,79 @@
216216

217217
**37. R:S×A⟶R or R:S⟶R is the reward function that the algorithm wants to maximize**
218218

219-
&#10230;
219+
&#10230; R:S×A⟶R or R:S⟶Rはアルゴリズムが最大化したい報酬関数
220220

221221
<br>
222222

223223
**38. Policy ― A policy π is a function π:S⟶A that maps states to actions.**
224224

225-
&#10230;
225+
&#10230; 政策 - 政策πは状態と行動を写像する関数π:S⟶A
226226

227227
<br>
228228

229229
**39. Remark: we say that we execute a given policy π if given a state s we take the action a=π(s).**
230230

231-
&#10230;
231+
&#10230; 備考: 状態sを与えられた際に行動a=π(s)を行うことを政策πを実行すると言う。
232232

233233
<br>
234234

235235
**40. Value function ― For a given policy π and a given state s, we define the value function Vπ as follows:**
236236

237-
&#10230;
237+
&#10230; 価値関数 - ある政策πとある状態sにおいて価値関数Vπを以下のように定義する:
238238

239239
<br>
240240

241241
**41. Bellman equation ― The optimal Bellman equations characterizes the value function Vπ∗ of the optimal policy π∗:**
242242

243-
&#10230;
243+
&#10230; ベルマン方程式 - 政策πをとった価値関数Vπ∗に対する最適なベルマン方程式:
244244

245245
<br>
246246

247247
**42. Remark: we note that the optimal policy π∗ for a given state s is such that:**
248248

249-
&#10230;
249+
&#10230; 備考: 与えられた状態sに対する最適方針π*はこのようになります:
250250

251251
<br>
252252

253253
**43. Value iteration algorithm ― The value iteration algorithm is in two steps:**
254254

255-
&#10230;
255+
&#10230; 価値反復法アルゴリズム - 価値反復法アルゴリズムは2段階で行われます:
256256

257257
<br>
258258

259259
**44. 1) We initialize the value:**
260260

261-
&#10230;
261+
&#10230; 1) 値を初期化する。
262262

263263
<br>
264264

265265
**45. 2) We iterate the value based on the values before:**
266266

267-
&#10230;
267+
&#10230; 2) 前の値を元に値を繰り返す:
268268

269269
<br>
270270

271271
**46. Maximum likelihood estimate ― The maximum likelihood estimates for the state transition probabilities are as follows:**
272272

273-
&#10230;
273+
&#10230; 最尤推定 ー 状態遷移確率の最尤推定(maximum likelihood estimate; MLE):
274274

275275
<br>
276276

277277
**47. times took action a in state s and got to s′**
278278

279-
&#10230;
279+
&#10230; 状態sで行動aを行い状態s′に遷移した回数
280280

281281
<br>
282282

283283
**48. times took action a in state s**
284284

285-
&#10230;
285+
&#10230; 状態sで行動aを行った回数
286286

287287
<br>
288288

289289
**49. Q-learning ― Q-learning is a model-free estimation of Q, which is done as follows:**
290290

291-
&#10230;
291+
&#10230; Q学習 ー Q学習は数学モデルを使わないQ値の評価手法であり、以下のように行われる:
292292

293293
<br>
294294

0 commit comments

Comments
 (0)