|
204 | 204 |
|
205 | 205 | **35. {Psa} are the state transition probabilities for s∈S and a∈A**
|
206 | 206 |
|
207 |
| -⟶ {Psa}は状態s∈Sと行動a∈Aの条件付き分布 |
| 207 | +⟶ {Psa}は状態s∈Sと行動a∈Aの状態遷移確率 |
208 | 208 |
|
209 | 209 | <br>
|
210 | 210 |
|
|
216 | 216 |
|
217 | 217 | **37. R:S×A⟶R or R:S⟶R is the reward function that the algorithm wants to maximize**
|
218 | 218 |
|
219 |
| -⟶ |
| 219 | +⟶ R:S×A⟶R or R:S⟶Rはアルゴリズムが最大化したい報酬関数 |
220 | 220 |
|
221 | 221 | <br>
|
222 | 222 |
|
223 | 223 | **38. Policy ― A policy π is a function π:S⟶A that maps states to actions.**
|
224 | 224 |
|
225 |
| -⟶ |
| 225 | +⟶ 政策 - 政策πは状態と行動を写像する関数π:S⟶A |
226 | 226 |
|
227 | 227 | <br>
|
228 | 228 |
|
229 | 229 | **39. Remark: we say that we execute a given policy π if given a state s we take the action a=π(s).**
|
230 | 230 |
|
231 |
| -⟶ |
| 231 | +⟶ 備考: 状態sを与えられた際に行動a=π(s)を行うことを政策πを実行すると言う。 |
232 | 232 |
|
233 | 233 | <br>
|
234 | 234 |
|
235 | 235 | **40. Value function ― For a given policy π and a given state s, we define the value function Vπ as follows:**
|
236 | 236 |
|
237 |
| -⟶ |
| 237 | +⟶ 価値関数 - ある政策πとある状態sにおいて価値関数Vπを以下のように定義する: |
238 | 238 |
|
239 | 239 | <br>
|
240 | 240 |
|
241 | 241 | **41. Bellman equation ― The optimal Bellman equations characterizes the value function Vπ∗ of the optimal policy π∗:**
|
242 | 242 |
|
243 |
| -⟶ |
| 243 | +⟶ ベルマン方程式 - 政策πをとった価値関数Vπ∗に対する最適なベルマン方程式: |
244 | 244 |
|
245 | 245 | <br>
|
246 | 246 |
|
247 | 247 | **42. Remark: we note that the optimal policy π∗ for a given state s is such that:**
|
248 | 248 |
|
249 |
| -⟶ |
| 249 | +⟶ 備考: 与えられた状態sに対する最適方針π*はこのようになります: |
250 | 250 |
|
251 | 251 | <br>
|
252 | 252 |
|
253 | 253 | **43. Value iteration algorithm ― The value iteration algorithm is in two steps:**
|
254 | 254 |
|
255 |
| -⟶ |
| 255 | +⟶ 価値反復法アルゴリズム - 価値反復法アルゴリズムは2段階で行われます: |
256 | 256 |
|
257 | 257 | <br>
|
258 | 258 |
|
259 | 259 | **44. 1) We initialize the value:**
|
260 | 260 |
|
261 |
| -⟶ |
| 261 | +⟶ 1) 値を初期化する。 |
262 | 262 |
|
263 | 263 | <br>
|
264 | 264 |
|
265 | 265 | **45. 2) We iterate the value based on the values before:**
|
266 | 266 |
|
267 |
| -⟶ |
| 267 | +⟶ 2) 前の値を元に値を繰り返す: |
268 | 268 |
|
269 | 269 | <br>
|
270 | 270 |
|
271 | 271 | **46. Maximum likelihood estimate ― The maximum likelihood estimates for the state transition probabilities are as follows:**
|
272 | 272 |
|
273 |
| -⟶ |
| 273 | +⟶ 最尤推定 ー 状態遷移確率の最尤推定(maximum likelihood estimate; MLE): |
274 | 274 |
|
275 | 275 | <br>
|
276 | 276 |
|
277 | 277 | **47. times took action a in state s and got to s′**
|
278 | 278 |
|
279 |
| -⟶ |
| 279 | +⟶ 状態sで行動aを行い状態s′に遷移した回数 |
280 | 280 |
|
281 | 281 | <br>
|
282 | 282 |
|
283 | 283 | **48. times took action a in state s**
|
284 | 284 |
|
285 |
| -⟶ |
| 285 | +⟶ 状態sで行動aを行った回数 |
286 | 286 |
|
287 | 287 | <br>
|
288 | 288 |
|
289 | 289 | **49. Q-learning ― Q-learning is a model-free estimation of Q, which is done as follows:**
|
290 | 290 |
|
291 |
| -⟶ |
| 291 | +⟶ Q学習 ー Q学習は数学モデルを使わないQ値の評価手法であり、以下のように行われる: |
292 | 292 |
|
293 | 293 | <br>
|
294 | 294 |
|
|
0 commit comments