#矩阵自带for循环
#反向传播是从最后节点算所有,而非直觉上一层一层向前
#forward (按顺序遍历所有层,每层计算的输出作为下一层的输入);backward(逆序遍历所有层,将每层的梯度作为下一层的输入)
#MCTS回溯的机制是递归
#HER(Hindsight Experience Replay):如果当时的目标是达到实际达到的最终状态或中间某状态,那么这次经历实际上是可以得到奖励的
#MCTS——管中窥豹之管:MCTS可以看作是神经网络的一个“管子”或“窗口”,通过这个“管子”,神经网络能够“窥视”到未来可能的游戏状态,并根据这些状态来调整其当前的认知和决策。
MCTS模拟基于神经网络的初步估计开始,在此基础上进行更深入的搜索,探索更多可能的未来走势,并评估每种走势的潜在结果。这样,MCTS能够为神经网络提供一个更长远、更全面的视角,帮助神经网络看到超出其当前视野的“未来”。在每次自我对弈结束后,神经网络会根据MCTS提供的搜索概率和游戏结果来更新其参数,从而使其在未来的决策中更加准确和高效。
#张量是一个多维的寻宝图,通过它可以【定位】数据中特定的点
#三维张量,沿着某个维度遍历,动作类似翻书,其他维度的张量同理。