与监督学习、无监督学习类似,强化学习并不是某种特定的模型或算法,指的是训练方法。在强化学习中,做出决策的一方被称为主体,它存在于环境中。主体每做出一个动作,环境就会给予反馈,主体会在评估反馈后决定下一个动作。对于强化学习来说,一切动作的依据都是回报。
与监督学习、无监督学习类似,强化学习并不是某种特定的模型或算法,指的是训练方法。在强化学习中,做出决策的一方被称为主体,它存在于环境中。主体每做出一个动作,环境就会给予反馈,主体会在评估反馈后决定下一个动作。对于强化学习来说,一切动作的依据都是回报。
支持一下 修改