就像训练小狗: 做对了 → 给零食 🦴 做错了 → 没有奖励 😢 经过多次练习,小狗就学会啦!
强化学习就是让计算机像小动物一样,通过尝试和奖励来学习!
智能体(学习者)
环境
奖励
使用方向键帮助机器人学习打扫房间: ✅ 收集垃圾(+10分) ❌ 避开炸弹(-20分)
得分:0