🤖 强化学习探索
🍅

你敢吃这个红果子吗?

1830年之前,没有人知道番茄能不能吃。
一个人的勇敢探索,改变了所有人的认知。

😰
恐惧
鲜红色 = 有毒?
自然界的警告色
🍅
探索
罗伯特当众吃下
10个番茄
学习
第二天活蹦乱跳
番茄可以吃!
🧠 这就是"行为 → 结果"学习法
行为
吃下番茄
结果
无毒 + 饱腹
学到了
番茄能吃!
🎮 你的生活中也有这种学习!点击体验:
✨ 奖励场景
7点前完成作业 → 可以看一集动画片
⚠️ 惩罚场景
嘲笑同学 → 受到老师严厉批评
这种通过奖惩来学习的方式,在AI中叫做——
强化学习 (Reinforcement Learning)
🤖

强化学习的三要素

AI 和人类一样,通过"试错"来学习

🤖
智能体 (Agent)
做决策的主体
就像逃生的机器人
类比:罗伯特本人
🌍
环境 (Environment)
智能体所处的世界
就像火灾现场的地图
类比:番茄和人体
🏆
奖励 (Reward)
行为的反馈信号
好行为+分,坏行为-分
类比:无毒=奖励
🔄 强化学习的循环过程
🤖
智能体
观察状态
采取行动
🌍
环境
产生变化
给予奖励
🏆
奖励信号
+1 或 -1
更新策略
🧠
学习
变得更聪明
↑ 不断重复这个循环,AI 越来越聪明!
📊 强化学习 vs 其他学习方式
学习方式 需要示例? 需要标签? 学习来源
监督学习 ✅ 需要 ✅ 需要 标注好的数据集
无监督学习 ✅ 需要 ❌ 不需要 数据内在规律
强化学习 ⭐ ❌ 不需要 ❌ 不需要 奖励与惩罚信号
强化学习最像人类自然学习——没有老师,只有经验!
🔥

火灾逃生:手动探索

像 AI 一样,通过试错找到安全出口!

🗺️ 火灾现场地图 (5×5 网格)
机器人 火焰 出口 走过的路
📊 当前状态
当前位置
(0,0)
步数
0
尝试次数
0
成功次数
0
💬 提示
机器人在起点 (0,0)。使用方向键移动,找到出口!
⚠️ 注意:浓烟中只能看到当前格子的状态。
📝 探索记录
游戏开始,开始探索...
💡 探索提示
🧠

AI 自动学习:Q-Learning

观察 AI 如何通过数千次试错,学会最优路径

🔬 Q-Learning 原理
Q 值是什么?
每个"状态+动作"组合的预期奖励分数。Q值越高,说明这个选择越好。
如何更新?
每次行动后,根据获得的奖励更新Q值。好结果→Q值升高,坏结果→Q值降低。
探索 vs 利用
初期多探索(随机尝试),后期多利用(选最高Q值)。ε参数控制这个平衡。
🤖 AI 视角
学习率 α (默认 0.5) 0.5
折扣因子 γ (默认 0.9) 0.9
探索率 ε (默认 0.3) 0.3
🗃️ Q值表(每格最优方向)
绿色=高Q值(好方向) 红色=低Q值(危险) 灰色=未探索
📈 训练统计
总训练轮数
0
成功率
0%
最短路径
-
最近10轮成功
0/10
学习进度
📝 AI 学习日志
AI 初始化完成,等待训练...
🧪
探索率实验室

实验任务:保持默认参数(α=0.5, γ=0.9, ε=0.3),点击下方按钮快速训练,观察 AI 学习过程中的关键指标变化。

实时观察指标
总成功率 0%
最近10轮成功 0/10
📅

练习:规划乐乐的一天

用强化学习的思维,找到最优的日程安排!

📋 今日任务清单
📱 英语阅读理解 A & B
需要:手机 | 时长:20分钟/个 | 共两个任务
🎤 英语朗读
需要:安静环境 | 时长:30分钟
🧠 思辨课(固定时间)
时间:10:40-11:40 | 不可更改
🏃 户外体育活动
时长:40分钟 | 地点:体育场或公园
🎂 朋友生日派对
开始:14:00 | 时长:约2小时
👵 看望奶奶吃晚饭
截止:16:30前到达 | 时长:约3小时
⚠️ 约束条件(就像强化学习的规则!)
🚫 思辨课必须在 10:40-11:40(固定约束)
🚫 16:30 前必须到达奶奶家(截止时间)
🚫 生日派对 14:00 开始(不能迟到)
朗读需要安静环境(早上最佳)
📅 时间规划轴
🔗 这和强化学习有什么关系?
智能体 = 乐乐
做出每个时间段的安排决策
环境 = 时间表
固定约束、时间限制、地点要求
奖励 = 完成所有任务
违反约束 = 惩罚,全部完成 = 最大奖励
🎓

总结:强化学习的智慧

从番茄到 AI,探索是最好的老师

🌟 核心概念回顾
强化学习 = 试错学习
没有示例,没有标签,只有奖惩反馈
智能体在环境中行动
观察状态 → 选择行动 → 获得奖励 → 更新策略
Q值记录经验
每个"状态+动作"的预期价值,越训练越准确
探索与利用的平衡
ε参数控制:多探索新路 vs 走已知好路
🌍 强化学习的真实应用
🎮
游戏 AI
AlphaGo 击败围棋世界冠军
🚗
自动驾驶
学习在复杂路况中安全驾驶
🤖
机器人控制
学习走路、抓取物体等复杂动作
💊
医疗决策
优化个性化治疗方案
🧩 小测验:你学会了吗?
1. 强化学习中,AI 通过什么来学习?
2. 在火灾逃生游戏中,遇到火焰代表什么?
3. 探索率 ε 越高,AI 会怎样?
🎉 恭喜完成强化学习探索之旅!