🍅

你敢吃这个红果子吗？

1830年之前，没有人知道番茄能不能吃。
一个人的勇敢探索，改变了所有人的认知。

😰

恐惧

鲜红色 = 有毒？
自然界的警告色

🍅

探索

罗伯特当众吃下
10个番茄

✅

学习

第二天活蹦乱跳
番茄可以吃！

          🧠 这就是"行为 → 结果"学习法
        
行为
吃下番茄
→
结果
无毒 + 饱腹
→
学到了
番茄能吃！

🎮 你的生活中也有这种学习！点击体验：

✨ 奖励场景

7点前完成作业 → 可以看一集动画片

⚠️ 惩罚场景

嘲笑同学 → 受到老师严厉批评

这种通过奖惩来学习的方式，在AI中叫做——

强化学习 (Reinforcement Learning)

🤖

强化学习的三要素

AI 和人类一样，通过"试错"来学习

🤖

智能体 (Agent)

做决策的主体
就像逃生的机器人

类比：罗伯特本人

🌍

环境 (Environment)

智能体所处的世界
就像火灾现场的地图

类比：番茄和人体

🏆

奖励 (Reward)

行为的反馈信号
好行为+分，坏行为-分

类比：无毒=奖励

🔄 强化学习的循环过程

🤖

智能体

观察状态

采取行动

→

🌍

环境

产生变化

给予奖励

→

🏆

奖励信号

+1 或 -1

更新策略

→

🧠

学习

变得更聪明

↑ 不断重复这个循环，AI 越来越聪明！

📊 强化学习 vs 其他学习方式

学习方式	需要示例？	需要标签？	学习来源
监督学习	✅ 需要	✅ 需要	标注好的数据集
无监督学习	✅ 需要	❌ 不需要	数据内在规律
强化学习 ⭐	❌ 不需要	❌ 不需要	奖励与惩罚信号

强化学习最像人类自然学习——没有老师，只有经验！

🔥

火灾逃生：手动探索

像 AI 一样，通过试错找到安全出口！

🗺️ 火灾现场地图（5×5 网格）

机器人火焰出口走过的路

📊 当前状态

当前位置

(0,0)

步数

0

尝试次数

0

成功次数

0

💬 提示

机器人在起点 (0,0)。使用方向键移动，找到出口！
⚠️ 注意：浓烟中只能看到当前格子的状态。

📝 探索记录

游戏开始，开始探索...

💡 探索提示

🧠

AI 自动学习：Q-Learning

观察 AI 如何通过数千次试错，学会最优路径

🔬 Q-Learning 原理
Q 值是什么？
每个"状态+动作"组合的预期奖励分数。Q值越高，说明这个选择越好。
如何更新？
每次行动后，根据获得的奖励更新Q值。好结果→Q值升高，坏结果→Q值降低。
探索 vs 利用
初期多探索（随机尝试），后期多利用（选最高Q值）。ε参数控制这个平衡。

🤖 AI 视角

学习率 α (默认 0.5) 0.5

折扣因子 γ (默认 0.9) 0.9

探索率 ε (默认 0.3) 0.3

🗃️ Q值表（每格最优方向）

绿色=高Q值(好方向) 红色=低Q值(危险) 灰色=未探索

📈 训练统计

总训练轮数

0

成功率

0%

最短路径

-

练习：规划乐乐的一天

用强化学习的思维，找到最优的日程安排！

📋 今日任务清单

📱 英语阅读理解 A & B

需要：手机 | 时长：20分钟/个 | 共两个任务

🎤 英语朗读

需要：安静环境 | 时长：30分钟

🧠 思辨课（固定时间）

时间：10:40-11:40 | 不可更改

🏃 户外体育活动

时长：40分钟 | 地点：体育场或公园

🎂 朋友生日派对

开始：14:00 | 时长：约2小时

👵 看望奶奶吃晚饭

截止：16:30前到达 | 时长：约3小时

⚠️ 约束条件（就像强化学习的规则！）

🚫 思辨课必须在 10:40-11:40（固定约束）

🚫 16:30 前必须到达奶奶家（截止时间）

🚫 生日派对 14:00 开始（不能迟到）

✅ 朗读需要安静环境（早上最佳）

📅 时间规划轴

🔗 这和强化学习有什么关系？
智能体 = 乐乐
做出每个时间段的安排决策
环境 = 时间表
固定约束、时间限制、地点要求
奖励 = 完成所有任务
违反约束 = 惩罚，全部完成 = 最大奖励

🎓

总结：强化学习的智慧

从番茄到 AI，探索是最好的老师

🌟 核心概念回顾

强化学习 = 试错学习

没有示例，没有标签，只有奖惩反馈

智能体在环境中行动

观察状态 → 选择行动 → 获得奖励 → 更新策略

Q值记录经验

每个"状态+动作"的预期价值，越训练越准确

探索与利用的平衡

ε参数控制：多探索新路 vs 走已知好路

🌍 强化学习的真实应用

🎮

游戏 AI

AlphaGo 击败围棋世界冠军

🚗

自动驾驶

学习在复杂路况中安全驾驶

🤖

机器人控制

学习走路、抓取物体等复杂动作

💊

医疗决策

优化个性化治疗方案

🧩 小测验：你学会了吗？

1. 强化学习中，AI 通过什么来学习？

2. 在火灾逃生游戏中，遇到火焰代表什么？

3. 探索率 ε 越高，AI 会怎样？

🎉 恭喜完成强化学习探索之旅！