news 2026/6/9 21:05:49

【人工智能学习-AI入试相关题目练习-第十八次】

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【人工智能学习-AI入试相关题目练习-第十八次】

人工智能学习-AI入试相关题目练习-第十八次

  • 1-前言
  • 3-问题题目训练
    • 【問題1|模拟①|Q学習の定義と更新式】
    • 【問題2|模拟②|SARSAとの比較】
    • 【問題3|预测题|Q学習の収束と実用上の問題】
  • 4-练习(日语版本)解析
  • 5-练习(日语版本)
      • (1)各記号の意味
      • (2)Q学習が off-policy である理由
  • 【問題2|满分答案模板】
      • (1)SARSAの更新式
      • (2)Q学習とSARSAの違い(on / off-policy)
      • (3)SARSAが安全寄りの行動を学習しやすい理由
  • 【問題3|满分答案模板|预测命中率最高】
      • (1)Q学習の収束条件
      • (2)大規模状態空間における問題点
      • (3)関数近似Q学習が不安定になる原因
  • 6-总结

1-前言

为了应对大学院考试,我们来学习相关人工智能相关知识,并做各种练习。

通过学习,也算是做笔记,让自己更理解些。

3-问题题目训练

【問題1|模拟①|Q学習の定義と更新式】

(配点想定:25点)

状態集合を (S)、行動集合を (A) とするマルコフ決定過程(MDP)において、
エージェントはモデルを持たず、行動価値関数 (Q(s,a)) を直接学習する。

このとき、Q学習における1ステップ更新式は次式で与えられる:

[
Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \Bigl[ r_{t+1} + \gamma \max_{a’} Q(s_{t+1}, a’) - Q(s_t, a_t) \Bigr]
]

以下の問いに答えよ。

  1. 上式に含まれる各記号
    (\alpha, \gamma, r_{t+1}, \max_{a’} Q(s_{t+1}, a’))
    がそれぞれ何を意味するか、強化学習の文脈で簡潔に説明せよ

  2. Q学習が

    • 方策に依存しない(off-policy)学習
      であると言われる理由を、上式を用いて説明せよ。

【問題2|模拟②|SARSAとの比較】

(配点想定:30点)

Q学習とSARSAはいずれも行動価値関数を学習する手法であるが、
更新式および学習の性質に明確な違いが存在する。

以下の問いに答えよ。

  1. SARSAの更新式を記述せよ。

  2. Q学習とSARSAの違いを、

    • 更新に用いる次状態の行動
    • 探索行動(例:(\varepsilon)-greedy)との関係
      の観点から比較し、on-policy / off-policy の違いを明確にして説明せよ
  3. 危険な行動(大きな負の報酬)を含む環境において、
    SARSAがQ学習より安全寄りの行動を学習しやすい理由を述べよ。


【問題3|预测题|Q学習の収束と実用上の問題】

(配点想定:35点|立命馆“考察型”)

Q学習は、適切な条件下において最適行動価値関数 (Q^*) に収束することが知られている。

以下の問いに答えよ。

  1. Q学習が理論的に収束するために必要な条件を、
    学習率 (\alpha) と探索条件の観点から述べよ。

  2. 状態空間・行動空間が非常に大きい場合、
    テーブル型Q学習が実用的でなくなる理由を説明せよ。

  3. 上記の問題を解決するために導入された
    関数近似(例:ニューラルネットワーク)を用いたQ学習において、
    学習が不安定になる主な原因を1つ挙げ、簡潔に説明せよ。


4-练习(日语版本)解析

5-练习(日语版本)

(Q学習の定義と更新式)


(1)各記号の意味

Q学習における更新式
[
Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \Bigl[ r_{t+1} + \gamma \max_{a’} Q(s_{t+1}, a’) - Q(s_t, a_t) \Bigr]
]
において、

  • (\alpha) は学習率であり、新しい経験をどの程度現在の推定値に反映させるかを制御するパラメータである。
  • (\gamma) は割引率であり、将来得られる報酬をどの程度重視するかを表す。
  • (r_{t+1}) は、状態 (s_t) で行動 (a_t) を選択した結果として得られる即時報酬である。
  • (\max_{a’} Q(s_{t+1}, a’)) は、次状態 (s_{t+1}) において取り得る行動の中での最大の行動価値を表し、将来の最適行動を仮定した評価である。

(※ここまででほぼ満点ゾーン)


(2)Q学習が off-policy である理由

Q学習は、実際に選択した行動とは無関係に
次状態における最大の行動価値 (\max_{a’} Q(s_{t+1}, a’))を用いて更新を行う。

そのため、

  • 行動選択は探索方策(例:(\varepsilon)-greedy)に従って行われていても、
  • 更新は常に最適方策を仮定した値に基づいて行われる。

このように、行動生成方策と更新に用いる方策が一致していないため、
Q学習はoff-policy 学習である。


【問題2|满分答案模板】

(SARSAとの比較)


(1)SARSAの更新式

SARSAの更新式は次式で与えられる。

[
Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \Bigl[ r_{t+1} + \gamma Q(s_{t+1}, a_{t+1}) - Q(s_t, a_t) \Bigr]
]

ここで (a_{t+1}) は、次状態 (s_{t+1}) において実際に選択された行動である。


(2)Q学習とSARSAの違い(on / off-policy)

Q学習では、更新に
[
\max_{a’} Q(s_{t+1}, a’)
]
を用いるため、次状態における最適行動を仮定して学習を行う。
このため Q学習はoff-policy 学習である。

一方、SARSAでは、
[
Q(s_{t+1}, a_{t+1})
]
すなわち、探索を含む現在の方策によって実際に選択された行動を用いて更新を行う。

したがって、SARSAは
行動選択と学習が同一の方策に基づく on-policy 学習である。


(3)SARSAが安全寄りの行動を学習しやすい理由

SARSAでは、探索行動によるリスクも含めた行動価値が更新に反映される。
そのため、危険な行動が探索中に選択され、大きな負の報酬を受ける場合、
その影響が直接 (Q) 値に反映される。

結果として、
SARSAは探索時のリスクを考慮した保守的な方策を学習しやすく、
Q学習と比べて安全寄りの行動を選択する傾向がある。


【問題3|满分答案模板|预测命中率最高】

(収束性と実用上の問題)


(1)Q学習の収束条件

Q学習が最適行動価値関数 (Q^*) に収束するためには、以下の条件が必要である。

  • すべての状態–行動対が無限回訪問されること(十分な探索)
  • 学習率 (\alpha_t) が
    [
    \sum_t \alpha_t = \infty,\quad \sum_t \alpha_t^2 < \infty
    ]
    を満たすように、適切に減少すること

これらの条件の下で、Q学習は確率1で (Q^*) に収束することが知られている。


(2)大規模状態空間における問題点

状態空間および行動空間が大きくなると、
テーブル型Q学習ではすべての状態–行動対に対して
(Q) 値を保存・更新する必要がある。

その結果、

  • メモリ使用量が増大する
  • 十分な探索が困難になる

といった問題が生じ、実用的でなくなる


(3)関数近似Q学習が不安定になる原因

ニューラルネットワークなどの関数近似を用いたQ学習では、

  • ブートストラップ(自己参照)
  • 関数近似
  • off-policy 学習

の3つが同時に存在する。

この組み合わせにより、
学習が発散したり不安定になる可能性があることが知られている。


6-总结

知识一点点记录吧,最后应对考试,打下基础

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 18:36:55

数字图像处理篇---闭运算

一句话比喻闭运算就像给物体做“内部填充手术”&#xff1a;先把空洞和裂缝“填平”&#xff08;膨胀&#xff09;&#xff0c;再把多余材料“修整掉”&#xff08;腐蚀&#xff09;。核心思想&#xff1a;先胖后瘦&#xff0c;但只瘦回一点点闭运算是开运算的“双胞胎兄弟”&a…

作者头像 李华
网站建设 2026/6/8 17:50:23

这6款由AI驱动的专业工具,为论文写作提供了更快的速度和更高的质量保障

针对学术论文写作需求&#xff0c;目前市场上有多种AI工具可同时满足写作辅助与降重需求。这些智能平台通过自然语言处理技术提供论文框架生成、内容优化以及相似度检测功能&#xff0c;适用于毕业论文撰写、课程报告整理等场景。值得注意的是&#xff0c;此类工具应作为效率提…

作者头像 李华
网站建设 2026/6/5 20:15:47

PCIe-Link Status Dependencies

2.9.1 Transaction Layer Behavior in DL_Down Status 关于DL_Down状态和热复位(Hot Reset)​ 下的事务层硬件行为规则。这些规则定义了PCIe IP核在极端异常情况下,如何通过硬件状态机确保系统稳定、避免死锁并实现有序恢复。 第一部分:DL_Down状态下的SoC硬件行为 DL_Do…

作者头像 李华
网站建设 2026/6/5 21:13:02

推荐能做“简历 + JD 匹配”的工具

在 2026 年&#xff0c;简历投递已经全面进化为“算法博弈”。如果你只是简单地把简历投出去&#xff0c;而没有针对 JD&#xff08;职位描述&#xff09;进行语义对齐&#xff0c;那么在 90% 的大厂招聘后台&#xff0c;你的匹配得分都会低于 60 分&#xff0c;直接落入“已读…

作者头像 李华
网站建设 2026/6/5 21:10:50

模糊神经网络机械故障诊断(MATLAB代码)

效果 用训练好的模糊神经网络对机械故障进行诊断,根据网络的预测值得到机械的技术状态。预测值小于 1.5 时为正常状态,预测值在 1.5~2.5 之间时为曲轴轴承轻微异响,预测值在 2.5~3.5 之间时为曲轴轴承严重异响预测值在 3.5~4.5 之间时为连杆轴承轻微异响,预测值大于 4.5 时为连…

作者头像 李华
网站建设 2026/6/5 21:21:49

【课程设计/毕业设计】基于NodeJS大学生二手交易平台基于nodejs的校园二手市场的设计与实现【附源码、数据库、万字文档】

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华