EasyRL 强化学习笔记 1、2章节(强化学习概述,MDP))
目录
- 第一章 强化学习概述
- Reinforcement Learning
- 和监督学习对比:
- trajectory与episode
- Sequential Decision Making
- state和observation;MDP与POMDP
- Action Spaces
- Major Components of an RL Agent
- Policy
- Value Function
- Model
- Policy-based 与 Value-based
- Types of RL Agents
- value-based & policy-based
- model-based & model-free
- Exploration and Exploitation
- K-armed Bandit
- 总结:
- MDP
- Markov Process
- Markov Property
- Markov Process/Markov Chain
- Markov Reward Process(MRP)
- Return and Value function
- Bellman Equation
- Computing Value of a MRP
- Monte Carlo
- DP
- Markov Decision Process
- Policy
- MP/MRP VS MDP
- Value function
- Bellman Expectation Equation
- Backup Diagram
- Policy Evaluation(Prediction)
- Prediction and Control
- Dynamic Programming
- Policy Evaluation on MDP
- MDP Control
- Policy Iteration
- Value Iteration
- 总结:
主要参考资料:EasyRL,写的超级仔细!我这里只是摘抄了其中的内容,强烈建议看原文档!
第一章 强化学习概述
Reinforcement Learning
和监督学习对比:
- 输入是序列数据,并不满足独立同分布。
- agent需要不断试错 trial-and-error exploration。
- 没有label标签告诉模型哪个action是正确的,只有reward,并且是延迟的。
- 监督学习的数据是人工标注的,相当于有了一个上限。但RL有更大的潜力,有可超越人类、
trajectory与episode
- trajectory:agent和环境交互,得到的一堆观测数据。即状态和动作的一个序列。τ=(s0,a0,s1,a1,...)\tau = (s_0,a_0,s_1,a_1,...)τ=(s0,a0,s1,a1,...)
- 一场游戏:episode(回合)或trial(试验)
Sequential Decision Making
- 在一个强化学习环境里面,agent 的目的就是选取一系列的动作来极大化它的奖励,所以这些采取的动作必须有长期影响。但在这个过程里面,它的奖励其实是被延迟了,就是说你现在采取的某一步决策可能要等到时间很久过后才知道这一步到底产生了什么样的影响。
state和observation;MDP与POMDP
状态(state)
s 是对世界的完整描述,不会隐藏世界的信息。观测(observation)
o 是对状态的部分描述,可能会遗漏一些信息。Ht=O1,R1,A1,...,At−1,Ot,RtH_t = O_1,R_1,A_1,...,A_{t-1},O_t,R_tHt=O1,R1,A1,...,At−1,Ot,Rt St=f(Ht)S_t = f(H_t)St=f(Ht)- 当 agent 的状态跟环境的状态等价的时候,我们就说这个环境是
full observability
,就是全部可以观测。换句话说,当 agent 能够观察到环境的所有状态时,我们称这个环境是完全可观测的(fully observed)。在这种情况下面,强化学习通常被建模成一个Markov decision process
(MDP)的问题:Ot=Ste=StaO_t = S_t^e = S_t^aOt=Ste=Sta 。(观测=环境状态=agent状态) - 当agent只能看到部分的观测,称为部分可观测的(partially observed)。在这种情况下面,强化学习通常被建模成一个
POMDP
的问题。(如棋牌游戏,只能看到牌面上的牌) 部分可观测马尔可夫决策过程(Partially Observable Markov Decision Processes, POMDP)
是一个马尔可夫决策过程的泛化。POMDP 依然具有马尔可夫性质,但是假设智能体无法感知环境的状态 s,只能知道部分观测值 o。比如在自动驾驶中,智能体只能感知传感器采集的有限的环境信息。通常用七元组表示(S,A,T,R,Ω,O,γ)(S,A,T,R,\Omega,O,\gamma)(S,A,T,R,Ω,O,γ)
Action Spaces
- 离散动作空间(discrete action spaces):agent的数量是有限的。如:走迷宫机器人只能走东南西北四个方向。
- 连续动作空间(continuous action spaces) :在连续空间中,动作是实值的向量。如:机器人可以360°移动。
Major Components of an RL Agent
-
策略函数(policy function),agent 会用这个函数来选取下一步的动作。
-
价值函数(value function),我们用价值函数来对当前状态进行估价,它就是说你进入现在这个状态,可以对你后面的收益带来多大的影响。当这个价值函数大的时候,说明你进入这个状态越有利。
-
模型(model),模型表示了 agent 对这个环境的状态进行了理解,它决定了这个世界是如何进行的。
Policy
- 输入为状态,输出为采取的action。分为
stochastic policy(随机性策略)
和deterministic policy(确定性策略)
。 - stochastic policy(随机性策略):输出的是动作的概率,然后对概率分布进行采样获取action。
- deterministic policy(确定性策略):直接取概率最大的动作。
- 通常情况下,强化学习一般使用随机性策略。① 在学习时可以通过引入一定随机性来更好地探索环境;② 随机性策略的动作具有多样性。采用确定性策略的智能体总是对同样的环境做出相同的动作,会导致它的策略很容易被对手预测。
Value Function
价值函数是未来奖励的一个预测,用来评估状态的好坏。
- 价值函数表示,在我们已知某一个策略函数时,可以得到多少奖励。
vπ(s)≐Eπ[Gt∣St=s]=Eπ[∑k=0∞γkRt+k+1∣St=s]\mathrm{v}_{\pi}(\mathrm{s}) \doteq \mathbb{E}_{\pi}\left[\mathrm{G}_{\mathrm{t}} \mid \mathrm{S}_{\mathrm{t}}=\mathrm{s}\right]=\mathbb{E}_{\pi}\left[\sum_{\mathrm{k}=0}^{\infty} \gamma^{\mathrm{k}} \mathrm{R}_{\mathrm{t}+\mathrm{k}+1} \mid \mathrm{S}_{\mathrm{t}}=\mathrm{s}\right]vπ(s)≐Eπ[Gt∣St=s]=Eπ[∑k=0∞γkRt+k+1∣St=s], for all s∈S\mathrm{s} \in \mathcal{S}s∈S - Q函数(未来可以获得多少奖励取决于当前的状态和当前的行为):
qπ(s,a)≐Eπ[Gt∣St=s,At=a]=Eπ[∑k=0∞γkRt+k+1∣St=s,At=a]\mathrm{q}_{\pi}(\mathrm{s}, \mathrm{a}) \doteq \mathbb{E}_{\pi}\left[\mathrm{G}_{\mathrm{t}} \mid \mathrm{S}_{\mathrm{t}}=\mathrm{s}, \mathrm{A}_{\mathrm{t}}=\mathrm{a}\right]=\mathbb{E}_{\pi}\left[\sum_{\mathrm{k}=0}^{\infty} \gamma^{\mathrm{k}} \mathrm{R}_{\mathrm{t}+\mathrm{k}+1} \mid \mathrm{S}_{\mathrm{t}}=\mathrm{s}, \mathrm{A}_{\mathrm{t}}=\mathrm{a}\right]qπ(s,a)≐Eπ[Gt∣St=s,At=a]=Eπ[∑k=0∞γkRt+k+1∣St=s,At=a]
这个 Q 函数是强化学习算法里面要学习的一个函数。因为当我们得到这个 Q 函数后,进入某一种状态,它最优的行为就可以通过这个 Q 函数来得到。
Model
模型决定了下一个状态会是什么样的,就是说下一步的状态取决于你当前的状态以及你当前采取的行为。它由两个部分组成:
- 概率:转移状态之间是怎么转移的 Pss′a=P[St+1=s′∣St=s,At=a]\mathcal{P}_{\mathrm{ss}^{\prime}}^{\mathrm{a}}=\mathbb{P}\left[\mathrm{S}_{\mathrm{t}+1}=\mathrm{s}^{\prime} \mid \mathrm{S}_{\mathrm{t}}=\mathrm{s}, \mathrm{A}_{\mathrm{t}}=\mathrm{a}\right]Pss′a=P[St+1=s′∣St=s,At=a]
- 奖励函数:当采取了某个行为,可以获得多大的奖励
Rsa=E[Rt+1∣St=s,At=a]\mathcal{R}_{\mathrm{s}}^{\mathrm{a}}=\mathbb{E}\left[\mathrm{R}_{\mathrm{t}+1} \mid \mathrm{S}_{\mathrm{t}}=\mathrm{s}, \mathrm{A}_{\mathrm{t}}=\mathrm{a}\right]Rsa=E[Rt+1∣St=s,At=a]
Policy-based 与 Value-based
- 基于策略的(policy-based)RL:每一个状态得到一个最佳的行为(action)。
- 基于价值的(value-based)RL:每一个状态对应的value。
Types of RL Agents
value-based & policy-based
1.基于价值的 agent(value-based agent)
。
- 这一类 agent 显式地学习的是价值函数,
- 隐式地学习了它的策略。策略是从我们学到的价值函数里面推算出来的。
2.基于策略的 agent(policy-based agent)
。
- 这一类 agent 直接去学习 policy,就是说你直接给它一个状态,它就会输出这个动作的概率。
- 在基于策略的 agent 里面并没有去学习它的价值函数。
3.二者结合:Actor-Critic agent
。这一类 agent 把它的策略函数和价值函数都学习了,然后通过两者的交互得到一个最佳的行为。
Q: 基于策略迭代和基于价值迭代的强化学习方法有什么区别?
-
在基于策略迭代的强化学习方法中,智能体会制定一套
动作策略
(确定在给定状态下需要采取何种动作),并根据这个策略进行操作。强化学习算法直接对策略进行优化,使制定的策略能够获得最大的奖励。 -
而在基于价值迭代的强化学习方法中,智能体不需要制定显式的策略,它维护一个
价值表格或价值函数
,并通过这个价值表格或价值函数来选取价值最大的动作。基于价值迭代的方法只能应用在不连续的、离散的环境下(如围棋或某些游戏领域),对于行为集合规模庞大、动作连续的场景(如机器人控制领域),其很难学习到较好的结果(此时基于策略迭代的方法能够根据设定的策略来选择连续的动作)。 -
基于
价值迭代
的强化学习算法有 Q-learning、 Sarsa 等,而基于策略迭代
的强化学习算法有策略梯度算法等。此外,Actor-Critic
算法同时使用策略和价值评估来做出决策,其中,智能体会根据策略做出动作,而价值函数会对做出的动作给出价值,这样可以在原有的策略梯度算法的基础上加速学习过程,取得更好的效果。
model-based & model-free
model-based
(有模型) RL agent,它通过学习这个状态的转移来采取动作。model-free
(免模型) RL agent,它没有去直接估计这个状态的转移,也没有得到环境的具体转移变量。它通过学习价值函数和策略函数进行决策。Model-free 的模型里面没有一个环境转移的模型。
具体来说,当智能体知道状态转移函数 P(st+1∣st,at)P(s_{t+1}|s_t,a_t)P(st+1∣st,at)和奖励函数 R(st,at)R(s_t,a_t)R(st,at)后,它就能知道在某一状态下执行某一动作后能带来的奖励和环境的下一状态,这样智能体就不需要在真实环境中采取动作,直接在虚拟世界中学习和规划策略即可。这种学习方法称为有模型学习。
然而在实际应用中,智能体并不是那么容易就能知晓 MDP 中的所有元素的。通常情况下,状态转移函数和奖励函数很难估计,甚至连环境中的状态都可能是未知的,这时就需要采用model-free学习。免模型学习没有对真实环境进行建模,智能体只能在真实环境中通过一定的策略来执行动作,等待奖励和状态迁移,然后根据这些反馈信息来更新行为策略,这样反复迭代直到学习到最优策略。
总结:
有模型学习
是指根据环境中的经验,构建一个虚拟世界,同时在真实环境和虚拟世界中学习。① 具有想象能力:在免模型学习中,智能体只能一步一步地采取策略,等待真实环境的反馈;而model-based可以在虚拟世界中预测出所有将要发生的事,并采取对自己最有利的策略。免模型学习
是指不对环境进行建模,直接与真实环境进行交互来学习到最优策略。① 通常属于数据驱动型方法,需要大量的采样来估计状态、动作及奖励函数,从而优化动作策略。② 泛化性要优于有模型学习,原因是有模型学习算需要对真实环境进行建模,并且虚拟世界与真实环境之间可能还有差异,这限制了有模型学习算法的泛化性。(DQN,DDPG,A3C,PPO)
自己的理解:
- model-free:相当于在线学习,能获取用户真实反馈。
- model-based:可以看作是建立了environment simulator。不过并不局限于此,关键是对环境转移概率建模。
- 例子:①
model-free
,比如Q-learning的思想,我只能估计在状态S的预估值V(S)是多少,但不知道我给了一个动作a后,环境会怎么变动。我们给一个动作a后,我们要等,要等!环境给出一个真实的S’后,我们才能估计下一步V(S’)。②model-based
,建模了环境,特指:我们想象,在环境S下,当我们做出动作a后,它会(以多大概率)转移到状态S1,S2, S3,我们在S1,2,3处都有V(S1),V(S2),V(S3)。于是这可以帮助我们更好的决策要不要做动作a。
目前,大部分深度强化学习方法都采用了model-free学习,这是因为:
- 免模型学习更为简单直观且有丰富的开源资料,像 DQN、AlphaGo 系列等都采用免模型学习;
- 在目前的强化学习研究中,大部分情况下环境都是静态的、可描述的,智能体的状态是离散的、可观察的(如 Atari 游戏平台),这种相对简单确定的问题并不需要评估状态转移函数和奖励函数,直接采用免模型学习,使用大量的样本进行训练就能获得较好的效果。
不过IRS中,通常使用的是model-based方法,模拟出用户、生成用户的,都能叫model-based。主要是因为线上模拟太耗时了,也没有合适的数据集。
Exploration and Exploitation
- 探索是说我们怎么去探索这个环境,通过尝试不同的行为来得到一个最佳的策略,得到最大奖励的策略。
- 利用是说我们不去尝试新的东西,就采取已知的可以得到很大奖励的行为。
比如外出吃饭,exploitation就是选择之前吃过的感觉还不错的店;exploration就是选择一家新的没有吃过的餐厅。
K-armed Bandit
单步强化学习模型:K-臂赌博机(K-armed bandit)
,也称多臂赌博机(Multi-armed bandit)
总结:
- 深度强化学习(Deep Reinforcement Learning):不需要手工设计特征,仅需要输入State让系统直接输出Action的一个end-to-end training的强化学习方法。通常使用神经网络来拟合 value function 或者 policy network。
- 强化学习的通俗理解?
答:environment
跟reward function
不是我们可以控制的,environment 跟 reward function 是在开始学习之前,就已经事先给定的。我们唯一能做的事情是调整 actor 里面的 policy,使得 actor 可以得到最大的 reward。Actor 里面会有一个 policy, 这个 policy 决定了actor 的行为。Policy 就是给一个外界的输入,然后它会输出 actor 现在应该要执行的行为。 - 高冷的面试官: 根据你上面介绍的内容,你认为强化学习的使用场景有哪些呢?
答: 七个字的话就是多序列决策问题。或者说是对应的模型未知,需要通过学习逐渐逼近真实模型的问题并且当前的动作会影响环境的状态,即服从马尔可夫性的问题。同时应满足所有状态是可重复到达的(满足可学习型的)。 - Model-free: 不需要知道状态之间的转移概率(transition probability);Model-based: 需要知道状态之间的转移概率
MDP
在马尔可夫决策过程中,它的环境是全部可以观测的(fully observable
)。但是很多时候环境里面有些量是不可观测的,但是这个部分观测的问题也可以转换成一个 MDP 的问题。
Markov Process
Markov Property
- 如果一个状态转移是符合马尔可夫的,那就是说一个状态的下一个状态只取决于它当前状态,而跟它当前状态之前的状态都没有关系。
- 马尔可夫性质是所有马尔可夫过程的基础。
Markov Process/Markov Chain
图中每个状态都可以互相转移,我们可以用一个状态转移矩阵(State Transition Matrix)
P来描述状态转移。
Markov Reward Process(MRP)
马尔可夫奖励过程(Markov Reward Process, MRP)
是马尔可夫链再加上了一个奖励函数。- 奖励函数 RRR 是一个期望,就是说当你到达某一个状态的时候,可以获得多大的奖励。
Return and Value function
Return(回报)
说的是把奖励进行折扣后所获得的收益。Return 可以定义为奖励的逐步叠加,如下式所示:
Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT−t−1RT\mathrm{G}_{\mathrm{t}}=\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\gamma^{3} \mathrm{R}_{\mathrm{t}+4}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}}Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT−t−1RT- 当我们有了 return 过后,就可以定义一个状态的价值了,就是
state value function
。对于 MRP,state value function 被定义成是 return 的期望,如下式所示:
Vt(s)=E[Gt∣st=s]=E[Rt+1+γRt+2+γ2Rt+3+…+γT−t−1RT∣st=s]\begin{aligned} \mathrm{V}_{\mathrm{t}}(\mathrm{s}) &=\mathbb{E}\left[\mathrm{G}_{\mathrm{t}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \\ &=\mathbb{E}\left[\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \end{aligned}Vt(s)=E[Gt∣st=s]=E[Rt+1+γRt+2+γ2Rt+3+…+γT−t−1RT∣st=s]
期望就是说从这个状态开始,你有可能获得多大的价值。
Bellman Equation
Bellman Equation 定义了当前状态跟未来状态之间的这个关系。
V(s)=R(s)+γ∑s′∈SP(s′∣s)V(s′)\mathrm{V}(\mathrm{s})=\mathrm{R}(\mathrm{s})+\gamma \sum_{\mathrm{s}^{\prime} \in \mathrm{S}} \mathrm{P}\left(\mathrm{s}^{\prime} \mid \mathrm{s}\right) \mathrm{V}\left(\mathrm{s}^{\prime}\right)V(s)=R(s)+γ∑s′∈SP(s′∣s)V(s′)
- 未来打了折扣的奖励加上当前立刻可以得到的奖励,就组成了这个 Bellman Equation。
可以写成矩阵的形式:
Bellman Equation 就是当前状态与未来状态的迭代关系,表示当前状态的值函数可以通过下个状态的值函数来计算。Bellman Equation 因其提出者、动态规划创始人 Richard Bellman 而得名 ,也叫作“动态规划方程”。
Computing Value of a MRP
我们可以通过迭代的方法来解这种状态非常多的 MRP(large MRPs),比如说:
- 动态规划的方法,
- 蒙特卡罗的办法(通过采样的办法去计算它),
- 时序差分学习(Temporal-Difference Learning)的办法。 Temporal-Difference Learning· 叫 TD Leanring,它是动态规划和蒙特卡罗的一个结合。
Monte Carlo
就是从当前状态开始,重复很多次,记录下return,最后算平均。
DP
通过 bootstrapping(自举)
的办法,然后去不停地迭代这个 Bellman Equation。当这个最后更新的状态跟你上一个状态变化并不大的时候,更新就可以停止。
动态规划的方法基于后继状态值的估计来更新状态值的估计(算法二中的第 3 行用 V’ 来更新 V )。也就是说,它们根据其他估算值来更新估算值。我们称这种基本思想为 bootstrapping。
Bootstrap 本意是“解靴带”;这里是在使用徳国文学作品《吹牛大王历险记》中解靴带自助(拔靴自助)的典故,因此将其译为“自举”。
Markov Decision Process
相对于 MRP,马尔可夫决策过程(Markov Decision Process)多了一个 decision
,其它的定义跟 MRP 都是类似的。
- 多了一个决策,相当于多了一个动作action
- 状态转移也多了一个条件;价值函数也多了一个条件。(action)
Policy
- policy定义了在某一个状态应该采取什么样的动作。
- 知道当前状态过后,我们可以把当前状态带入 policy function,然后就会得到一个概率。
MP/MRP VS MDP
- 马尔可夫过程的转移是直接就决定。比如当前状态是 s,那么就直接通过这个转移概率决定了下一个状态是什么。
- 但对于 MDP,它的中间多了一层动作 a。即这个当前状态跟未来状态转移过程中这里多了一层决策性,这是 MDP 跟之前的马尔可夫过程很不同的一个地方。在马尔可夫决策过程中,动作是由 agent 决定,所以多了一个 component,agent 会采取动作来决定未来的状态转移。
Value function
状态-价值函数(state-value function)
:vπ(s)=Eπ[Gt∣st=s]\mathrm{v}^{\pi}(\mathrm{s})=\mathbb{E}_{\pi}\left[\mathrm{G}_{\mathrm{t}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right]vπ(s)=Eπ[Gt∣st=s]
Q函数action-value function
:qπ(s,a)=Eπ[Gt∣st=s,At=a]\mathrm{q}^{\pi}(\mathrm{s}, \mathrm{a})=\mathbb{E}_{\pi}\left[\mathrm{G}_{\mathrm{t}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}, \mathrm{A}_{\mathrm{t}}=\mathrm{a}\right]qπ(s,a)=Eπ[Gt∣st=s,At=a]
定义的是在某一个状态采取某一个动作,它有可能得到的这个 return 的一个期望。
(二者的区别就是,价值函数未考虑action,Q函数考虑到了。把在状态s时能采取的动作action的概率
乘上 在状态s时采取的动作action获得的Q值
,就得到了价值函数啦)
对 Q 函数中的动作函数进行加和,就可以得到价值函数:vπ(s)=∑a∈Aπ(a∣s)qπ(s,a)\mathrm{v}^{\pi}(\mathrm{s})=\sum_{\mathrm{a} \in \mathrm{A}} \pi(\mathrm{a} \mid \mathrm{s}) \mathrm{q}^{\pi}(\mathrm{s}, \mathrm{a})vπ(s)=∑a∈Aπ(a∣s)qπ(s,a)
Bellman Expectation Equation
我们可以把状态-价值函数和 Q 函数拆解成两个部分:即时奖励(immediate reward) 和后续状态的折扣价值(discounted value of successor state)。
Bellman Expectation Equation:
- 把以下两个式子互相代入:
- vπ(s)=∑a∈Aπ(a∣s)qπ(s,a)\mathrm{v}^{\pi}(\mathrm{s})=\sum_{\mathrm{a} \in \mathrm{A}} \pi(\mathrm{a} \mid \mathrm{s}) \mathrm{q}^{\pi}(\mathrm{s}, \mathrm{a})vπ(s)=∑a∈Aπ(a∣s)qπ(s,a)
- qπ(s,a)=Rsa+γ∑s′∈SP(s′∣s,a)vπ(s′)\mathrm{q}^{\pi}(\mathrm{s}, \mathrm{a})=\mathrm{R}_{\mathrm{s}}^{\mathrm{a}}+\gamma \sum_{\mathrm{s}^{\prime} \in \mathrm{S}} \mathrm{P}\left(\mathrm{s}^{\prime} \mid \mathrm{s}, \mathrm{a}\right) \mathrm{v}^{\pi}\left(\mathrm{s}^{\prime}\right)qπ(s,a)=Rsa+γ∑s′∈SP(s′∣s,a)vπ(s′)
把(2)代入(1):
- vπ(s)=∑a∈Aπ(a∣s)(R(s,a)+γ∑s′∈SP(s′∣s,a)vπ(s′))\mathrm{v}^{\pi}(\mathrm{s})=\sum_{\mathrm{a} \in \mathrm{A}} \pi(\mathrm{a} \mid \mathrm{s})\left(\mathrm{R}(\mathrm{s}, \mathrm{a})+\gamma \sum_{\mathrm{s}^{\prime} \in \mathrm{S}} \mathrm{P}\left(\mathrm{s}^{\prime} \mid \mathrm{s}, \mathrm{a}\right) \mathrm{v}^{\pi}\left(\mathrm{s}^{\prime}\right)\right)vπ(s)=∑a∈Aπ(a∣s)(R(s,a)+γ∑s′∈SP(s′∣s,a)vπ(s′))
(右边表示,在s下采取a时获得的Q值)
把(1)代入(2):
- qπ(s,a)=R(s,a)+γ∑s′∈SP(s′∣s,a)∑a′∈Aπ(a′∣s′)qπ(s′,a′)\mathrm{q}^{\pi}(\mathrm{s}, \mathrm{a})=\mathrm{R}(\mathrm{s}, \mathrm{a})+\gamma \sum_{\mathrm{s}^{\prime} \in \mathrm{S}} \mathrm{P}\left(\mathrm{s}^{\prime} \mid \mathrm{s}, \mathrm{a}\right) \sum_{\mathrm{a}^{\prime} \in \mathrm{A}} \pi\left(\mathrm{a}^{\prime} \mid \mathrm{s}^{\prime}\right) \mathrm{q}^{\pi}\left(\mathrm{s}^{\prime}, \mathrm{a}^{\prime}\right)qπ(s,a)=R(s,a)+γ∑s′∈SP(s′∣s,a)∑a′∈Aπ(a′∣s′)qπ(s′,a′)
Backup Diagram
感觉这部分和贝尔曼方程很类似呀。
Policy Evaluation(Prediction)
预测当前采取的策略最终会产生多少价值。
Prediction and Control
- 预测问题是给定一个 policy,我们要确定它的 value function 是多少。
- 而控制问题是在没有 policy 的前提下,我们要确定最优的 value function 以及对应的决策方案。
Dynamic Programming
动态规划(Dynamic Programming,DP)
适合解决满足如下两个性质的问题:
最优子结构(optimal substructure)
。最优子结构意味着,我们的问题可以拆分成一个个的小问题,通过解决这个小问题,最后,我们能够通过组合小问题的答案,得到大问题的答案,即最优的解。重叠子问题(Overlapping subproblems)
。重叠子问题意味着,子问题出现多次,并且子问题的解决方案能够被重复使用。
MDP 是满足动态规划的要求的:
- 在 Bellman equation 里面,我们可以把它分解成一个递归的结构。当我们把它分解成一个递归的结构的时候,如果我们的子问题子状态能得到一个值,那么它的未来状态因为跟子状态是直接相连的,那我们也可以继续推算出来。
- 价值函数就可以储存并重用它的最佳的解。
动态规划应用于 MDP 的规划问题(planning)而不是学习问题(learning),我们必须对环境是完全已知的(Model-Based),才能做动态规划,直观的说,就是要知道状态转移概率和对应的奖励才行。
Policy Evaluation on MDP
- Policy evaluation 就是给定一个 MDP 和一个 policy,我们可以获得多少的价值。
- 核心思想:把 Bellman expectation backup 拿出来反复迭代,然后就会得到一个收敛的价值函数的值
MDP Control
如果我们只有一个 MDP,如何去寻找一个最佳的策略,然后可以得到一个最佳价值函数(Optimal Value Function)
。
π∗(s)=argmaxπvπ(s)\pi^{*}(\mathrm{s})=\underset{\pi}{\arg \max } \mathrm{v}^{\pi}(\mathrm{s})π∗(s)=πargmaxvπ(s)
策略搜索方法:
- 最简单的:穷举
- policy iteration
- value iteration
Policy Iteration
Policy iteration 由两个步骤组成:policy evaluation 和 policy improvement。
Value Iteration
我们从另一个角度思考问题,动态规划的方法将优化问题分成两个部分:
- 第一步执行的是最优的 action;
- 之后后继的状态每一步都按照最优的 policy 去做,那么我最后的结果就是最优的。
对比: - Policy Iteration 分两步,首先进行 policy evaluation,即对当前已经搜索到的策略函数进行一个估值。得到估值过后,进行 policy improvement,即把 Q 函数算出来,我们进一步进行改进。不断重复这两步,直到策略收敛。
- Value iteration 直接把 Bellman Optimality Equation 拿进来,然后去寻找最佳的 value function,没有 policy function 在这里面。当算出 optimal value function 过后,我们再来提取最佳策略。
总结:
- 一个状态的价值Vt(s){V}_{\mathrm{t}}(\mathrm{s})Vt(s),就是GtG_tGt。贝尔曼方程也是描述当前状态价值和未来状态价值的公式。(分为:基于价值函数的贝尔曼方程和基于动作值的贝尔曼方程)
- 求贝尔曼等式方法:① 蒙特卡洛方法:用于计算价值函数的值。取平均。② 动态规划法:一直迭代贝尔曼方程直到收敛。③ 二者结合:TD
- MDP中的prediction问题:给定MDP和policy,计算价值函数。
- MDP中的control问题:给定MDP,输出最佳价值函数和最佳策略。
- 马尔科夫过程是一个二元组<S,P><S,P><S,P>:状态的集合和状态转移概率矩阵
- 马尔科夫决策过程是一个五元组KaTeX parse error: Undefined control sequence: \gmma at position 10: <S,P,A,R,\̲g̲m̲m̲a̲>
- 求解马尔科夫决策过程=求解贝尔曼等式
如若内容造成侵权/违法违规/事实不符,请联系编程学习网邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
相关文章
- Flink 系例 之 Fold
Fold算子:将数据流的每一次输出进行滚动叠加,合并输出结果 示例环境 java.version: 1.8.x flink.version: 1.11.1 示例数据源(项目码云下载) Flink 系例 之 搭建开发环境与数据 Fold.java import com.flink.examples.DataSou…...
2024/4/15 7:46:52 - Spring - @Async实现异步调用
★.区分: 同步调用:顺序执行调用,当执行完毕,并且返回结果时,才继续下一个调用。 异步调用:发送调用指令,无需等待被调用的方法执行完毕,继续执行下面的流程。一、Aysnc Spring中&a…...
2024/4/20 2:45:28 - 64位的系统最大可以支持多大内存
理论上是这样的:32位2^32B 4 * 2^30B 4GB,因此32位操作系统正好可访问4GB范围的地址。 但是实践上就有所区别:从来没见过任何32bit的XP能够访问4GB的物理内存。 理论和实际看起来矛盾,实则不然。注意“可以…...
2024/4/24 2:12:20 - Kafka知识体系总结
目录0- 知识图谱1- 消息队列1.1- 消息队列的介绍1.2- 消息队列的应用场景1.3- 消息队列的两种模式1.3.1- 点对点模式1.3.2- 发布/订阅模式1.4- 常用的消息队列介绍1.4.1- RabbitMQ1.4.2- ActiveMQ1.4.3- RocketMQ1.4.4- Kafka1.5- Pulsar1.5.1- Pulsar 的特性1.5.2- Pulsar 存储…...
2024/4/26 22:58:00 - WIFI模块中AP模式和STA模式的区别
WIFI模块中,AP和STA模式中分别意思是: 1.AP:也就是无线接入点,是一个无线网络的创建者,是网络的中心节点。一般家庭或办公室使用的无线路由器就是一个AP。 2.STA站点就是每一个连接到无线网络中的终端(如笔记本电脑、PDA及其它可以联网的用户设备)都可称为一个站点。 AP模式:…...
2024/4/19 7:28:56 - js数组转换
var data {id:"11",name:"张三"};var keyMap {id: "序列", name: "姓名"};var objs Object.keys(data).reduce((newData, key) > { let newKey keyMap[key] || key newData[newKey] data[key] return newData; }, {}) console.…...
2024/4/25 4:47:13 - Vue监视属性
1.监视属性watch: 1.当被监视的属性变化时,回调函数自动调用,进行相关操作 2.监视的属性必须存在,才能进行监视!! 3.监视的两种写法: (1).new Vue时传入watch配置 (2).通过vm.$watch监视 html里直接{{isHot}}<script type"text/javascript">const vm new V…...
2024/4/27 7:44:02 - 汇编语言3
1.转移指令 定义:修改IP或同时修改CS和IP的指令称为转移指令 jmp short :-127~127 jmp near ptr:-32768~32767 jmp 偏移量:并没有给出目的地址的地址,而是给出了目的地址相对此时IP的偏移量 jmp far ptr:段间转移 包含目的地的地址 高位地址为段地址,低位地址为偏移地址 j…...
2024/4/15 7:47:12 - Dbeaver 导入csv文件
环境:pg数据库 连接工具Dbeaver 需求:一个excel表格导入到数据库中的一个表 开始: excel 表内容如下 如果是excel表,要先把后缀名称改成csv,然后打开csv文件,选择另存为,填写文件名称࿰…...
2024/4/26 13:04:43 - c++网络技术支撑
服务器端代码: #define _WINSOCK_DEPRECATED_NO_WARNINGS #include<WinSock2.h> #include<Windows.h> #include<iostream> using namespace std; #pragma comment(lib,"ws2_32")int main() {WSADATA wsaDate {};WSAStartup(MAKEWORD(2…...
2024/4/20 16:32:25 - Java——类和对象超详细总结
文章目录类和对象1.类与对象的初步认识2.类和类的实例化3.类的成员3.1字段/属性/成员变量3.2方法3.3 static关键字4.封装4.1 private实现封装4.2 getter和setter方法5.构造方法5.1基本语法5.2 this关键字6.认识代码块6.1什么是代码块6.2普通代码块6.3构造代码块6.4静态代码块类…...
2024/4/15 7:46:57 - GAN与WGAN
文章目录GAN和WGANGAN判别网络生成网络训练GAN存在的问题训练稳定性模型坍塌改进方法:WGANWasserstein\text{Wasserstein}Wasserstein距离评价网络生成网络开源代码GAN和WGAN GAN 生成对抗网络(GAN, Generative Adversarial Networks)是2014年由Goodfellow提出的模…...
2024/4/28 2:53:21 - 【Java面试题】数据库与JVM综合篇(附有答案,2021年您应该知道的技术之一)
1、列不可再分; 2、每一行数据只做一件事,只与一列相关,主键; 3、每个属性都与主键有直接关系,而不是间接关系; 三大范式只是设计数据库的基本理念,可以建立冗余较小、结构合理的数据库。如果…...
2024/4/15 7:47:02 - 我是如何开发一个项目的
文章目录碎碎念明确为什么要开发这个项目是很重要的需求分析项目设计之螺旋式上升“备忘录模式” 开启测试做在前碎碎念 鉴于这个毕设已经重写第三遍了,我觉得有必要写这么两篇来指导一下我自己了。 第一篇是《我是如何开发一个项目的》,从我浅薄的项目…...
2024/4/23 5:46:18 - 读书笔记:《JavaScript高级程序设计》(第4版)--第一章:什么是JavaScript
1.1简短的历史回顾 JavaScript是一门脚本语言。ECMAScript是JavaScript的实现标准。当然,在语言表达的时候不必特别区分,基本上是同义词。 1.2JavaScript实现 完整的JavaScript实现包括:核心(ECMAScript)、文档对象模…...
2024/4/20 13:16:24 - Gartner发布2021企业低代码魔力象限,这个平台连续三年第一
今年年初,阿里云智能总裁张建锋在接受《钛媒体》专访时说:“2021 年的潮流就是低代码开发。”而回望2021年过去的10个月,低代码开发确实以一种不可阻挡的趋势,席卷了各个行业。 作为国际知名咨询机构,Gartner每年都会…...
2024/4/19 4:25:50 - 什么是Java类和对象(初阶)
目录 1.面向对象 2.类和对象 3.类和对象的关系 4.定义类 5.成员变量和局部变量 6.调用方法 1.面向对象 众所周知,Java语言是一门面向对象的语言,什么是面向对象?面向对象是以对象为基础,完成各种操作,主要强调对…...
2024/4/20 22:54:12 - 一招教你快速打造企业级数据可视化大屏
低代码是这两年最热的技术话题之一,围绕着低代码产生了许多理念。有人说这是类似语法糖的玩具,也有人说低代码将颠覆整个行业并取代大批开发者。众说纷纭,那么低代码的真实面貌究竟是什么? 11月4日 19点,云智慧技术经…...
2024/4/26 0:48:01 - 第二章求100以内偶数之和
文字描述 1.定义两个变量sum和i,i的初始值为2; 2.i<100,转到第三步,否则转到第六步; 3.sum等于sum加i; 4.i增加2; 5.返回第三步; 6.输出sum此时sum的值为他们的和; 流程图 求100以内偶…...
2024/4/27 11:21:37 - 阿里云GanosBase升级,发布首个云孪生时空数据库
简介: GanosBase是李飞飞带领的达摩院数据库与存储实验室联合阿里云共同研发的新一代位置智能引擎;本次重磅升级为V4.0版本,推出首个云孪生时空数据库。 作者 | 谢炯 来源 | 阿里技术公众号 导读: GanosBase是李飞飞带领的达摩院…...
2024/4/19 9:09:07
最新文章
- 《架构风清扬-Java面试系列第25讲》聊聊ArrayBlockingQueue的特点及使用场景
ArrayBlockingQueue是BlockingQueue接口的一个实现类之一 这个属于基础性问题,老规矩,我们将从使用场景和代码示例来进行讲解 来,思考片刻,给出你的答案 1,使用场景 实现:基于数组实现的有界阻塞队列&…...
2024/4/28 6:32:40 - 梯度消失和梯度爆炸的一些处理方法
在这里是记录一下梯度消失或梯度爆炸的一些处理技巧。全当学习总结了如有错误还请留言,在此感激不尽。 权重和梯度的更新公式如下: w w − η ⋅ ∇ w w w - \eta \cdot \nabla w ww−η⋅∇w 个人通俗的理解梯度消失就是网络模型在反向求导的时候出…...
2024/3/20 10:50:27 - 3d representation的一些基本概念
顶点(Vertex):三维空间中的一个点,可以有多个属性,如位置坐标、颜色、纹理坐标和法线向量。它是构建三维几何形状的基本单元。 边(Edge):连接两个顶点形成的直线段,它定…...
2024/4/27 1:08:47 - HIS系统是什么?一套前后端分离云HIS系统源码 接口技术RESTful API + WebSocket + WebService
HIS系统是什么?一套前后端分离云HIS系统源码 接口技术RESTful API WebSocket WebService 医院管理信息系统(全称为Hospital Information System)即HIS系统。 常规模版包括门诊管理、住院管理、药房管理、药库管理、院长查询、电子处方、物资管理、媒体管理等&…...
2024/4/26 5:05:43 - 【外汇早评】美通胀数据走低,美元调整
原标题:【外汇早评】美通胀数据走低,美元调整昨日美国方面公布了新一期的核心PCE物价指数数据,同比增长1.6%,低于前值和预期值的1.7%,距离美联储的通胀目标2%继续走低,通胀压力较低,且此前美国一季度GDP初值中的消费部分下滑明显,因此市场对美联储后续更可能降息的政策…...
2024/4/26 18:09:39 - 【原油贵金属周评】原油多头拥挤,价格调整
原标题:【原油贵金属周评】原油多头拥挤,价格调整本周国际劳动节,我们喜迎四天假期,但是整个金融市场确实流动性充沛,大事频发,各个商品波动剧烈。美国方面,在本周四凌晨公布5月份的利率决议和新闻发布会,维持联邦基金利率在2.25%-2.50%不变,符合市场预期。同时美联储…...
2024/4/28 3:28:32 - 【外汇周评】靓丽非农不及疲软通胀影响
原标题:【外汇周评】靓丽非农不及疲软通胀影响在刚结束的周五,美国方面公布了新一期的非农就业数据,大幅好于前值和预期,新增就业重新回到20万以上。具体数据: 美国4月非农就业人口变动 26.3万人,预期 19万人,前值 19.6万人。 美国4月失业率 3.6%,预期 3.8%,前值 3…...
2024/4/26 23:05:52 - 【原油贵金属早评】库存继续增加,油价收跌
原标题:【原油贵金属早评】库存继续增加,油价收跌周三清晨公布美国当周API原油库存数据,上周原油库存增加281万桶至4.692亿桶,增幅超过预期的74.4万桶。且有消息人士称,沙特阿美据悉将于6月向亚洲炼油厂额外出售更多原油,印度炼油商预计将每日获得至多20万桶的额外原油供…...
2024/4/27 4:00:35 - 【外汇早评】日本央行会议纪要不改日元强势
原标题:【外汇早评】日本央行会议纪要不改日元强势近两日日元大幅走强与近期市场风险情绪上升,避险资金回流日元有关,也与前一段时间的美日贸易谈判给日本缓冲期,日本方面对汇率问题也避免继续贬值有关。虽然今日早间日本央行公布的利率会议纪要仍然是支持宽松政策,但这符…...
2024/4/27 17:58:04 - 【原油贵金属早评】欧佩克稳定市场,填补伊朗问题的影响
原标题:【原油贵金属早评】欧佩克稳定市场,填补伊朗问题的影响近日伊朗局势升温,导致市场担忧影响原油供给,油价试图反弹。此时OPEC表态稳定市场。据消息人士透露,沙特6月石油出口料将低于700万桶/日,沙特已经收到石油消费国提出的6月份扩大出口的“适度要求”,沙特将满…...
2024/4/27 14:22:49 - 【外汇早评】美欲与伊朗重谈协议
原标题:【外汇早评】美欲与伊朗重谈协议美国对伊朗的制裁遭到伊朗的抗议,昨日伊朗方面提出将部分退出伊核协议。而此行为又遭到欧洲方面对伊朗的谴责和警告,伊朗外长昨日回应称,欧洲国家履行它们的义务,伊核协议就能保证存续。据传闻伊朗的导弹已经对准了以色列和美国的航…...
2024/4/28 1:28:33 - 【原油贵金属早评】波动率飙升,市场情绪动荡
原标题:【原油贵金属早评】波动率飙升,市场情绪动荡因中美贸易谈判不安情绪影响,金融市场各资产品种出现明显的波动。随着美国与中方开启第十一轮谈判之际,美国按照既定计划向中国2000亿商品征收25%的关税,市场情绪有所平复,已经开始接受这一事实。虽然波动率-恐慌指数VI…...
2024/4/27 9:01:45 - 【原油贵金属周评】伊朗局势升温,黄金多头跃跃欲试
原标题:【原油贵金属周评】伊朗局势升温,黄金多头跃跃欲试美国和伊朗的局势继续升温,市场风险情绪上升,避险黄金有向上突破阻力的迹象。原油方面稍显平稳,近期美国和OPEC加大供给及市场需求回落的影响,伊朗局势并未推升油价走强。近期中美贸易谈判摩擦再度升级,美国对中…...
2024/4/27 17:59:30 - 【原油贵金属早评】市场情绪继续恶化,黄金上破
原标题:【原油贵金属早评】市场情绪继续恶化,黄金上破周初中国针对于美国加征关税的进行的反制措施引发市场情绪的大幅波动,人民币汇率出现大幅的贬值动能,金融市场受到非常明显的冲击。尤其是波动率起来之后,对于股市的表现尤其不安。隔夜美国股市出现明显的下行走势,这…...
2024/4/25 18:39:16 - 【外汇早评】美伊僵持,风险情绪继续升温
原标题:【外汇早评】美伊僵持,风险情绪继续升温昨日沙特两艘油轮再次发生爆炸事件,导致波斯湾局势进一步恶化,市场担忧美伊可能会出现摩擦生火,避险品种获得支撑,黄金和日元大幅走强。美指受中美贸易问题影响而在低位震荡。继5月12日,四艘商船在阿联酋领海附近的阿曼湾、…...
2024/4/28 1:34:08 - 【原油贵金属早评】贸易冲突导致需求低迷,油价弱势
原标题:【原油贵金属早评】贸易冲突导致需求低迷,油价弱势近日虽然伊朗局势升温,中东地区几起油船被袭击事件影响,但油价并未走高,而是出于调整结构中。由于市场预期局势失控的可能性较低,而中美贸易问题导致的全球经济衰退风险更大,需求会持续低迷,因此油价调整压力较…...
2024/4/26 19:03:37 - 氧生福地 玩美北湖(上)——为时光守候两千年
原标题:氧生福地 玩美北湖(上)——为时光守候两千年一次说走就走的旅行,只有一张高铁票的距离~ 所以,湖南郴州,我来了~ 从广州南站出发,一个半小时就到达郴州西站了。在动车上,同时改票的南风兄和我居然被分到了一个车厢,所以一路非常愉快地聊了过来。 挺好,最起…...
2024/4/28 1:22:35 - 氧生福地 玩美北湖(中)——永春梯田里的美与鲜
原标题:氧生福地 玩美北湖(中)——永春梯田里的美与鲜一觉醒来,因为大家太爱“美”照,在柳毅山庄去寻找龙女而错过了早餐时间。近十点,向导坏坏还是带着饥肠辘辘的我们去吃郴州最富有盛名的“鱼头粉”。说这是“十二分推荐”,到郴州必吃的美食之一。 哇塞!那个味美香甜…...
2024/4/25 18:39:14 - 氧生福地 玩美北湖(下)——奔跑吧骚年!
原标题:氧生福地 玩美北湖(下)——奔跑吧骚年!让我们红尘做伴 活得潇潇洒洒 策马奔腾共享人世繁华 对酒当歌唱出心中喜悦 轰轰烈烈把握青春年华 让我们红尘做伴 活得潇潇洒洒 策马奔腾共享人世繁华 对酒当歌唱出心中喜悦 轰轰烈烈把握青春年华 啊……啊……啊 两…...
2024/4/26 23:04:58 - 扒开伪装医用面膜,翻六倍价格宰客,小姐姐注意了!
原标题:扒开伪装医用面膜,翻六倍价格宰客,小姐姐注意了!扒开伪装医用面膜,翻六倍价格宰客!当行业里的某一品项火爆了,就会有很多商家蹭热度,装逼忽悠,最近火爆朋友圈的医用面膜,被沾上了污点,到底怎么回事呢? “比普通面膜安全、效果好!痘痘、痘印、敏感肌都能用…...
2024/4/27 23:24:42 - 「发现」铁皮石斛仙草之神奇功效用于医用面膜
原标题:「发现」铁皮石斛仙草之神奇功效用于医用面膜丽彦妆铁皮石斛医用面膜|石斛多糖无菌修护补水贴19大优势: 1、铁皮石斛:自唐宋以来,一直被列为皇室贡品,铁皮石斛生于海拔1600米的悬崖峭壁之上,繁殖力差,产量极低,所以古代仅供皇室、贵族享用 2、铁皮石斛自古民间…...
2024/4/28 5:48:52 - 丽彦妆\医用面膜\冷敷贴轻奢医学护肤引导者
原标题:丽彦妆\医用面膜\冷敷贴轻奢医学护肤引导者【公司简介】 广州华彬企业隶属香港华彬集团有限公司,专注美业21年,其旗下品牌: 「圣茵美」私密荷尔蒙抗衰,产后修复 「圣仪轩」私密荷尔蒙抗衰,产后修复 「花茵莳」私密荷尔蒙抗衰,产后修复 「丽彦妆」专注医学护…...
2024/4/26 19:46:12 - 广州械字号面膜生产厂家OEM/ODM4项须知!
原标题:广州械字号面膜生产厂家OEM/ODM4项须知!广州械字号面膜生产厂家OEM/ODM流程及注意事项解读: 械字号医用面膜,其实在我国并没有严格的定义,通常我们说的医美面膜指的应该是一种「医用敷料」,也就是说,医用面膜其实算作「医疗器械」的一种,又称「医用冷敷贴」。 …...
2024/4/27 11:43:08 - 械字号医用眼膜缓解用眼过度到底有无作用?
原标题:械字号医用眼膜缓解用眼过度到底有无作用?医用眼膜/械字号眼膜/医用冷敷眼贴 凝胶层为亲水高分子材料,含70%以上的水分。体表皮肤温度传导到本产品的凝胶层,热量被凝胶内水分子吸收,通过水分的蒸发带走大量的热量,可迅速地降低体表皮肤局部温度,减轻局部皮肤的灼…...
2024/4/27 8:32:30 - 配置失败还原请勿关闭计算机,电脑开机屏幕上面显示,配置失败还原更改 请勿关闭计算机 开不了机 这个问题怎么办...
解析如下:1、长按电脑电源键直至关机,然后再按一次电源健重启电脑,按F8健进入安全模式2、安全模式下进入Windows系统桌面后,按住“winR”打开运行窗口,输入“services.msc”打开服务设置3、在服务界面,选中…...
2022/11/19 21:17:18 - 错误使用 reshape要执行 RESHAPE,请勿更改元素数目。
%读入6幅图像(每一幅图像的大小是564*564) f1 imread(WashingtonDC_Band1_564.tif); subplot(3,2,1),imshow(f1); f2 imread(WashingtonDC_Band2_564.tif); subplot(3,2,2),imshow(f2); f3 imread(WashingtonDC_Band3_564.tif); subplot(3,2,3),imsho…...
2022/11/19 21:17:16 - 配置 已完成 请勿关闭计算机,win7系统关机提示“配置Windows Update已完成30%请勿关闭计算机...
win7系统关机提示“配置Windows Update已完成30%请勿关闭计算机”问题的解决方法在win7系统关机时如果有升级系统的或者其他需要会直接进入一个 等待界面,在等待界面中我们需要等待操作结束才能关机,虽然这比较麻烦,但是对系统进行配置和升级…...
2022/11/19 21:17:15 - 台式电脑显示配置100%请勿关闭计算机,“准备配置windows 请勿关闭计算机”的解决方法...
有不少用户在重装Win7系统或更新系统后会遇到“准备配置windows,请勿关闭计算机”的提示,要过很久才能进入系统,有的用户甚至几个小时也无法进入,下面就教大家这个问题的解决方法。第一种方法:我们首先在左下角的“开始…...
2022/11/19 21:17:14 - win7 正在配置 请勿关闭计算机,怎么办Win7开机显示正在配置Windows Update请勿关机...
置信有很多用户都跟小编一样遇到过这样的问题,电脑时发现开机屏幕显现“正在配置Windows Update,请勿关机”(如下图所示),而且还需求等大约5分钟才干进入系统。这是怎样回事呢?一切都是正常操作的,为什么开时机呈现“正…...
2022/11/19 21:17:13 - 准备配置windows 请勿关闭计算机 蓝屏,Win7开机总是出现提示“配置Windows请勿关机”...
Win7系统开机启动时总是出现“配置Windows请勿关机”的提示,没过几秒后电脑自动重启,每次开机都这样无法进入系统,此时碰到这种现象的用户就可以使用以下5种方法解决问题。方法一:开机按下F8,在出现的Windows高级启动选…...
2022/11/19 21:17:12 - 准备windows请勿关闭计算机要多久,windows10系统提示正在准备windows请勿关闭计算机怎么办...
有不少windows10系统用户反映说碰到这样一个情况,就是电脑提示正在准备windows请勿关闭计算机,碰到这样的问题该怎么解决呢,现在小编就给大家分享一下windows10系统提示正在准备windows请勿关闭计算机的具体第一种方法:1、2、依次…...
2022/11/19 21:17:11 - 配置 已完成 请勿关闭计算机,win7系统关机提示“配置Windows Update已完成30%请勿关闭计算机”的解决方法...
今天和大家分享一下win7系统重装了Win7旗舰版系统后,每次关机的时候桌面上都会显示一个“配置Windows Update的界面,提示请勿关闭计算机”,每次停留好几分钟才能正常关机,导致什么情况引起的呢?出现配置Windows Update…...
2022/11/19 21:17:10 - 电脑桌面一直是清理请关闭计算机,windows7一直卡在清理 请勿关闭计算机-win7清理请勿关机,win7配置更新35%不动...
只能是等着,别无他法。说是卡着如果你看硬盘灯应该在读写。如果从 Win 10 无法正常回滚,只能是考虑备份数据后重装系统了。解决来方案一:管理员运行cmd:net stop WuAuServcd %windir%ren SoftwareDistribution SDoldnet start WuA…...
2022/11/19 21:17:09 - 计算机配置更新不起,电脑提示“配置Windows Update请勿关闭计算机”怎么办?
原标题:电脑提示“配置Windows Update请勿关闭计算机”怎么办?win7系统中在开机与关闭的时候总是显示“配置windows update请勿关闭计算机”相信有不少朋友都曾遇到过一次两次还能忍但经常遇到就叫人感到心烦了遇到这种问题怎么办呢?一般的方…...
2022/11/19 21:17:08 - 计算机正在配置无法关机,关机提示 windows7 正在配置windows 请勿关闭计算机 ,然后等了一晚上也没有关掉。现在电脑无法正常关机...
关机提示 windows7 正在配置windows 请勿关闭计算机 ,然后等了一晚上也没有关掉。现在电脑无法正常关机以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!关机提示 windows7 正在配…...
2022/11/19 21:17:05 - 钉钉提示请勿通过开发者调试模式_钉钉请勿通过开发者调试模式是真的吗好不好用...
钉钉请勿通过开发者调试模式是真的吗好不好用 更新时间:2020-04-20 22:24:19 浏览次数:729次 区域: 南阳 > 卧龙 列举网提醒您:为保障您的权益,请不要提前支付任何费用! 虚拟位置外设器!!轨迹模拟&虚拟位置外设神器 专业用于:钉钉,外勤365,红圈通,企业微信和…...
2022/11/19 21:17:05 - 配置失败还原请勿关闭计算机怎么办,win7系统出现“配置windows update失败 还原更改 请勿关闭计算机”,长时间没反应,无法进入系统的解决方案...
前几天班里有位学生电脑(windows 7系统)出问题了,具体表现是开机时一直停留在“配置windows update失败 还原更改 请勿关闭计算机”这个界面,长时间没反应,无法进入系统。这个问题原来帮其他同学也解决过,网上搜了不少资料&#x…...
2022/11/19 21:17:04 - 一个电脑无法关闭计算机你应该怎么办,电脑显示“清理请勿关闭计算机”怎么办?...
本文为你提供了3个有效解决电脑显示“清理请勿关闭计算机”问题的方法,并在最后教给你1种保护系统安全的好方法,一起来看看!电脑出现“清理请勿关闭计算机”在Windows 7(SP1)和Windows Server 2008 R2 SP1中,添加了1个新功能在“磁…...
2022/11/19 21:17:03 - 请勿关闭计算机还原更改要多久,电脑显示:配置windows更新失败,正在还原更改,请勿关闭计算机怎么办...
许多用户在长期不使用电脑的时候,开启电脑发现电脑显示:配置windows更新失败,正在还原更改,请勿关闭计算机。。.这要怎么办呢?下面小编就带着大家一起看看吧!如果能够正常进入系统,建议您暂时移…...
2022/11/19 21:17:02 - 还原更改请勿关闭计算机 要多久,配置windows update失败 还原更改 请勿关闭计算机,电脑开机后一直显示以...
配置windows update失败 还原更改 请勿关闭计算机,电脑开机后一直显示以以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!配置windows update失败 还原更改 请勿关闭计算机&#x…...
2022/11/19 21:17:01 - 电脑配置中请勿关闭计算机怎么办,准备配置windows请勿关闭计算机一直显示怎么办【图解】...
不知道大家有没有遇到过这样的一个问题,就是我们的win7系统在关机的时候,总是喜欢显示“准备配置windows,请勿关机”这样的一个页面,没有什么大碍,但是如果一直等着的话就要两个小时甚至更久都关不了机,非常…...
2022/11/19 21:17:00 - 正在准备配置请勿关闭计算机,正在准备配置windows请勿关闭计算机时间长了解决教程...
当电脑出现正在准备配置windows请勿关闭计算机时,一般是您正对windows进行升级,但是这个要是长时间没有反应,我们不能再傻等下去了。可能是电脑出了别的问题了,来看看教程的说法。正在准备配置windows请勿关闭计算机时间长了方法一…...
2022/11/19 21:16:59 - 配置失败还原请勿关闭计算机,配置Windows Update失败,还原更改请勿关闭计算机...
我们使用电脑的过程中有时会遇到这种情况,当我们打开电脑之后,发现一直停留在一个界面:“配置Windows Update失败,还原更改请勿关闭计算机”,等了许久还是无法进入系统。如果我们遇到此类问题应该如何解决呢࿰…...
2022/11/19 21:16:58 - 如何在iPhone上关闭“请勿打扰”
Apple’s “Do Not Disturb While Driving” is a potentially lifesaving iPhone feature, but it doesn’t always turn on automatically at the appropriate time. For example, you might be a passenger in a moving car, but your iPhone may think you’re the one dri…...
2022/11/19 21:16:57