MDP、MRP的python实现

import numpy as np

np.random.seed(0)
# 定义状态转移概率矩阵P
P = [
    [0.9, 0.1, 0.0, 0.0, 0.0, 0.0],
    [0.5, 0.0, 0.5, 0.0, 0.0, 0.0],
    [0.0, 0.0, 0.0, 0.6, 0.0, 0.4],
    [0.0, 0.0, 0.0, 0.0, 0.3, 0.7],
    [0.0, 0.2, 0.3, 0.5, 0.0, 0.0],
    [0.0, 0.0, 0.0, 0.0, 0.0, 1.0],
]
P = np.array(P)

rewards = [-1, -2, -2, 10, 1, 0]  # 定义奖励函数
gamma = 0.5  # 定义折扣因子


# 给定一条序列,计算从某个索引（起始状态）开始到序列最后（终止状态）得到的回报
def compute_return(start_index, chain, gamma):
    G = 0
    for i in reversed(range(start_index, len(chain))):
        # TODO ~1: 实现回报函数
        # G = 
    return G


# 一个状态序列,s1-s2-s3-s6
chain = [1, 2, 3, 6]
start_index = 0
G = compute_return(start_index, chain, gamma)
print("根据本序列计算得到回报为：%s。" % G)


def compute(P, rewards, gamma, states_num):
    value=0
    ''' 利用贝尔曼方程的矩阵形式计算解析解,states_num是MRP的状态数 '''
    # TODO ~X: 在完成矩阵形式的解析解推导后，用代码实现解析解
    # 这个TODO直接给出答案了，没写进实验文档
    rewards = np.array(rewards).reshape((-1, 1))  # 将rewards写成列向量形式
    value = np.dot(np.linalg.inv(np.eye(states_num, states_num) - gamma * P),
                   rewards)
    return value


V = compute(P, rewards, gamma, 6)
print("MRP中每个状态价值分别为\n", V)

S = ["s1", "s2", "s3", "s4", "s5"]  # 状态集合
A = ["保持s1", "前往s1", "前往s2", "前往s3", "前往s4", "前往s5", "概率前往"]  # 动作集合
# 状态转移函数
P = {
    "s1-保持s1-s1": 1.0,
    "s1-前往s2-s2": 1.0,
    "s2-前往s1-s1": 1.0,
    "s2-前往s3-s3": 1.0,
    "s3-前往s4-s4": 1.0,
    "s3-前往s5-s5": 1.0,
    "s4-前往s5-s5": 1.0,
    "s4-概率前往-s2": 0.2,
    "s4-概率前往-s3": 0.4,
    "s4-概率前往-s4": 0.4,
}
# 奖励函数
R = {
    "s1-保持s1": -1,
    "s1-前往s2": 0,
    "s2-前往s1": -1,
    "s2-前往s3": -2,
    "s3-前往s4": -2,
    "s3-前往s5": 0,
    "s4-前往s5": 10,
    "s4-概率前往": 1,
}
gamma = 0.5  # 折扣因子
MDP = (S, A, P, R, gamma)

# 策略1,随机策略
Pi_1 = {
    "s1-保持s1": 0.5,
    "s1-前往s2": 0.5,
    "s2-前往s1": 0.5,
    "s2-前往s3": 0.5,
    "s3-前往s4": 0.5,
    "s3-前往s5": 0.5,
    "s4-前往s5": 0.5,
    "s4-概率前往": 0.5,
}
# 策略2
Pi_2 = {
    "s1-保持s1": 0.6,
    "s1-前往s2": 0.4,
    "s2-前往s1": 0.3,
    "s2-前往s3": 0.7,
    "s3-前往s4": 0.5,
    "s3-前往s5": 0.5,
    "s4-前往s5": 0.1,
    "s4-概率前往": 0.9,
}


# 把输入的两个字符串通过“-”连接,便于使用上述定义的P、R变量
def join(str1, str2):
    return str1 + '-' + str2

gamma = 0.5
# 转化后的MRP的状态转移矩阵
# TODO ~2: 动手修改状态转移函数等参数，体会决策过程变化
P_from_mdp_to_mrp = [
    [0.5, 0.5, 0.0, 0.0, 0.0],
    [0.5, 0.0, 0.5, 0.0, 0.0],
    [0.0, 0.0, 0.0, 0.5, 0.5],
    [0.0, 0.1, 0.2, 0.2, 0.5],
    [0.0, 0.0, 0.0, 0.0, 1.0],
]

P_from_mdp_to_mrp = np.array(P_from_mdp_to_mrp)
R_from_mdp_to_mrp = [-0.5, -1.5, -1.0, 5.5, 0]

V = compute(P_from_mdp_to_mrp, R_from_mdp_to_mrp, gamma, 5)
print("MDP中每个状态价值分别为\n", V)


def sample(MDP, Pi, timestep_max, number):
    ''' 采样函数,策略Pi,限制最长时间步timestep_max,总共采样序列数number '''
    S, A, P, R, gamma = MDP
    episodes = []
    for _ in range(number):
        episode = []
        timestep = 0
        s = S[np.random.randint(4)]  # 随机选择一个除s5以外的状态s作为起点
        # 当前状态为终止状态或者时间步太长时,一次采样结束
        while s != "s5" and timestep <= timestep_max:
            timestep += 1
            rand, temp = np.random.rand(), 0
            # 在状态s下根据策略选择动作
            for a_opt in A:
                temp += Pi.get(join(s, a_opt), 0)
                if temp > rand:
                    a = a_opt
                    r = R.get(join(s, a), 0)
                    break
            rand, temp = np.random.rand(), 0
            # 根据状态转移概率得到下一个状态s_next
            for s_opt in S:
                temp += P.get(join(join(s, a), s_opt), 0)
                if temp > rand:
                    s_next = s_opt
                    break
            episode.append((s, a, r, s_next))  # 把（s,a,r,s_next）元组放入序列中
            s = s_next  # s_next变成当前状态,开始接下来的循环
        episodes.append(episode)
    return episodes


# 采样5次,每个序列最长不超过20步
episodes = sample(MDP, Pi_1, 20, 5)
print('第一条序列\n', episodes[0])
print('第二条序列\n', episodes[1])
print('第五条序列\n', episodes[4])


# 对所有采样序列计算所有状态的价值
def MC(episodes, V, N, gamma):
    for episode in episodes:
        G = 0
        for i in range(len(episode) - 1, -1, -1):  #一个序列从后往前计算
            (s, a, r, s_next) = episode[i]
            # TODO ~3: 代码填空
            # G = 
            # N[s] = 
            # V[s] = 


timestep_max = 20
# 采样1000次,可以自行修改
episodes = sample(MDP, Pi_1, timestep_max, 1000)
gamma = 0.5
V = {"s1": 0, "s2": 0, "s3": 0, "s4": 0, "s5": 0}
N = {"s1": 0, "s2": 0, "s3": 0, "s4": 0, "s5": 0}
MC(episodes, V, N, gamma)
print("使用蒙特卡洛方法计算MDP的状态价值为\n", V)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
凯歌响起 2022-10-19 01:03
关注
https://blog.csdn.net/lesileqin/article/details/121534911

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

gmx跑npt时遇到分组错误提示 javascript 其他
2023-03-18 19:31

回答 4 已采纳参考GPT和自己的思路：根据您的问题描述，错误提示是由于在 .mdp 文件中引用了一个名为 "water" 的分组，但在索引文件中找不到这个分组导致的。由于您的模拟系统中没有水分子，因此需要更新 .
Oracle数据库中触发器怎么完成业务逻辑？ java oracle sql
2020-06-01 11:42

回答 1 已采纳 5年没有码字了，路过交个朋友。 ``` --在表mdp上创建insert触发器 create or replace trigger check_data --创建触发器 befor
使用（SELECT）和（INSERT INTO）从PHP表单将数据插入MySQL数据库 mysql php
2018-12-18 21:56

回答 1 已采纳 The error directly relates to the fact that there are the wrong amount of variables supplied for t
强化学习——马尔可夫决策过程（MDP）【附 python 代码】
2024-07-22 17:10

理论最高的吻的博客本文介绍了马尔可夫决策过程，其中包括了马尔可夫过程，马尔可夫奖励过程，马尔可夫决策过程，蒙特卡洛方法，占用度量等等知识，并附上具体实现的 python 代码
PHP / SQL：从具有良好查询的数据库接收的“false”值 mysql php sql
2018-06-27 13:25

回答 1 已采纳 If you are testing against a single value use =, not IN. If you have a list of values, several ch
高通msm8953平台搭配MIPI转HDMI芯片LT9611需如何配置？
2018-11-23 08:13

回答 2 已采纳已解决~~~~~~~~~~~~~~~~~
Symfony 3.4 - 没有为帐户配置编码器 mysql php symfony
2019-04-03 06:41

回答 2 已采纳 Try this: security: encoders: Site\PagesBundle\Entity\User: bcrypt Because your Ent
MDP-DP-RL:马尔可夫决策过程，动态规划和强化学习
2021-05-09 13:33

我针对不同的学生背景讲授了该主题的课程，每门此类课程都以技巧/算法的精确编程实现为基础。特别是，当我教Stanford CME 241：金融中的随机控制问题的强化学习（）时，会使用此代码库。关于代码可读性，性能和...
错误：PHP中的数组到字符串转换 php
2018-05-26 05:30

回答 1 已采纳 When using mysqli you need to free up the results per each query. Since you made a query with the
angularjs $ http（config）来自表单的数据不起作用 javascript php
2018-01-18 10:07

回答 1 已采纳 You have to add headers application/x-www-form-urlencoded to receive the data in GET/POST request
使用Golang在MongoDb中插入嵌套结构 mongodb
2016-09-04 21:27

回答 3 已采纳 Seems just a typo Abonnements : []Abonnement{}
RL - 强化学习马尔可夫决策过程 (MDP) 转换马尔可夫奖励过程 (MRP)
2023-06-07 22:17

ElminsterAumar的博客需要注意的是，从MRP转换回MDP是不可能的，因为MRP中没有动作和策略的概念。动作的价值，在某个状态，尽量使用价值最高的动作，类似自动驾驶中，碰见某类情况，使用最优的动作进行处理，因为动作价值最高。
如何将现有的登录脚本集成到每个页面上的新登录表单中？ php
2015-10-14 15:33

回答 1 已采纳 make you form elements name and form action match the names and action of the original login form.
ChatGPT技术原理解析：从RL之PPO算法、RLHF到GPT4、instructGPT
2023-01-15 22:01

v_JULY_v的博客 23年3月17日，微软推出Microsoft 365 Copilot，集成GPT4的能力，实现自动化办公，通过在Word PPT Excel等办公软件上输入一行指令，瞬间解决一个任务 3.23日更推出GitHub Copilot X，让自动化编程不再遥远 ...
阅读笔记--NLP面试基础知识总结
2021-01-02 10:53

HAH-M的博客还是词性标注，或者是命名实体识别，道理都是想通的）什么是end-to-end 三、表示学习 1.nlp中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert 词向量是自然语言处理任务中非常重要的一个部分，词向量的表征...
强化学习（五） - 时序差分学习(Temporal-Difference Learning)及其实例----Sarsa算法, Q学习, 期望Sarsa算法
2020-09-16 05:04

Stan Fu的博客 TD学习是蒙特卡洛思想和动态编程（DP）思想的结合。与蒙特卡洛方法一样，TD方法可以直接从原始经验中学习，而不需要环境的动态模型。和DP一样，TD方法部分地根据其他学习到的估计值更新估计值，而不需要等待最终的...
《EasyRL》强化学习笔记
2022-09-15 20:51

亦梦亦醒乐逍遥的博客先看MDP下的转移公式这个公式可以理解为：从s开始，我可以采取各种Action，但是最终要到s1状态，每一个Action都是一种实现路径，把这些路径的概率加权求和，就是从s到s1的MRP概率。奖励函数公式也可以替换的在s...
Python 深度强化学习教程（一）
2024-08-19 00:43

绝不原创的飞龙的博客强化学习是发展最快的学科之一，正在帮助人工智能成为现实。...使用 PyTorch 和 TensorFlow 将会很好地混合理论(用最少的数学)和代码实现。在这一章中，我们将设置背景，并为你在本书的其余部分做好一切准备。
Python 强化学习应用指南（一）
2024-08-19 00:26

绝不原创的飞龙的博客对于那些从我以前的书籍中返回的人来说，使用 R1和使用 Python 应用自然学习2很高兴再次成为你们的读者。对新来的人，欢迎！在过去的一年里，深度学习包和技术的持续增长和发展彻底改变了各个行业。毫无疑问，这个...
Python 深度强化学习教程（四）
2024-08-19 00:46

绝不原创的飞龙的博客你可以认为这是在每个州采取随机行动，也可以认为这是马尔可夫奖励过程(MRP ),而不是全面的 MDP。我们看到了从 B 开始的八个转变，它们都通向终态。在两种情况下，奖励是零，而在其余六种情况下，奖励是 1。这可以...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月18日

悬赏问题

¥15 labview程序设计
¥15 为什么在配置Linux系统的时候执行脚本总是出现E: Failed to fetch http:L/cn.archive.ubuntu.com
¥15 Cloudreve保存用户组存储空间大小时报错
¥15 伪标签为什么不能作为弱监督语义分割的结果？
¥15 编一个判断一个区间范围内的数字的个位数的立方和是否等于其本身的程序在输入第1组数据后卡住了(语言-c语言)
¥15 游戏盾如何溯源服务器真实ip?
¥15 Mac版Fiddler Everywhere4.0.1提示强制更新
¥15 android 集成sentry上报时报错。
¥50 win10链接MySQL
¥15 抖音看过的视频，缓存在哪个文件

MDP、MRP的python实现

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新