Skip to content

Latest commit

 

History

History
968 lines (575 loc) · 25.9 KB

芝士.md

File metadata and controls

968 lines (575 loc) · 25.9 KB

芝士

比赛期间

下面的是老苟的建议

一、第一天上午

  1. 各自对立思考1个小时,主要分析题目的问题背景,已知条件,建模目的等问题。至少每人必须提出10到15个问题,并回答自己的问题。
  2. 重点用语言的形式表述清楚问题的结构,即用语言描述自己的初步模型。(要自己提出的模型可能就会产生一些假设)
  3. 再和队友讨论。讨论1个小时。形成自己团队的初步模型,同样是以语言形式描述的。
  4. 接下来查找一些文献,讨论修改团队的模型,形成一个最终较完整的模型。并根据讨论最后形成对问题的统一认识,形成问题重述部分的内容。

注:

  1. 如果问题有好几问,可以重点讨论前三个问题(一般建模中的几问都是有一定联系得);也可以同时考虑,同时建模。
  2. 意参考文献的处理,参考别人的方法一定要在文中注明!

二、第一天下午

如果思路没有完善,可继续查阅文献进行研讨 进行建模前的准备工作,重点解决第一问的模型建立和求解 将自己团队的模型数学化,用数学符号和数学语言公式的形式,表述自己的模型。

建模队员:与编程队员利用现有数据资料搭建模型的框架 编程人员:与建模队友沟通并着手编写或查找相关的模型代码 写作队员:针对建模和编程队友的沟通撰写第一问的问题分析和模型建立部分内容

三、第二天上午

此时第一问模型建立和求解应该已经完成或进入尾声 建模和编程队员共同分析问题一求解结果的准确性并将最终结果和结论发给写作队友 写作队友针对返回的结果和结论进行该部分的结果展示和结论撰写等 语言重在逻辑清晰,叙述简洁明了!图、表准确,格式正确、内容完整。 开始着手查阅相关文献进行第二问的模型建立与求解工作

建模队员:分析问题一结果结论井告知写作人员,开始研讨第二问模型的构建 编程人员:与建模队友沟通并着手编写或查找针对第二问的模型代码 写作队员:撰写和完善问题一部分内容,并开展问题二的准备工作

六、第四天下午和晚上

进行整体建模过程的梳理和检查完善工作 进行论文的整体完善和翻译工作,格式正确、图表美观、语言流畅、逻辑清晰 拿出至少3个小时重点撰写和翻译摘要,突出创新性,建模方法和结果等

建模人员:进行整体建模流程的检查和完善等工作,辅助翻译和检查论文 编程人员:检查和整理自己编写的代码,辅助翻译和检查论文 写作人员:对全文进行系统撰写和翻译检查,对部分图表进行美观处理

数学建模比赛注意事项

二、比赛阶段

  1. 建模往往很痛苦,不会不懂是常态。
  2. 赛题出来不要着急做,先查找资料系统分析后再选,做自己会的回注意不要被钧鱼,不要参与任何网上的讨论
  3. 问题重述避免复制,模型假设有依据,问题分析要系统,灵敏度分析不可少
  4. 摘要是整个论文最重要的部分,必须重点攫写和翻译
  5. 不完整的论文可以接受,如果实在解不出来可以放弃部分小问
  6. 2021美赛必须限制在么25页以内,目录摘要都算页数

一些基础概念

一些各种地方都会用到的概念

时间复杂度是一个很重要的概念,它可以帮助我们评估算法的效率和性能。简单地说,时间复杂度就是一个函数,它表示算法在处理不同规模的输入时所需的运行时间。通常,我们用大O符号来表示时间复杂度,忽略掉函数中的低阶项和常数系数,只保留最主要的影响因素。例如,如果一个算法在处理大小为n的输入时,最多需要执行5n+3次操作,那么它的时间复杂度就是O(n)。

时间复杂度可以反映出算法的渐近行为,也就是当输入规模趋向于无穷大时,算法的运行时间会如何变化。不同的时间复杂度类别有不同的增长速率,一般来说,越低阶的时间复杂度,算法的效率越高。常见的时间复杂度类别有:

  • O(1):常数时间,表示算法的运行时间与输入规模无关,例如判断一个数的奇偶性。
  • O(logn):对数时间,表示算法的运行时间与输入规模的对数成正比,例如二分查找。
  • O(n):线性时间,表示算法的运行时间与输入规模成正比,例如遍历一个数组。
  • O(nlogn):线性对数时间,表示算法的运行时间与输入规模和输入规模的对数的乘积成正比,例如快速排序。
  • O(n^2):平方时间,表示算法的运行时间与输入规模的平方成正比,例如冒泡排序。
  • O(n^3):立方时间,表示算法的运行时间与输入规模的立方成正比,例如矩阵乘法。
  • O(2^n):指数时间,表示算法的运行时间与2的输入规模次方成正比,例如求解汉诺塔问题。

优化类问题

动态规划 DP

10分钟彻底搞懂“动态规划”算法

动态规划基础


参考大清之复旦

第十二章 图的最小距离与最短路以及最小代价最大流

一.动态规划算法的应用:有向图所有两点间最短路(Floyd)算法。

图 G 的最短距离矩阵定义为?

动态规划、贪心法、回溯算法

多目标粒子群算法

多目标粒子群算法是粒子群优化算法在多目标优化问题上的应用扩展。它用于求解含有多个目标函数的优化问题。 在这类问题中,通常不存在能同时最优化每个目标函数的单一解。因此,多目标粒子群算法试图找到一组解,这组解Collectively称为帕累托最优解。

遗传算法

Evolutionary-Algorithm

P6 线性规划模型基本原理与案例分享

线性规划的Matlab标准形式及软件求解

$$ \min c^T x \\ s.t. = \begin{matrix} Ax \leq b \\ Aeq x = beq \\ lb \leq x \leq ub \end{matrix} $$

可行解 / 最优解 可行域

f价值向量 b资源向量

matlab 只能求解最小值,需要转最大值 -> x, y = -y

$$ \max z = \sum {(x_i)(r_i - r_0 - q_i) - (x_i - u_i)*p_i - u_i} \\ a = (s_i)_{max} \\ Aeq x = beq \\ x_0 + x_1 + x_2 + x_3 + x_4 = M \\ Ax \leq b \\ x_i \geq 0 $$

set x_0 in bank

非线形规划转线性规划,三种方法?

clc,clear
a=0; hold on
while a<0.05
    c=[-0.05,-0.27,-0.19,-0.185,-0.185];
    A=[zeros(4,1),diag([0.025,0.015,0.055,0.026])];
    b=a*ones(4,1)
    Aeq=[1,1.01,1.02,1.045,1.065];
    beq=1; LB=zeros(5,1);
    [x,Q]=linprog(c,A,b,Aeq,beq,LB);
    Q=-Q; plot(a, Q,'*k');
    a=a+0.001;
end
xlabel('a'),ylabel('Q')

8 整数规划的基本原理与标准形式

整数规划模型(IP)

整数规划分类 (1)变量全限制为整数时,称纯(完全)整数规划。 (2)变量部分限制为整数的,称混合整数规划。

1 原线性规划有最优解,当自变量限制为整数后,其整数规划解出现下述情况

(1)原线性规划最优解全是整数,则整数规划最优解与线性规划最优解一致。 (2)整数规划无可行解。 (3)有可行解(当然就存在最优解),但最优解值变差。

2 整数规划最优解不能按照实数最优解简单取整而获得。

例1 合理下料问题

$$ \min Z = \sum x_j \\ \sum x_j a_{ij} \geq b_i \\ x_j \geq 0 $$

例2 建厂问题

$Y_i$ 表示是否在 $A_i$ 建厂

整数规划的数学模型

一般形式

s.t. ...

纯整数规划:所有决策变量要求取非负整数(这时引进的松弛变量和剩余变量可以不要求取整数)。 全整数规划:除了所有决策变量要求取非负整数外,系数aij和常数bi也要求取整数(这时引进的松弛变量和剩余变量也必须是整数)。 混合整数规划:只有一部分的决策变量要求取非负整数,另一部分可以取非负实数。 0-1整数规划:所有决策变量只能取0或1两个整数 (一般适用于工作安排问题)

松弛变量和剩余变量指什么?

松弛变量:小于等于约束 转化为 等式约束 剩余变量:大于等于约束 转化为 等式约束

整数规划可行解是松弛问题可行域中的整数格点 ILP最优值小于或等于松弛问题的最优值 松弛问题无可行解,则整数规划无可行解; 松弛问题最优解满足整数要求,则该最优解为整数规划最优解;

9 整数线性规划的求解方法

分枝定界法 割平面法 对于0-1规划问题:匈牙利算法

不考虑整数限制先求出相应松弛问题的最优解, 若松弛问题无可行解,则ILP无可行解; 若求得的松弛问题最优解符合整数要求,则是ILP的最优解; 若不满足整数条件, 则任选一个不满足整数条件的变量 $x_i^0$ 来构造 新的约束添加到松弛问题中形成两个子问题

$$x_i \geq [x_i^0]; x_i \geq [x_i^0] + 1$$

依次在缩小的可行域中求解新构造的线性规划的最优解,并重复 上述过程,直到子问题无解或有整数最优解(被查清)。

% zzbl.m
f = [-20 -10]
A = ...
function [x, fval, status] = intprog(f, A, B, I, Aeq, Beq, lb, ub, e)
if nargin < 9, e = 0.0001
    if nargin < 8, ub = []
        if nargin  

% branchbound.m

% if int sloution
intindex = find(x0(I) - round(x0(I))>e);
if isempty(intindex)
    newx(I) = round(x0(I))
    ...

% FZDJ

10 割平面法的基本思想

如果松弛问题(P0)无解,则(P)无解; 如果(P0 )的最优解为整数向量,则也是(P)的最优解; 如果(P0 )的解含有非整数分量, 则对(P0 ) 增加割平 面条件:即对(P0 )增加一个线性约束, 将(P0 )的可行 区域割掉一块,使得非整数解恰好在割掉的一块中, 但又没有割掉原问题(P)的可行解,得到问题(P1 ),重复上述的过程。

$$ x_i + \sum a_{ik} x_k = b_i \\ a_{ik} = \dots b_i = [b_i] + f_i $$

11 匈牙利算法求解整数规划

0-1变量的使用

互斥约束的推广

从下述p个约束条件中恰好选择q个约束条件

$$\sum a_{ij} x_j \leq b_i$$

M正无穷 用于确定是否取值

min Z = 3 x_{11} + 5x_{12} + ... \sum x_{11~14} = 1

非标准形式的指派问题

1、最大化指派问题 $C=(c_{ij})_{n \times n},()()ijnnijnnijnnCcmBbmc$ 中最大元素为令 2、人数和工作数不等人少工作多:添加虚拟的“人”,代价都为0人多工作少:添加虚拟的工作,代价都为0 3、一个人可做多件工作该人可化为几个相同的“人” 4、某工作一定不能由某人做该人做该工作的相应代价取足够大M

指派问题的匈牙利解法的一般步骤

第一步:变换指派问题的系数(也称效率)矩阵(cij)为(bij),使在(bij)的各行各列中都出现0元素,即(1)从(cij)的每行元素都减去该行的最小元素;(2)再从所得新系数矩阵的每列元素中减去该列的最小元素。

P13 非线性规划基本原理与编程实践

非线性规划模型(NP)

如果目标函数或约束条件中包含非线性函数,就称这种规划问题为非线性规划问题。一般说来,解非线性规划要比解线性规划问题困难得多。而且,也不像线性规划有单纯形法这一通用方法,非线性规划目前还没有适于各种问题的一般算法,各个方法都有自己特定的适用范围。

非线性规划的数学模型

Matlab中的命令是[x,fval]=fmincon(fun,x0,A,b,Aeq,beq,lb,ub,nonlcon,options)

二次规划

若某非线性规划的目标函数为自变量的二次函数,约束条件又全是线性的,就称这种规划为二次规划。

$$\min \frac{1}{2} x^T Hx + f^T x$$

$$\min f(x) = 2 x_1^2 - 4x_1x_2 + 4x_2^2 - 6x_1 - 3x_2$$

[x, value] = quadprog(h, f, a, b, [], [], zeros(2,1))

应用实例:供应与选址

从料场j向工地i的运送量为 $X_{ij}$

$$ \min f = \sum d_i \sqrt{(x_i - a_i)^2 + (y_i - b_i)^2} \\ \sum x_i = 20 $$

P34 图论模型基础入门与实践

E指出要看复旦 说是数学味

图论的基本概念

(1) 图的概念

图G

有限图

常用术语 -- PDF P13、14

(2) 赋权图与子图

赋权图

(3) 图的矩阵表示

领接矩阵

关联矩阵

(4) 图的顶点度

奇点

(5) 路和连通

......

最短路问题及算法 -- 不会啊

Dijkstra 算法 / Floyd 算法 -- 不会

评价类问题

多目标决策问题

P15 层次分析法

层次分析法基本模型(AHP)

层次分析法的三大典型应用

•(1)用于最佳方案的选取(选择运动员、选择地址) •(2)用于评价类问题(评价水质状况、评价环境) •(3)用于指标体系的优选(兼顾科学和效率)

层次分析法的步骤和方法

2.构造判断(成对比较)矩阵在确定各层次各因素之间的权重时,如果只是定性的结果,则常常不容易被别人接受,因而Santy等人提出:一致矩阵法,即: 1.不把所有因素放在一起比较,而是两两相互比较 2.对此时采用相对尺度,以尽可能减少性质不同的诸因素相互比较的困难,以提高准确度。

判断矩阵是表示本层所有因素针对上一层某一个因素的相对重要性的比较。判断矩阵的元素 $a_{ij}$ 用Santy的1—9标度方法给出

心理学家认为成对比较的因素不宜超过9个,即每层不要超过9个因素。

A~ 成对比较阵 A 是正互反阵

要由 A 确定 C_1 ... C_n 对O的权向量

$$CI = \frac{\lambda - n}{n - l}$$

RI 随机一致性指标

组合权向量

一致性检验

P18 TOPSIS 模型基础入门与实践

(理想解法)

设多属性决策方案集为 $D = {d_1, d_2, ... , d_m}$, 衡量方案优劣的属性变量 $x_1, ... , x_n$ ...

正理想解 $C^*$ : 每个属性值是决策矩阵中该属性的最好值 负理想解 $C^0$ : 相反~

1.2 TOPSIS法的算法步骤

(1) 用向量规划的方法求得规范决策矩阵

(2) 构成加权规范阵 $C=(c_{ij})_{m \times n}$

各属性的决策向量 $w = [w_1, ... , w_n]^T$ $c_{ij} = w_{j}·b_{ij}$

(3) 确定正理想解和负理想解

(4) 计算各个方案到正负理想解的距离

(5) 计算各方案的排队指标值

$$f_i^* = s_i^0 / (s_i^0+s_i^*), i = 1,2,...,m$$

(6) 按 $f_i^*$ 由大到小排列方案的优劣次序

常用的属性规范化方法:

(1) 线性变换

经过变换后,最佳属性值为1

(2) 标准 0-1 变换

对于效益型属性 $x_j$

$$ b_{ij} = \frac{a_{ij}-a_j^{min}}{a_j^{max}-a_j^{min}}$$

对于成本型属性 $x_j$

$$ b_{ij} = \frac{a_j^{max}-a_{ij}}{a_j^{max}-a_j^{min}}$$

(3) 区间型属性的变换

设定最优属性区间为 $[a_j^0, a_j^*]$

分段讨论

$$ b_{ij} = ... $$

matlab 代码见ppt

向量规范化

标准化处理

P30 模糊数学及模糊综合评价

模糊数学

模糊集 及其运算

隶属函数

隶属度

模糊分析法

梯形分布

模糊综合评价

(1) 确定评价指标和评价等级

(2)构造模糊综合评价矩阵

$$R = (r_{ij})...$$

评价向量

采用频率法确定隶属度$r_{ij}$

(3) 评价指标权重的确定

权重向量 A

变异系数法

分辨能力 $v_i = s_i / |\overline{x_i}|$

(4) 模糊合成与综合评价

模糊合成

常用的模糊算子 $M(...):b_j = ....$

(5) 相对偏差模糊矩阵评价法

(6) 相对优属度模糊矩阵评价法

一些方法的对比

(2)当各指标在评价体系重要性相当时,用变异系数法确定指标权重,可提高上述方法排序的分辨率; (3)当各指标在评价体系重要性差异较大时,可考虑用层次分析法确定指标权重; (4)在实际中,对于评价类问题,应同时应用上述几种方法进行综合评价,以提高评价的可靠性

数据分析问题

P19 聚类分析基础入门与实践

聚类 利用距离进行表示

聚类分析的类型

  • Q型 对样品的分类
  • R型 对变量的分类

常用距离的定义

n个样品的p元观测数据

  1. 欧式距离 $d(x_i, y_i)=[\sum_{k=1}^p (x_{ik}-x_{jk})^2]^{\frac{1}{2}} \ \ \ \ \ pdist(x)$
  2. 绝对距离
  3. 明氏距离
  4. 切氏距离
  5. 方差加权距离
  6. 马氏距离 $d(x_i,y_i)=\sqrt{(x_i-x_j)^T \sum^{-1}(x_i-x_j)}$
  7. 兰氏距离

1.3 相似系数 -- 变量间的相似量度

(1) 夹角余弦

$$ C_{ij}(1) = \frac{\sum_{t=1}^n x_{ti}x_{tj}}{\sqrt{(\sum_{t=1}^n x_{ti}^2)}\sqrt{(\sum_{t=1}^n x_{tj}^2)}} $$

(2) 相关系数

$$ C_{ij}(2) = \frac{\sum_{t=1}^n (x_{ti}-\overline{x}{i})(x{tj}-\overline{x}{j})}{\sqrt{(\sum{t=1}^n (x_{ti}-\overline{x}{i})^2)}\sqrt{(\sum{t=1}^n (x_{tj}-\overline{x}_{j})^2)}} $$

1 相关 -1 不相关

1.4 类间距离

(1) 最短距离 $D_{pq}$ (2) 最长距离 $\mathbf{D_{pq}}$ (3) 类平均距离 (4) 重心距离 (5) 离差平方和距离(ward)

1.5 谱系聚类法

步骤?

从D1出发重复步骤(2)的做法得到D2,再由D2出发重复上述步骤,直到所有样品聚为一个大类为止。

z1 = linkage(d)

k-means 算法

把n个对象分为k个簇,以使簇内对象具有较高的相似度,而簇间的相似度较低

P23 数学建模数据预处理专项讲解

缺失值、异常值的检测和处理

数据预处理的主要任务: 数据清洗、数据集成、数据规约

特征工程

特征选择

缺失值处理 -> 拉格朗日插值法

数据的特征工程、书籍降维算法讲解

题目分析

P24 一维二维插值算法原理及案例分析

见鼠鼠教程

P28 主成分分析基本原理与SPSS操作

主成分分析的目的:数据的压缩;数据的解释

主成分分析的数学模型

降维处理

如果多个变量相互独立或相关性很小,就不能进行主成分分析。Kaiser-Meyer-Olkin (KMO)检验:检验变量之间的偏相关系数是否过小

主程序的提取

P33 相关性分析及SPSS软件操作

两变量的相关分析

(1) Pearson 相关系数

$$r = \frac{...}{...}$$

|r|越接近于1,表明两变量相关程度越高,它们之间的关系越密切

适用条件:

1、两变量均应由测量得到的连续变量。 2、两变量所来自的总体都应是正态分布,或接近正态的单峰对称分布。 3、变量必须是成对的数据。 4、两变量间为线性关系

偏相关分析

偏相关系数与简单相关系数区别 -> PDF

P39 元胞自动机模型及其应用

Cellular Automata,CA

元胞自动机的邻居类型

特性?

初等元胞自动机

BP神经网络

input / hidden / output layer

加权求和

激活函数

损失函数 Loss

更新权重,使用梯度下降法,导数

学习率

反向传播 损失收敛

插值拟合

插值条件?

三个插值方法

  • 插值多项式
  • 拉格朗日插值
  • 牛顿插值

插值基函数

拉格朗日插值 @lect05

拉格朗日插值多项式, use latex

$$L_n(x) = ...$$ P13

n=1,2,...

插值余项

$$ R_n(x) = f(x)-L_n(x) \\ = \frac{f^{(n+1)}(\lambda_x)}{(n+1)!}\prod(x) $$

辅助函数

牛顿插值 @lect06

牛顿插值多项式

$$N_n(x) = ...$$ P4

差商 -- 易指出不需要

差商表 -- 要自己拨弄,但不需要

牛顿插值余项

最小二乘法

n维子空间

法方程 内置了 $\lambda(0)$

基于 SVD/QR 的最小二乘法

最小二乘的统计学意义?

Krylov 子空间法

最速下降法 -- 易指出不如

Krylov 子空间法 $span...$ -- 不看

共轭梯度法(梯度下降法)

步长公式,对于一维极小问题 $min_...$

$$\frac{d ...}{d \alpha} ...$$

$$\alpha_k = ...$$

共轭梯度方向

$$\beta_{k+1} = ...$$

预测类问题

P20 数学建模灰色预测模型汇总

灰色预测的概念

(1)灰色系统、白色系统和黑色系统

白色系统是指一个系统的内部特征是完全已知的,即系统的信息是完全充分的。

黑色系统是指一个系统的内部信息对外界来说是一无所知的,只能通过它与外界的联系来加以观测研究。

灰色系统内的一部分信息是已知的,另一部分信息是未知的,系统内各因素间有不确定的关系

(2)灰色预测法

灰色预测法是一种对含有不确定因素的系统进行预测的方法。

灰色预测是对既含有已知信息又含有不确定信息的系统进行预则,就是对在一定范围内变化的、与时间有关的灰色过程进行预测。

灰色关联度与优势分析

2.1 灰色关联度

选取参考数列

$$X_0 = {X_0(k) | k = 1,2,...n}=(X_0(1),X_0(2),...)$$

比较数列 $X_i$

关联系数 里面的 min 看作一个整体,再看外面的

$$ \zeta_i(k) = \frac{\min_i \min_k |X_0(k)-X_i(k)| + \rho \max_i |X_0(k)-X_i(k)|}{|X_0(k)-X_i(k)| + \rho \max_i |X_0(k)-X_i(k)|} $$

其中,$\rho$ 为分辨系数,一般取0.5

关联度

$$ r_i = \frac{1}{n} \sum_{k=1}^{n} \zeta_i(k) $$

$X_i$$X_j$ 正/负关联,判断方法

正相关

$$ \operatorname{sgn}(\frac{\sigma_i}{\sigma_n}) = \operatorname{sgn}(\frac{\sigma_j}{\sigma_n}) $$

负相关

$$ \operatorname{sgn}(\frac{\sigma_i}{\sigma_n}) = -\operatorname{sgn}(\frac{\sigma_j}{\sigma_n}) $$

三、灰色生成数列

数据生成的常用方法

(1) 累加生成

r次累加生成数列

(2) 累减生成

累减具有求导性质

(3) 加权邻值生成

等权 -> 0.5

灰色模型 G M(1,1)

PPT_P39

灰微分方程模型为

$$d(k)+az^{(1)}(k)=b$$

$x^{(0)}(k)$ 为...

矩阵记号???

可表示为 $Y=\mathbf{B}u$

LU 分解,最小二乘法

GM(1,1) 灰色预测的步骤

step1 数据的检验与处理

计算数列的级比,看看能不能满足要求

$$\lambda(k) = \frac{x^{(0)}(k-1)}{x^{(0)}(k)}, k=2,3,..,n$$

若所有的级比都在...,则 $x^{(0)}$ 可以进行灰色预测

step2 建立GM(1,1)模型

step3 检验预测值

残差检验 $...$

案例 P22 数据预处理专题解析

给出一些假设...

马尔可夫预测模型

P43 马尔可夫预测模型基本原理及案例分享

随机过程 ${\epsilon_t, t \in T}$

马氏链定义

已知现在,且来与过去无关,描述这类随机现象的数学模型称为马尔可夫模型

转移概率矩阵

马氏链模型

$~\pi$ 极限概率密度

正则链 正则矩阵


007-马尔可夫决策MDP过程讲解,新手也能看懂! + 提供的PPT

024-一张图,但讲懂马尔可夫决策过程 -- 隐马尔可夫

具体内容见下

马尔可夫过程

马尔可夫过程(Markov Process)

状态转移矩阵(State Transition Matrix)

二元组<𝑺,𝑷>

马尔可夫奖励过程

四元组<𝑺,𝑷,𝑹,𝜸>

𝑺 :(有限)状态集 𝑷: 状态转移概率矩阵 𝑹 : 奖励函数 $R_s = E[R_{t+1}|S_t = s]$ 𝜸: 折扣因子/衰减系数

回报 $G_t = R_{t+1} + \gamma G_{t+1} + \gamma^2 G_{t+2} + ... = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$

值函数(Value Function): 𝐕(𝐬)表示一个状态𝐬的长期价值

MRPs的贝尔曼方程(Bellman Equation for MRPs)(递归)

$$ V(s) = E[G_t|S_t=s] \\ \Rightarrow = E[R_{t+1} + \gamma G_{t+1}|S_t=s] \\ $$

若已知状态转移矩阵P -- 见PPT

贝尔曼方程的矩阵形式

$$ \mathbf{V} = \mathbf{R} + \gamma \mathbf{P} \mathbf{V} $$

马尔可夫决策过程

五元组<𝑺,𝑨,𝑷,𝑹,𝜸>

𝑺 :(有限)状态集 𝑨 :(有限)动作集 𝑷: 状态转移概率矩阵 𝑹 : 奖励函数 $R_s^a = E[R_{t+1}|S_t = s, A_t = a]$ 𝜸: 折扣因子/衰减系数

策略(Policy):𝜋是给定状态的动作分布 𝜋(𝑎|𝑠) 表示在状态𝑠下采取动作𝑎的概率 感觉就是一坨策略+其概率的合集?

状态值函数(State-value function)$v_{\pi}(s) = E_{\pi}[G_t|S_t=s]$

动作值函数(Action-value function)$q_{\pi}(s, a) = E_{\pi}[G_t|S_t=s, A_t=a]$

两个函数的关系 -- PPT P22

贝尔曼最优方程(Bellman Optimality Equation)

$$ v_(s) = \max_{a \in A(s)} q_(s, a) \ q_(s, a) = R_s^a + \gamma \sum_{s' \in S} P_{ss'}^a v_(s') $$

数值计算的知识

牛顿-科茨公式 newtoncotes -- 指出没用过

梯形公式 -- 似乎用的少

$$ \int_a^b f(x) dx \approx \frac{b-a}{2} [f(a) + f(b)] $$

辛普森公式

$$ \int_a^b f(x) dx \approx \frac{b-a}{6} [f(a) + 4f(\frac{a+b}{2}) + f(b)] $$

复合梯形公式

$$ h = \frac{b-a}{n} \\ \int_a^b f(x) dx \approx \frac{h}{2} [f(a) + 2 \sum_{i=1}^{n-1} f(x_i) + f(b)] $$

复合辛普森公式

$$ \int_a^b f(x) dx \approx \sum_{i=1}^{n-1} \frac{h}{6} [f(x_{i}) + 4f(x_{i+\frac{1}{2}}) + f(x_{i+1})] $$

论文写作资料

可以参考官方之优秀论文

武汉理工论文之模版

MathModel

prompt 总结

假设你是一位专业数学教师,请解答以下问题

参考资料

2023上电-智慧树赛前学习资源:K475450

历年赛题


【零基础教程】老哥:数学建模算法、编程、写作和获奖指南全流程培训!的课程对应记录

【B站保奖班课件:】https://pan.baidu.com/s/1t5Qptpu4n3CGkAyNGHThFQ?pwd=1111 提取码:1111 【零基础课件:】https://pan.baidu.com/s/1PyHs1VAnRYPq02xDF39L7Q?pwd=1111 提取码:1111


SUEP教师推荐之几个UP主

包含: 鼠鼠教程/大清之复旦/论文葫芦等来源

鼠海文之数值计算课程