详记HTTP向HTTPS进化
老师这个是我自己学习的,同时我也上传过这篇文章到我的博客,如果您想要验证,可以在博客中搜索ssl就可以查到这篇文章了
两者表面的区别
HTTP(Hypertext Transfer Protocol)是超文本传输协议,信息是明文,HTTPSHypertext Transfer Protocol Secure则是既有安全性的SSL加密传输协议。基本可以理解为在HTTP的传输基础上加入SSL层来加密信息。两者请求和响应都是已相同的方式进行工作。
HTTP采用80端口连接,HTTPS采用443端口连接qi
HTTP与HTTPS连接方式不同
HTTPS在连接中需要CA证书认证身份,一般需要money购买
HTTP连接是无状态的,可以短连接也可以长连接,更加灵活;HTTPS协议是由SSL+HTTP协议构建的可加密传输,身份认证的网络协议,虽然建立连接变得复杂但是更加安全,需要多次握手,所以一般会加剧50%时间延迟,且会消耗 CPU 资源,对服务器资源消耗较大
HTTP和HTTPS建立连接方式HTTP建立连接TCP三次握手
==TCP三次握手(Three-way Handshake)==TCP/ ...
Markov Model(马尔可夫模型)
一次性弄懂马尔可夫模型、隐马尔可夫模型、马尔可夫网络和条件随机场!(词性标注代码实现) - mantch - 博客园
马尔可夫网络、马尔可夫模型、马尔可夫过程、贝叶斯网络的区别共分六点说明这些概念【这6点是依次递进的,不要跳跃着看】:
将随机变量作为结点,若两个随机变量相关或者不独立,则将二者连接一条边;若给定若干随机变量,则形成一个有向图,即构成一个网络。
如果该网络是有向无环图,则这个网络称为贝叶斯网络。
如果这个图退化成线性链的方式,则得到马尔可夫模型;因为每个结点都是随机变量,将其看成各个时刻(或空间)的相关变化,以随机过程的视角,则可以看成是马尔可夫过程。
若上述网络是无向的,则是无向图模型,又称马尔可夫随机场或者马尔可夫网络。
如果在给定某些条件的前提下,研究这个马尔可夫随机场,则得到条件随机场。
如果使用条件随机场解决标注问题,并且进一步将条件随机场中的网络拓扑变成线性的,则得到线性链条件随机场。
马尔可夫模型马尔可夫过程马尔可夫过程(Markov process)是一类随机过程。它的原始模型是马尔可夫链。该过程具有如下特性:在已知目前状态(现在)的条件下,它未来的演 ...
用于业务流程事件和结果预测的混合模型
摘要目的对于多样性流程进行异常预测
解决
序列k近邻法(KNN)
基于序列比对的马尔科夫模型扩展法
思路:利用数据的时间分类特征,利用高阶马尔可夫模型预测过程的下一步,并利用序列对比技术预测过程的结果。通过考虑基于k个最近邻的相似过程序列的子集,增加了数据的多样性方面。
结果已经证明,通过一组实验,序列k最近邻提法比原始提供更好的结果;我们的扩展马尔可夫模型优于随机猜测、马尔可夫模型和隐马尔可夫模型。
知识补充KNN(K近邻法 K Nearest Neighbors) | 吾辈之人,自当自强不息!Markov Model(马尔可夫模型) | 吾辈之人,自当自强不息!
阐述在进行流程预测的前,我们需要从日志中挖掘流程。通过分析数据,可以得知数据为带有时间序列的数据。1999年已经有人证明MMs适用于研究用户网上浏览行为。同时事件序列也可用于训练已经编码后续事件之间的转换概率的马尔可夫模型,类似其它机器学习模型,越是高阶的模型越是拟合数据,预测结果也更加准确。
知识补充在马尔可夫链的每一步,系统根据概率分布,可以从一个状态变到另一个状态,也可以保持当前状态。状态的改变叫做过渡,与不 ...
深度学习与循环神经网络在预测下一个过程事件问题上的初步应用
TITLE: A Deep Learning Approach for Predicting Process Behaviour at Runtime
目标描述深度学习与循环神经网络在预测下一个过程事件问题上的初步应用
简介主要介绍了流程预测与自然语言的处理有很多地方类似,同时也有不同之处。
流程预测与自然语言不同:
过程预测(事件类型数量)中词汇量的大小远小于自然语言词汇的大小
轨迹的长度远远超过自然语言中的典型句子长度
通过内部过程逻辑确定或约束过程事件序列,通常通过基于案例数据确定的决策规则确定。然而,以语法和形态规则的形式,自然语言也受到限制
Related Work这块主要讲了一下业务流程预测相关的研究
预测完成一个案件的剩余时间
使用事件频率、事件时间和案例数据的增强回归
2. 将隐马尔可夫模型应用于事件序列和执行时间[基于一个带注释的转换系统]
3. 使用聚类树和有限状态机(FSM)来预测运行过程案例的剩余时间
4. 将复杂的事件处理(CEP)应用于事件序列,并培训以预测其未来行为
5. 使用随机petri网模拟
6. 基于案例数据聚类和回归的预测技术
7. 对 ...
孤立森林(Isolation Forest)
理解
假设我们用一个随机超平面来切割(split)数据空间(data space), 切一次可以生成两个子空间(想象拿刀切蛋糕一分为二)。
之后我们再继续用一个随机超平面来切割每个子空间,循环下去,直到每子空间里面只有一个数据点为止。
满足的条件
数据本身不可再分割
二叉树达到限定的最大深度
直观上来讲,我们可以发现那些密度很高的簇是可以被切很多次才会停止切割,但是那些密度很低的点很容易很早的就停到一个子空间里了。
异常检测原理的理解:由于异常值的数量较少且与大部分样本的疏离性,因此,异常值会被更早的孤立出来,也即异常值会距离iTree的根节点更近,而正常值则会距离根节点有更远的距离。
应用孤立森林算法主要针对的是连续型结构化数据中的异常点。
理论前提
异常数据占总样本量的比例很小
异常点的特征值与正常点的差异很大
上图中,中心的白色空心点为正常点,即处于高密度群体中。四周的黑色实心点为异常点,散落在高密度区域以外的空间。
场景孤立森林算法是基于 Ensemble 的异常检测方法,因此具有线性的时间复杂度。且精准度较高,在处理大数据时速度快,所以目前在工业界的应用范围比较 ...
拟合
欠拟合、过拟合及如何防止过拟合 - 知乎
理解对于深度学习或机器学习模型而言,我们不仅要求它对训练数据集有很好的拟合(训练误差),同时也希望它可以对未知数据集(测试集)有很好的拟合结果(泛化能力),所产生的测试误差被称为泛化误差。度量泛化能力的好坏,最直观的表现就是模型的过拟合(overfitting)和欠拟合(underfitting)。过拟合和欠拟合是用于描述模型在训练过程中的两种状态。一般来说,训练过程会是如下所示的一个曲线图。
训练刚开始的时候,模型还在学习过程中,处于欠拟合区域。随着训练的进行,训练误差和测试误差都下降。在到达一个临界点之后,训练集的误差下降,测试集的误差上升了,这个时候就进入了过拟合区域——由于训练出来的网络过度拟合了训练集,对训练集以外的数据却不有效。
欠拟合欠拟合是指模型不能在训练集上获得足够低的误差。换句换说,就是模型复杂度低,模型在训练集上就表现很差,没法学习到数据背后的规律。
如何解决欠拟合?
欠拟合基本上都会发生在训练刚开始的时候,经过不断训练之后欠拟合应该不怎么考虑了。但是如果真的还是存在的话,可以通过增加网络复杂度或者在模型中增加特征, ...
二分类之类别不平衡
机器学习之类别不平衡问题 (1) —— 各种评估指标 - massquantity - 博客园欠采样(undersampling)和过采样(oversampling)会对模型带来怎样的影响?详解类别不平衡问题 - 天地辽阔 - 博客园
类别不平衡(class-imbalance)
惯例在二分类问题中,一般将数目少的类别视为正例,数目多的类别视为负例
也叫数据倾斜,数据不平衡指分类任务中不同类别的训练样例数目差别很大的情况。
各种评估指标机器学习之类别不平衡问题 (1) —— 各种评估指标 - massquantity - 博客园
True Positive(真正例,TP):实例为正例,预测为正例
False Negative (假负例,FN):实际为正例,预测为负例。
True Negative (真负例,TN):实际为负例,预测为负例。
False Positive (假正例,FP):实际为负例,预测为正例。
Precision (查准率) = TPTP+FP ,Precision衡量的是所有被预测为正例的样本中有多少是真正例。但Precision并没有表现有多少正例是被 ...
kernal
定义核方法是一类把低维空间的非线性可分问题,转化为高维空间的线性可分问题的方法。
理论基础:核方法的理论基础是Cover’s theorem,指的是对于非线性可分的训练集,可以大概率通过将其非线性映射到一个高维空间来转化成线性可分的训练集。
核函数是映射关系 的内积,映射函数本身仅仅是一种映射关系,并没有增加维度的特性,不过可以利用核函数的特性,构造可以增加维度的核函数。
设 X是输入空间(即 xi∈X , X 是 ℝn 的子集或离散集合 ),又设H 为特征空间(H 是希尔伯特空间),如果存在一个从 X 到 H 的映射
ϕ(x):X→H
使得对所有 x,z∈X,函数K(x,z)满足条件
K(x,z)=⟨ϕ(x),ϕ(z)⟩
则称 $K$ 为核函数。其中 ϕ(x) 为映射函数, ⟨·,·⟩为内积。
即核函数输入两个向量,它返回的值等于这两个向量分别作 ϕ 映射然后点积【内积】的结果。
核技巧 ...
协方差矩阵
方差和协方差的定义方差:用来度量单个随机变量的离散程度
$$\sigma_{x}^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}$$
为什么样本方差的分母是n-1?
最简单的原因,是因为因为均值已经用了n个数的平均来做估计在求方差时,只有(n-1)个数和均值信息是不相关的。而你的第n个数已经可以由前(n-1)个数和均值 来唯一确定,实际上没有信息量。所以在计算方差时,只除以(n-1)。
协方差:一般用来刻画两个随机变量的相似程度
$$\sigma(x, y)=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)$$
在公式中,符号 $\bar{x}, \bar{y}$ 分别表示两个随机变量所对应的观测样本均值,据此,我们发现:方差 $\sigma_{x}^{2}$ 可视作随机变量 x 关于其自身的协方差 $\sigma(x, x)$ .
从方差/协方差到协方差矩阵根据方差的定义,给定 $d$ 个随机变 ...
挖掘业务流程,结合机器学习进行业务预测分析
基于机器学习的流程异常预测行为
目的
通过挖掘流程执行的日志记录 和活动执行时间信息 ,基于机器学习方法的异常检测方法,实现实时预测业务流程中的超 期 异 常 和 流 程 行 为 异 常。
引言
异常(预期的,完全意外的)
流程超期、资源不可用、活动执行失败等和完全意外的异常
现有的流程异常检测方法
主动 的 设 置 时 间 检 查点、动态检查,或 被动地基于异常发生后捕捉异常、处理异常的机制
主动设置时间检查点的方法有两个弊端,第一个设置点的位置无法精确判断,第二个是系统状态是动态的,受生产环境等诸多条件影响,所以主动i设置会造成很多新的问题
被动处理超期异常的方法,失去了对业务流程管理的主动性,从而将导致工作流期望的目标延迟或付出更大的开销。【即失去对于流程预测的主动性】
目前国内外研究动态基于时间边界的时间异常检测
基于时间边界的时间异常检测–Eder
the fifth and sixth document of this paper
首先要明确每个任务节点执行时间的上下边界, 基于这两个时限, 计算起始节点到当前节点的最佳( 最短) 执行时间和最坏( ...