网站内容设计基本原则淘宝网站网页设计说明

张小明 2026/1/8 21:18:33
网站内容设计基本原则,淘宝网站网页设计说明,在线做网站有哪些平台,访问外国网站很慢初解神经网络优化算法 一、机器学习的优化二、优化算法盘点最小二乘法遗传算法梯度下降#xff08;GD#xff09;随机梯度下降#xff08;SGD#xff09;Momentum动量算法NesterovAdagradRMSPropAdam牛顿法 一、机器学习的优化 机器学习的优化#xff08;目标#xff09…初解神经网络优化算法一、机器学习的优化二、优化算法盘点最小二乘法遗传算法梯度下降GD随机梯度下降SGDMomentum动量算法NesterovAdagradRMSPropAdam牛顿法一、机器学习的优化机器学习的优化目标简单来说是搜索模型的一组参数 w它能显著地降低代价函数 J(w)该代价函数通常包括整个训练集上的性能评估经验风险和额外的正则化结构风险。与传统优化不同它不是简单地根据数据的求解最优解在大多数机器学习问题中我们关注的是测试集未知数据上性能度量P的优化。对于模型测试集是未知我们只能通过优化训练集的性能度量P_train在独立同分布基础假设下期望测试集也有较好的性能泛化效果这意味并不是一味追求训练集的最优解。 另外有些情况性能度量P比如分类误差f1-score并不能高效地优化在这种情况下我们通常会优化替代损失函数 (surrogate loss function)。例如负对数似然通常用作 0 − 1 分类损失的替代。当我们机器学习的学习目标是极大化降低经验损失函数这点和传统的优化是比较相似的那么如何实现这个目标呢我们第一反应可能是直接求解损失函数最小值的公式/解析解如最小二乘法获得最优的模型参数。但是通常机器学习模型的损失函数较复杂很难直接求最优解。幸运的是我们还可以通过优化算法如遗传算法、梯度下降算法、牛顿法等有限次迭代优化模型参数以尽可能降低损失函数的值得到较优的参数值数值解。上述去搜索一组最\较优参数解w所使用的算法即是优化算法。下图优化算法的总结图与本文内容较相符摘自teekee二、优化算法盘点最小二乘法最小二乘法常用在机器学习回归模型求解析解对于复杂的深度神经网络无法通过这方法求解其几何意义是高维空间中的一个向量在低维子空间的投影。如下以一元线性回归用最小二乘法求解为例。其损失函数mse为对损失函数求极小值也就是一阶导数为0。通过偏导可得关于参数a及偏置b的方程组代入数值求解上述线性方程组可以求解出ab的参数值。也就是求解出上图拟合的那条直线axb。遗传算法注神经网络优化算法以梯度下降类算法较为高效也是主流的算法。而遗传算法、贪心算法、模拟退火等优化算法用的比较少。遗传算法Genetic AlgorithmsGA是模拟自然界遗传和生物进化论而成的一种并行随机搜索最优化方法。与自然界中“优胜略汰适者生存”的生物进化原理相似遗传算法就是在引入优化参数形成的编码串联群体中按照所选择的适应度函数并通过遗传中的选择、交叉和变异对个体进行筛选使适应度好的个体被保留适应度差的个体被淘汰新的群体既继承了上一代的信息又优于上一代。这样反复循环迭代直至满足条件。梯度下降GD梯度下降算法可以直观理解成一个下山的方法将损失函数J(w)比喻成一座山我们的目标是到达这座山的山脚即求解出最优模型参数w使得损失函数为最小值。下山要做的无非就是“往下坡的方向走走一步算一步”而在损失函数这座山上每一位置的下坡的方向也就是它的负梯度方向直白点也就是山的斜向下的方向。在每往下走到一个位置的时候求解当前位置的梯度向这一步所在位置沿着最陡峭最易下山的位置再走一步。这样一步步地走下去一直走到觉得我们已经到了山脚。当然这样走下去有可能我们不是走到山脚全局最优Global cost minimun而是到了某一个的小山谷局部最优Local cost minimun这也后面梯度下降算法的可进一步调优的地方。对应的算法步骤直接截我之前的图梯度下降是一个大类常见的梯度下降算法及优缺点如下图随机梯度下降SGD对于深度学习而言“随机梯度下降, SGD”其实就是基于小批量mini-batch的随机梯度下降当batchsize为1也就是在线学习优化。随机梯度下降是在梯度下降算法效率上做了优化不使用全量样本计算当前的梯度而是使用小批量mini-batch样本来估计梯度大大提高了效率。原因在于使用更多样本来估计梯度的方法的收益是低于线性的对于大多数优化算法基于梯度下降如果每一步中计算梯度的时间大大缩短则它们会更快收敛。且训练集通常存在冗余大量样本都对梯度做出了非常相似的贡献。此时基于小批量样本估计梯度的策略也能够计算正确的梯度但是节省了大量时间。对于mini-batch的batchsize的选择是为了在内存效率时间和内存容量空间之间寻找最佳平衡。batchsize 不能太大。较大的batch可能会使得训练更快但可能导致泛化能力下降。更大的batch size 只需要更少的迭代步数就可以使得训练误差收敛还可以利用大规模数据并行的优势。但是更大的batch size 计算的梯度估计更精确它带来更小的梯度噪声。此时噪声的力量太小不足以将参数带出一个尖锐极小值的吸引区域。这种情况需要提高学习率减小batch size 提高梯度噪声的贡献。 batchsize不能太小。小的batchsize可以提供类似正则化效果的梯度噪声有更好的泛化能力。但对于多核架构来讲太小的batch并不会相应地减少计算时间考虑到多核之间的同步开销。另外太小batchsize梯度估计值的方差非常大因此需要非常小的学习速率以维持稳定性。如果学习速率过大则导致步长的变化剧烈。还可以自适应调节batchsize参见《Small Batch or Large Batch? Peifeng Yin》Momentum动量算法Momentum算法在梯度下降中加入了物理中的动量的概念模拟物体运动时候的惯性即在更新的时候在一定程度上保留之前更新的方向同时利用当前batch的梯度对之前的梯度进行微调这样一来可以在一定程度上增加稳定性从而学习的更快并且有一定的摆脱局部最优的能力。该算法引入了变量 v 作为参数在参数空间中持续移动的速度向量速度一般可以设置为负梯度的指数衰减滑动平均值。对于一个给定需要最小化的代价函数动量可以表达为更新后的梯度 折损系数γ动量项 学习率ŋ当前的梯度。其中 ŋ 为学习率γ ∈ (0, 1] 为动量系数v 是速度向量。一般来说梯度下降算法下降的方向为局部最速的方向数学上称为最速下降法它的下降方向在每一个下降点一定与对应等高线的切线垂直因此这也就导致了 GD 算法的锯齿现象。加入动量法的梯度下降是令梯度直接指向最优解的策略之一。NesterovNesterov动量是动量方法的变种也称作Nesterov Accelerated GradientNAG。在预测参数下一次的位置之前我们已有当前的参数和动量项先用(θ−γvt−1)下一次出现位置的预测值作为参数虽然不准确但是大体方向是对的之后用我们预测到的下一时刻的值来求偏导让优化器高效的前进并收敛。在平滑的凸函数的优化中对比批量梯度下降NAG 的收敛速度超出 1/k 到 1/(k^2)AdagradAdagrad 亦称为自适应梯度adaptive gradient允许学习率基于参数进行调整而不需要在学习过程中人为调整学习率。Adagrad 根据不常用的参数进行较大幅度的学习率更新根据常用的参数进行较小幅度的学习率更新。然而 Adagrad 的最大问题在于在某些情况学习率变得太小学习率单调下降使得网络停止学习过程。其中是梯度平方的积累量s在进行参数更新时学习速率要除以这个积累量的平方根其中加上一个很小值是ε为了防止除0的出现。由于s 是逐渐增加的那么学习速率是相对较快地衰减的。RMSPropRMSProp 算是对Adagrad算法的改进主要是解决学习速率过快衰减的问题它不是像AdaGrad算法那样暴力直接的累加平方梯度而是加了一个衰减系数γ 来控制历史信息的获取多少。AdamAdam 算法为两种随机梯度下降的优点集合适应性梯度算法AdaGrad为每一个参数保留一个学习率以提升在稀疏梯度即自然语言和计算机视觉问题上的性能。 均方根传播RMSProp基于权重梯度最近量级的均值为每一个参数适应性地保留学习率。这意味着算法在非稳态和在线问题上有很有优秀的性能。Adam 算法同时获得了 AdaGrad 和 RMSProp 算法的优点像RMSprop 一样存储了过去梯度的平方 v的指数衰减平均值 也像 momentum 一样保持了过去梯度 m 的指数衰减平均值如果 m 和 v被初始化为 0 向量那它们就会向 0 偏置所以做了偏差校正放大它们梯度更新能够从梯度均值及梯度平方两个角度进行自适应地调节而不是直接由当前梯度决定。牛顿法牛顿法和梯度下降法相比两者都是迭代求解不过梯度下降法是梯度求解一阶优化而牛顿法是用二阶的海森矩阵的逆矩阵求解。相对而言使用牛顿法收敛更快迭代更少次数但是每次迭代的时间比梯度下降法长计算开销更大实际常用拟牛顿法替代。通俗来讲梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步牛顿法在选择方向时不仅会考虑坡度是否够大还会考虑你走了一步之后后面坡度是否会变得更大。所以可以说牛顿法比梯度下降法看得更远一点能更快地走到最底部。但是牛顿法对初始值有一定要求在非凸优化问题中如神经网络训练牛顿法很容易陷入鞍点牛顿法步长会越来越小而梯度下降法则更容易逃离鞍点因此在神经网络训练中一般使用梯度下降法高维空间的神经网络中存在大量鞍点。综上 对于神经网络的优化常用梯度下降等较为高效的方法。梯度下降算法类有SGD、Momentum、Adam等算法可选。对于大多数任务而言通常可以直接先试下Adam然后可以继续在具体任务上验证不同优化器效果。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

帝国cms网站地图xml百度网站推广外包

云端电子书创作革命:EPubBuilder让专业出版触手可及 【免费下载链接】EPubBuilder 一款在线的epub格式书籍编辑器 项目地址: https://gitcode.com/gh_mirrors/ep/EPubBuilder 在数字化阅读日益普及的今天,电子书已成为知识传播的重要载体。然而&a…

张小明 2026/1/5 1:38:26 网站建设

彩票网站开发搭建浏览器打不开网页但能上网

如何高效使用东南大学论文模板:从零到精通的完整指南 【免费下载链接】SEUThesis 项目地址: https://gitcode.com/gh_mirrors/seu/SEUThesis 想象一下,当你的论文初稿完成后,却发现格式调整比写内容还要耗时耗力。东南大学论文模板正…

张小明 2026/1/5 22:01:00 网站建设

网站建设报价明细单企业宣传片文案

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 生成5个物理信息神经网络的快速原型模板,分别针对不同物理问题:1. 流体力学;2. 结构力学;3. 电磁场模拟;4. 热传导&#…

张小明 2026/1/4 23:42:49 网站建设

万网虚拟主机做网站教程wordpress 语法高亮

Unity内置着色器终极指南:版本管理与着色器存档全解析 【免费下载链接】Unity-Built-in-Shaders Unity-Built-in-Shaders:提供了Unity游戏引擎内置着色器的非官方代码仓库,对使用Unity进行游戏开发的程序员有帮助。 项目地址: https://gitc…

张小明 2026/1/5 12:47:10 网站建设

全球网站排名查询网网站更换域名需要重新备案吗

无需训练数据!EmotiVoice实现零样本跨说话人克隆 在虚拟助手越来越“懂人心”的今天,我们是否还满足于那种语气平平、毫无情绪起伏的机械音?当用户期待与AI对话时能感受到一丝温暖或共情,传统的文本转语音(TTS&#x…

张小明 2026/1/5 22:00:30 网站建设