网络炒作

多年网络推手从业经验,百余事件炒作经典案例。做一个靠谱的网络推手,业精于心,专于实战。打造热点,全民参与!
本站知名网络推手阿建官方网站,常年从事网红明星、品牌公司等网络炒作业务,微信:

互联网在进步,网络炒作方式在升级。一些形而上学的老式炒作方式已经过时。在上面的基础上巧妙改变,就会成为一种新的方式。营销人员只有根据自己的实际情况不断学习、思考和创新,才能跟上前沿的步伐。
创造新的理论来解释运作的原因,麻省理工学院的研究人员探索深层网络的基本理论问题
  • 2020-12-22 14:25

来源:机器之心

作者:卡米洛索

机心编译

编辑:杜威陈平

在本文中,麻省理工学院的研究人员讨论了深度学习中的一些基本问题,包括网络的逼近能力、优化的动态规律和强大的泛化能力。

人工智能的复兴在很大程度上归功于模式识别中深度学习的快速发展。深层神经网络架构的构建在一定程度上受到了生物脑和神经科学的启发。就像生物大脑的内部运行机制一样,深层网络在很大程度上无法解释,也没有统一的理论。对此,麻省理工学院(MIT)的研究人员就如何运营深度学习网络提出了新的想法,这将有助于人们揭开人工智能机器学习的黑匣子。

地址:https://cbmm . MIT . edu/sites/default/files/publications/PNAS last . pdf。

作者托马索·波吉欧(Tomaso Poggio)、安杰伊·班布尔斯基(Andrzej Banburski)和奎利·廖(Quianli Liao)来自麻省理工学院大脑、思维和机器中心(CBMM),其中托马索·波吉欧是麻省理工学院计算神经科学的“大师”,也是深度学习理论研究的先驱。他们创造了一种新的理论来解释深度网络的运行原因,并于2020年6月9日在《PNAS》(美国科学院院刊)上发表了他们的研究成果。

波吉奥

值得强调的是,本文的编辑是斯坦福大学的大理论专家大卫·l·多诺霍(David L. Donoho),他的研究兴趣主要包括谐波分析、信号处理、深度学习和压缩感知。

研究者关注于用深度网络逼近某些类型的多元函数,避免了维数灾难现象,即维数精度与参数成指数关系。在应用机器学习中,数据往往是高维的。高维数据的例子包括面部识别、客户购买历史、患者健康记录和金融市场分析。

深度网络的深度是指计算层数——计算层数越多,网络越深。为了阐明他们的理论,三位研究人员研究了深度学习的逼近能力、动态优化和样本外性能。

深层网络的逼近能力

一般的例子如下:为了确定一个网络的复杂度,用函数f (x)来表示。理论上,应保证未知目标函数g的近似值达到给定的精度(0)。特别是深层网络在近似函数上比浅层网络有更好的条件。两种类型的网络使用相同的操作集-点积、线性组合、单变量的固定非线性函数、可能的卷积和汇集。

如下图1所示,网络中的每个节点对应于要近似的函数的图中的一个节点。发现深层网络比浅层网络具有更好的逼近能力。

研究人员发现,指数成本消失,并通过与局部层次的深度卷积网络再次变得更加线性。证明了卷积深度网络可以避免特定类型复合函数的维数灾难。这意味着对于局部有层次的问题,比如图像分类,浅层网络和深层网络的差距是指数级的。

“在近似理论中,浅网络和深网络都以指数代价近似连续函数。然而,我们证明,对于某些类型的组合函数,卷积型深层网络(即使没有权重共享)可以避免维数灾难,”研究人员说。

动态优化定律

之后,研究小组解释了为什么参数过多的深度网络在样本外的数据上表现良好。本研究证明,对于分类问题,给定一个由梯度下降算法训练的标准深度网络,重要的是参数空间的方向,而不是权值的范数或大小。

参考文献27的最新结果表明,在二元分类线性网络的特殊情况下,明显缺乏过拟合。他们证明了损失最小化函数,如logistic函数、交叉熵和指数损失函数,可以使线性可分数据集的最大边值解渐近收敛,不受初始条件影响,不需要显式正则化。这里,本研究讨论了指数损失下的非线性多层深度神经网络(DNN),如下图2所示:

左图显示了在具有相同数据集(CIFAR-10)和不同初始化的网络上测试和训练之间的交叉熵损失的比较。结果表明,训练集上产生的分类误差为零,但测试误差不同;右图显示了相同数据和相同网络上测试和训练损失的比较。

研究人员这样描述:“在描述经验指标损失最小化的特征时,我们考虑的是权重方向的梯度流,而不是权重本身,因为分类相关函数对应的是归一化网络。动态归一化权重等价于单位范数约束下的损失最小化约束问题。特别是典型的动态梯度下降,其临界点与约束问题相同。」

这意味着深度网络上的动态梯度下降等价于那些对范数和参数大小有显式约束的网络,即梯度下降收敛到最大边值解。研究人员发现了线性模型的相似性,其中向量机收敛到伪逆解,以最小化解的数量。

事实上,研究人员假设训练深层网络的行为是提供隐式正则化和范数控制。科学家将深层网络的这种能力归因于没有正则项或权重范数的显式控制的泛化。对于数学计算问题,表明无论梯度下降中是否存在强制约束,单位向量(由梯度下降的解计算)都保持不变。换句话说,深度网络选择最小范数解,因此具有指数损失的深度网络的梯度流具有局部最小化的期望误差。

“我们认为这项研究的结果特别有趣,因为它可能解释深度学习领域最大的谜团之一,即卷积深度网络在一些感知问题上的不合理有效性,”研究人员写道。

随着应用数学、统计学、工程学、认知科学和计算机科学的交叉融合,研究人员发展了一种关于深度学习为什么有效的理论,这可能会促进新的机器学习技术的发展,加速未来人工智能的突破。


最新动态


相关资讯

  • 郑宇抨击了赵露思的团队营销,但两
  • 禁了1年,还在自然界?乔在1998年炒作
  • “新冠肺炎”牌月饼的中秋销量没有
  • 想借机炒作,制造热点?女主人拒绝
  • 阿娇回应伤病纠纷,否认带伤复工是
  • 马保国炒作剧开场,战网是红散打哥
  • 丰收已成定局。农业和农村事务部警
  • 继郑爽之后,张馨也为被丈夫推下悬
  • 吉莉安缝了66针,恢复工作太快,这被
  • 她的父亲,隐瞒了33年,其实是陈。多

    微信号:tuisho
    全年无休,早9点至晚9点

    复制号码

    跳转微信

    ×


    靓号
    此号仅服务老客户
    新客户请联系微信

    ×