您的位置:首页 > 探索头条 > 正文

MIT 研究人员警告:深度学习正在接近计算极限

2020/7/27 17:27:46 来源:InfoQ 浏览:

本文最初发表于 venturebeat,由 InfoQ 中文站翻译并分享。

我们正在接近深度学习的计算极限。这是根据麻省理工学院、MIT-IBM Watson AI Lab、安德伍德国际学院(Underwood International College)和巴西利亚大学(University of Brasilia)的研究人员 最新的一项研究中发现的。

深度学习领域的进步在“很大程度上”依赖于计算机的发展。他们断言,深度学习要实现持续的进步,将需要“戏剧性的”提高更有计算效率的方法,要么通过改变现有技术,要么通过新的、尚未发现的方法。

“我们的研究表明,深度学习的计算开销并不是偶然的,而是经过设计的。这种灵活性使它在建模各种现象方面表现出色,并且优于专家模型,同时也使它的计算开销显著增加。”合著者写道,“尽管如此,我们发现深度学习模型的实际计算负担比理论(已知)下限增长得更快,这表明实质性的改进是有可能的。

深度学习是机器学习的一个子领域,研究受大脑结构和功能启发的算法。这些算法被称为人工智能网络,它由层层排列的函数(神经元)组成,它们将信号传递给其他神经元。这些信号是输入到网络中的数据的产物,从一层传递到另一层,并对网络进行缓慢的“调整”,实际上是在调整每个连接的突触强度(权重)。通过数据集中提取特征并识别交叉样本的趋势,网络最终学会做出预测。

研究人员分析了预印本服务器 Arxiv.org 以及其他基准源的 1058 篇论文,以了解深度学习性能和计算之间的联系,特别关注包括图像分类、对象检测、问答系统、命名实体识别和机器翻译等领域。他们对计算需求进行了两次单独分析,反映可用信息的两种类型:

  • 每次网络传递的计算量 ,或给定深度学习模型中,一次通过(即权重调整)所需的浮点运算操作数。
  • 硬件负担 ,或用于训练模型的硬件的计算能力,计算方法是处理器数乘以计算速度和时间。(研究人员承认,虽然这是一种不精确的计算方法,但在他们分析的论文中,这种方法的报道比其他基准要广泛得多。)

合著者报告说,除了从英语到德语的机器翻译之外,所有基准测试都有“高度统计学意义”的斜率和“强大的解释能力”,在这种情况下,使用的计算能力几乎没有变化。特别是对象检测、命名实体识别和机器翻译显示出硬件负担的大幅增加,而结果的改善相对较小,在流行的开源 ImageNet 基准测试中,计算能力解释了图像分类正确率的 43% 的差异。

研究人员估计,三年的算法改进相当于计算能力的 10 倍增长。他们写道:“总体而言,我们的研究结果清楚地表明,纵观深度学习的许多领域,训练模型的进步依赖于计算能力的大幅提高。另一种可能性是,要想在算法上有所改进,可能本身就需要在计算能力上进行互补性的提高。”

在研究过程中,研究人员还对这些预测进行了推断,以了解达到理论基准所需的计算能力,以及相关的经济和环境成本。即使是最乐观的计算,在 ImageNet 上降低图像分类错误率也需要 105 次以上的计算。

就他们的观点而言,一份 同步报告估计,华盛顿大学的 Grover 假新闻检测模型在大约两周内训练成本为 2.5 万美元。据报道,OpenAI 花了 1200 万美元来训练 GPT-3 语言模型,而 Google 花费了大约 6912 美元来训练 BERT ,这是一种双向 Transformer 模型,重新定义了 11 种自然语言处理任务的最新水平。

在去年 6 月的另一份报告中,马萨诸塞大学阿默斯特分校(University of Massachusetts at Amherst)的研究人员得出结论,训练和搜索某种模型所需的能源涉及大约 62.6 万磅的二氧化碳排放量。这几乎相当于全美国汽车平均寿命排放量的 5 倍。

“我们没有预料到,目标所隐含的计算要求…… 硬件、环境和财务成本会高得令人望而却步。”研究人员写道,“以一种经济的方式实现这一目标,需要更高效的硬件、更高效的算法,或其他改进,以使净效果就是如此巨大的收益。”

研究人员指出,在算法层面上进行深度学习的改进是有历史先例的。他们指出,像 Google 的张量处理单元(TPU)、现场可编程逻辑门阵列(FPGA)和专用集成电路(ASIC)这样的硬件加速器,以及通过网络压缩和加速技术来降低计算复杂性的尝试。他们还引用了神经架构搜索和元学习,它们使用优化来找到在一类问题上保持良好性能的架构,作为提高计算效率方法的途径。

事实上,OpenAI 的一项 研究表明,自 2012 年以来,人工智能模型在 ImageNet 中进行图像分类所需的计算量每 16 个月就会减少 2 倍。Google 的 Transformer 架构超越了之前最先进的模型——seq2seq,也是由 Google 开发的,在推出 seq2seq 推出三年后,计算量减少了 61 倍。而 DeepMind 的 AlphaZero ,是一个从零开始自学如何掌握国际象棋、将棋和围棋的系统。在一年后,比它的前身 AlphaGoZero 的改进版本减少了 8 倍的计算量。

“用于深度学习模型的计算能力的爆炸式增长结束了人工智能冬天,并为各种任务的计算机性能设定了新的基准。然而,深度学习对计算能力的巨大需求,也限制了它在当前形势下提高性能的程度,尤其是在硬件性能改进速度正在放缓的时代。”研究人员写道,“这些计算限制的可能影响是迫使机器学习朝着比深度学习更高效的技术方向发展。”

作者介绍:

Kyle Wiggers,技术记者,现居美国纽约市,为 VentureBeat 撰写有关人工智能的文章。

参考阅读:

https://venturebeat.com/2020/07/15/mit-researchers-warn-that-deep-learning-is-approaching-computational-limits/

关注我并转发此篇文章,私信我“领取资料”,即可免费获得InfoQ价值4999元迷你书!

看看网友怎么说

超越星辰大海雁斌:float16

小黄78198:不错。

文章来源网络,版权归属原作者,未注明作者均因传阅太多无从查证。本站为公益性非盈利网站,在本网转载其他媒体稿件是为传播更多的信息,此类稿件不代表本网观点。如果本网转载的稿件涉及您的版权、名益权等问题,请尽快与我们联系,我们将第一时间处理!
  • 国际最新研究:人类3万年前就在北美洲居住

    哥本哈根大学助理教授MikkelWintherPedersen正在洞穴沉积物中搜集DNA。(图片来自DevlinA.Gandy)自然科研供图(记者孙自法)人类在美洲居住的最早时间一直富有争议,传统观点认为人类在约1.3万年前首次抵达美洲。不过,国际最新考古学研究却将这一时间点大大提前,认为人类早在3

  • 火星探测哪家强?人类44次探火任务大盘点

    中青报·中青网记者邱晨辉这个夏天,是火星探测器的发射窗口,中国、美国、阿联酋都将展开新的火星之旅。纵观世界航天史,人类似乎对火星“情有独钟”。全国空间探测技术首席科学传播专家庞之浩在接受中青报•中青网记者采访时说,人类火星探测起步于20世纪60年代,到今年6月底,全球共实施了44次探火活动,其中美国

  • 资源三号03星数据成功接收

    来源:央视网2020年7月26日,中国科学院空天信息创新研究院——中国遥感卫星地面站——成功接收资源三号03星数据。上午10时52分08秒,中国遥感卫星地面站密云站在第16圈次成功跟踪、接收到资源三号03星首轨下行数据。之后,喀什站也按计划成功完成资源三号03星数据接收任务。当日,中国遥感卫星地面站

  • 资源三号03星数据成功接收

    来源:央视新闻客户端2020年7月26日,中国科学院空天信息创新研究院——中国遥感卫星地面站——成功接收资源三号03星数据。上午10时52分08秒,中国遥感卫星地面站密云站在第16圈次成功跟踪、接收到资源三号03星首轨下行数据。之后,喀什站也按计划成功完成资源三号03星数据接收任务。当日,中国遥感卫

  • 中国遥感卫星地面站成功接收资源三号03星数据

    中国青年报客户端北京7月27日电(中青报•中青网记者邱晨辉)记者今天从中国科学院空天信息创新研究院获悉,该院所属中国遥感卫星地面站已于7月26日成功接收资源三号03星数据,接收卫星数据达120GB,所有接收数据均在第一时间完成回传,处理情况正常。资源三号03星于7月25日11时13分成功发射,属于我

  • 太阳系最复杂的小行星:既融化又未融化,还有液态金属核和磁场

    大多数坠落在地球上的陨石都是行星体的碎片,行星体是太阳系中最早的原行星体。科学家们认为,这些原始行星体要么在其历史早期就完全融化了,要么作为一堆未融化的碎石留了下来。但自从20世纪60年代发现陨石以来,一个陨石家族就让研究人员感到困惑。在世界各地发现的各种碎片似乎都是从同一个原始天体上分离出来的,然

  • NASA考虑通过建造核电站为月球和火星殖民地提供动力

    据外媒SlashGear报道,在月球或火星等另一星球表面长期存在的挑战之一是找到使人类生活成为可能所需的动力。据报道,美国宇航局(NASA)正在考虑建造能在月球和火星上工作的核电站。上周五,NASA向私营部门发出了关于未来如何在地球之外使用核电的想法的请求。私营部门提交的所有想法将由爱达荷州东部的核

  • 阳光所至·月球—熟悉而又神秘的世界

    “长安一片月,万户捣衣声。”自古以来,月亮就频繁的出现在诗人们的笔下,成为诗人们所钟爱的意象。作为离地球最近的自然天体,月球自古以来就分外的引人注目,特别在中国。在中国的神话传说中,月球上有一座广寒宫,宫里住着嫦娥仙子和捣药的玉兔,以及伐桂的吴刚。从地球上看向月球,月球上的阴影正好呈现出一棵桂树的样

  • 地球如果被木星捕获,变成了它的卫星,我们能坚持多久?

    我们知道太阳系有8大行星,但是在太阳系形成的初期,并不像我们这样稳定的运行。太阳系内布满了小行星和慧星,各种星体,还有大量的尘埃。他们之间经常互相碰撞,想互交融,整个太阳系一片混沌。大约经过了5亿年的时间,强劲的太阳风才把太阳系里的一些尘埃以及小星星吹到了太阳系边缘,也就是现在的柯伊柏带,整个太阳系

  • 死亡天体诉说着鲜活的秘密:磁星和脉冲星到底有何关系

    诚然,黑洞是宇宙中最诡异、最特别的天体之一。但是,论及形态的复杂性,中子星绝不逊色。1992年,德克萨斯大学奥斯汀分校的天体物理学家罗伯特·邓肯及克里斯托佛·汤普森首次提出了一个神奇的理论,预言宇宙中存在着一种非常神奇的天体——磁星。据推测,磁星是一种非常诡异的天体,本质上是中子星,但是形态比较特殊