AI 3.0电子书PDF免费在线完整高清版|百度网盘下载

编辑评论:

《AI 3.0》是超级畅销书《复杂性》作者、复杂系统前沿科学家梅兰妮·米歇尔用10年时间思考和阐明人工智能和人类智能。 .

AI 3.0电子书PDF免费在线

编辑推荐

“AI 3.0”提供了人工智能的过去、现在和未来的全景。作者 Michelle 基于多年在人工智能领域的研究经验以及对人工智能应用和未来的思考,结合人工智能发展史上的重大事件与其他权威专家的学习交流。 5 个部分揭示了“计算机今天可以做什么以及未来几十年我们可以从它们那里得到什么”。笔者从人工智能的发展历程入手,然后阐述了人工智能的原理、当前的能力边界,以及人工智能的四大应用领域,包括视觉识别、游戏与推理、自然语言处理、通用感觉判断。面临的关键挑战。

随着人工智能技术的发展,其应用越来越广泛,对人类社会和我们的生活产生了深远的影响,并将在未来继续发挥更大的影响力。因此,我们都应该也应该对人工智能有一个比较深入的了解,这样才能更好地了解自己,洞察未来的发展机遇。同时,本书超越了一般书籍的专业性和权威性,非常适合想了解人工智能领域的一般读者,以及相关领域的企业家和管理者。

财讯传媒集团首席战略官、微草智库创始合伙人段永超,傲视科技(北京)有限公司联合创始人兼首席执行官吴干沙,高级副总裁兼首席技术官芮勇联想集团高管,表彰了神经科学之父、畅销书《双脑》作者迈克尔·加扎尼加、世界顶级理论物理学家、畅销书《规模》作者杰弗里·韦斯特等科学家、企业家,和畅销书作家丁力推荐。

展露文化出品。

简介

人工智能现在正深刻影响着我们的生产生活,甚至关系到人类的未来和命运,但人工智能到底是什么?人工智能背后的基本原理是什么?人工智能从诞生到演化,经历了哪些历史变迁?今天人工智能的能力在哪里?人工智能和人类智能有什么区别?未来人工智能将面临哪些挑战和机遇?关于这些问题,《AI 3.0》将为你一一揭晓答案。

这本书源自米歇尔多年对人工智能领域真实发展状况的记录,其中她通过5个部分揭示了“人工智能今天能做什么,以及我们在人工智能领域能做什么”未来几十年对他们的期望。”在描述了人工智能的发展历史后,作者通过探讨人工智能四大流行应用:视觉识别、游戏与推理、自然语言处理、常识判断的发展现状和局限性,理清了人工智能与人类的关系。 .智能与书中人脸识别、无人驾驶、机器翻译等案例研究的关系,充满了极大的启发!这些都是当前人工智能发展面临的困境,人工智能要想有所突破就必须重新思考。读完本书,您将对人工智能领域有一个全景式的了解。

《GEB》作者侯士达一章一章地审书,每一页都写满了评论! “AI 3.0”是智能觉醒的启蒙,将掀起第三波人工智能热潮! “AI 3.0”想要传达的一点是,我们人类往往会高估人工智能的进步,而低估人类智能的复杂性。当前的人工智能远不是一般的人类水平的智能。我们应该害怕的不是智能机器,而是“愚蠢”的机器,那些无法自行做出决定的机器。相比机器的“智能”,我们​​更应该关注如何规避“笨”机器的潜在风险。

关于作者

梅兰妮·米歇尔

波特兰州立大学计算机科学教授,曾就职于圣达菲研究所和洛斯阿拉莫斯国家实验室系统、遗传算法等。在圣达菲研究所期间,Michelle 领导复杂系统领域的研究并在线教授相关培训班。她的在线课程“复杂性介绍”已被近 30,000 名学生学习,成为 Coursera 在线课程 50 强之一。

米歇尔拥有博士学位。在密歇根大学获得计算机科学博士学位,并与认知科学家和作家 Douglas Hofstadter 一起学习,后者共同创建了 Copycat 程序,该程序在理想化的情况下进行创造性的类比。米歇尔也是著名的畅销书作家和《复杂性:导览和遗传算法》的作者。

书籍内容

简介 用人类智能制造机器是一次重大的智力冒险

Part 1 要想赌未来,首先要弄清楚为什么人工智能仍然无法超越人类智能

01从初冬到寒冬,心智是人工智能一直无法攻克的堡垒

达特茅斯的两个月零十个人

定义,然后必须继续

我们可以通过任何方式取得进展

符号人工智能,试图用数理逻辑解决一般问题

感知器,基于 DNN 的子符号人工智能

感知学习算法无法再现人脑的涌现机制

了解感知器的权重和阈值

感知器是死胡同

泡沫破灭,进入人工智能寒冬

看似简单的事情其实很难

02从神经网络到机器学习,没有人是最后的解药

多层神经网络识别编码中的简单特征

无论有多少输入和输出,反向传播学习都有效

联结主义:智能的关键在于构建合适的计算结构

子符号系统的精髓:不擅长逻辑,擅长飞盘

机器学习,下一场智能大革命的舞台已经准备好

03 从图灵测试到奇点之战,我们无法预测智能将引领我们走向何方

“认猫机”掀起的春天狂潮

人工智能:窄而泛,弱而强

人工智能是模仿思考还是真正思考

图灵测试:如果计算机足够人性化

奇点 2045,非生物智能将比当今所有人类智能强大 10 亿倍

一个“指数”寓言

摩尔定律:计算中的指数增长

神经工程,大脑逆向工程

奇点怀疑论者和粉丝

赌图灵测试

第二部分视觉识别:看起来总是更容易做起来更难

04 谁、什么、何时、何地、为什么

看和做

深度学习革命:不是复杂性,而是深度

模拟大脑,从神经认知机器到 ConvNets

ConvNets 如何不将狗识别为猫

激活物体特征并通过分类模块进行预测

从训练样本而不是预先构建的正确答案中不断学习

05 ConvNets 和 ImageNet,现代人工智能的基石

构建 ImageNet 解决物体识别任务的时间困境

土耳其,一个需要人类智慧的就业市场

赢得 ImageNet 比赛,神经网络大获成功

ConvNets 淘金热,用一种技术解决一个又一个问题

ConvNets 在物体识别方面的表现是否优于人类?

我们离真正的视觉智能还很远

06 人与机器学习之间的关键差距

人工智能仍然无法学会自主学习

深度学习依然离不开“你”大数据

长尾经常让机器出错

机器有时会“观察”到与我们非常不同的东西

有偏见的人工智能

人工智能内部的黑暗秘密以及我们如何欺骗它

07 确保价值一致并构建值得信赖和道德的 AI

有益的人工智能,不断改善人类生活

AI 的重大权衡:我们应该接受还是谨慎

人脸识别的伦理困境

人工智能如何调节和自我调节

创建一个道德机器

第三部分游戏和推理:开发具有更多人类学习和推理水平的机器

08强化学习,最重要的是学会奖励机器人

训练你的机器狗

现实世界中的两个绊脚石

09 学会玩游戏,智力从何而来

深度 Q 学习,从更好的猜测中学习猜测

代理价值 6.5 亿美元

跳棋和国际象棋

不聪明的“聪明赢家”深蓝色

Go,简单的规则可以产生无限的复杂性

AlphaGo 与李世石:微妙、微妙、微妙

从随机选择到有偏选择,AlphaGo 是这样工作的

10 游戏只是手段,AGI 是目标

了解错误为何至关重要

无需人工指导

许多人类游戏都对 AI 具有挑战性

它真的不明白什么是隧道,什么是墙

AlphaGo除了会思考“围棋”,没有“思考”

从游戏到现实世界,从规则到无规则

第 4 部分自然语言:让计算机理解它“读取”的内容

11 个单词,以及与之一起出现的单词

语言的微妙之处

语音识别和最后 10%

类别情绪

循环神经网络

“我欣赏其中的幽默”

“恨”总是与“恨”相关联,“笑”总是与“幽默”相关联

word2vec 神经网络:口渴是喝水的感觉,就像疲倦是喝醉的感觉

12 机器翻译,仍然无法从人类理解的角度理解图像和文本

编码器遇到解码器

机器翻译正在弥合人类和机器翻译之间的差距

迷失在翻译中

将图像翻译成句子

13 个虚拟助手 - 问我任何问题

沃森的故事

如何判断计算机是否能做阅读理解

“它”是什么意思?

自然语言处理系统中的对抗性攻击

Part 5 常识——人工智能突破意义障碍的关键

14 正在学习“理解”的人工智能

理解的基石

预测可能的未来

理解就是模拟

我们赖以生存的隐喻

抽象和类比,构建和使用我们的心智模型

15 知识、抽象和类比赋予人工智能核心常识

给计算机核心直观的知识

形成一个抽象的、理想化的愿景

主动符号和类比

字符串世界中的元认知

识别整体情况比识别单个物体要困难得多

“我们相距甚远”

结论思考激发人工智能终极潜力的6个关键问题

问题 1:自动驾驶汽车普及需要多长时间?

问题 2:人工智能会导致大规模失业吗?

问题 3:计算机可以有创造力吗?

问题 4:我们离创造一般人类水平的人工智能还有多远?

问题 5:我们应该对人工智能有多害怕?

问题 6:人工智能中有哪些令人兴奋的问题尚未解决?

精彩的书摘

深度学习依然离不开“你”大数据

深度学习需要大数据,例如 ImageNet 上超过一百万张带注释的训练图像,这已不是什么秘密。这些数据来自哪里?答案当然是你和你认识的每个人。互联网用户上传的数十亿张图像使现代计算机视觉应用成为可能,有时还带有描述图像内容的文本标签。您是否曾经在 Facebook 上发布过朋友的照片并对其发表评论? Facebook应该感谢你!该图像及其文本可能已用于训练他们的人脸识别系统。你有没有在 Flickr 上上传过图片?如果是这样,您上传的图像可能已经是 ImageNet 训练集的一部分。您是否曾经通过识别图像向网站证明您不是机器人?您的认可可能有助于 Google 标记图像并用于训练其图像搜索系统。

大型科技公司通过您的计算机和智能手机为您提供许多免费服务:网络搜索、视频通话、电子邮件、社交网络、智能助手等等。这些对公司有什么用处?答案,你可能听说过,这些公司真正的产品实际上是他们的用户,就像你我一样,而他们真正的客户是在使用这些免费服务时获得我们关注和信息的广告商。还有一个答案:在使用谷歌、亚马逊、Facebook等大型科技公司提供的服务时,我们直接向这些公司提供图片、视频、文字或语音等形式的样本,公司可以利用这些样本进行更好的培训它的人工智能程序,这些改进的程序可以吸引更多用户贡献更多数据,从而帮助广告商更有效地定位他们的广告。此外,我们提供的训练样本也可以被公司用来训练程序以提供企业服务,以及用于商业收费,例如计算机视觉和自然语言处理方面的服务。

关于这些大公司在不通知或补偿用户的情况下使用用户创建的数据来培训程序和销售产品的道德规范已经引起了很多讨论。这是一个非常重要的讨论话题,但超出了本书的范围。我想在这里强调的主要一点是,对大量标记数据进行训练是深度学习与人类学习不同的另一个特征。

随着深度学习系统在物理世界中的实际应用激增,许多公司发现需要大规模、新标记的数据集来训练 DNN。一个有趣的例子是自动驾驶汽车,它需要复杂的计算机视觉功能来识别车道、交通信号灯、停车标志等,以及识别和跟踪不同类型的潜在障碍物,例如其他汽车、行人、骑自行车的人等. 人、动物、交通锥、翻倒的垃圾桶、风滚草以及其他任何您可能不想让汽车撞到的东西。自动驾驶汽车还需要了解这些物体在晴天、下雨天、下雪天、雾天以及白天和黑夜时的样子,并了解哪些物体可能会移动,哪些物体会原地不动。 .深度学习至少在一定程度上有助于完成这项任务,但它也需要大量的训练样本。

一家自动驾驶汽车公司从安装在真实汽车中的摄像头拍摄的大量视频中收集训练样本。这些在高速公路和城市街道上行驶的汽车可能是汽车公司用来测试的自动驾驶汽车的原型,而在特斯拉的案例中,这些汽车是客户在购买特斯拉汽车时驾驶的汽车。 ,需要接受公司的数据共享条款。

特斯拉车主不需要在他们的汽车拍摄的视频中标记每个物体,但有人正在这样做。 2017 年,英国《金融时报》报道称,“大多数从事这项技术的公司都位于印度等国家的离岸外包中心,雇佣了成百上千的人,他们的工作是教自动驾驶汽车识别行人、骑自行车的人,和其他障碍。这些工作人员需要手动注释数千小时的视频片段才能完成这项工作,通常是逐帧进行。”提供标记数据集服务的新公司如雨后春笋般涌现,例如 Mighty AI,它提供训练计算机视觉模型所需的标记数据,并承诺:“我们是众所周知的,专门研究自动驾驶数据,经过认证,值得信赖的注释器。

书评

Melanie Michel 的《AI 3.0》一书有一条充满探索精神的主线:第三波人工智能极大地突破了前两波人工智能的思想,开启了新的哲学范式。差距不仅是符号表示和计算的问题,也是意义的问题。那么符号演算、视觉处理、机器学习将如何走向“智能觉醒”呢?这恐怕是专业人士和普通大众都非常关心的问题。这个“AI 3.0”的独特魅力在于它立足前沿、深思熟虑、超越技术。

段永超

财讯传媒集团首席战略官

微草智库创始合伙人

在众多关于人工智能的新技术书籍中,Melanie Michel 的《AI 3.0》确实脱颖而出。它超越了普通书籍的专业性和权威性,非常适合想了解这个行业的人。普通读者和相关领域的企业家和管理者。 Michelle 的写作符合人工智能研究领域的“星星”、“GEB”和“情结”,充满了猜测。当然,这本书的内容处处鼓舞人心,尤其是对无人驾驶领域长尾效应的描述,直击当前人工智能领域的发展痛点。总的来看,“AI 3.0”观点前沿,充满灵感,无疑正在拉开人工智能未来发展的新序幕。

吴干沙

傲视科技(北京)有限公司联合创始人兼CEO

AI 3.0 将强化学习、计算机视觉、自然语言理解和人工智能历史方面的技术里程碑巧妙地结合在一起,启发人们对人工智能伦理和人性的认识。深入思考。此外,本书内容透彻,发人深省,值得人工智能从业者和非专业人士阅读。

瑞勇

联想集团高级副总裁、首席技术官

如果您认为自己了解人工智能以及与之相关的所有问题,那么您可能不了解。当你读完《AI 3.0》这本异常清晰、引人入胜的书时,我想你会更多地了解人工智能,变得更聪明。

迈克尔·加扎尼加

认知神经科学之父,畅销书《两个大脑》的作者

对于任何对人工智能、机器学习和大数据的新兴革命感兴趣的人,Melanie Michel 的书是必读的——她提供了一个非常清晰、全面的概述,不仅是关于人工智能改变的潜力我们在 21 世纪的生活方式,以及它的缺点和可能带来的危险。 Michelle 为我们提供了一个全面的视角来理解人工智能的真正含义。同时,她纠正了媒体对人工智能的夸大描述和误解。决策者、技术领导者、科学家、工程师和学生都将从这本书中受益。

杰弗里·韦斯特

世界顶级理论物理学家,畅销书《尺度》作者

面向人类读者的“AI 3.0”通识教育阅读器

我非常喜欢阅读 Melanie Mitchell 的 AI 3.0。作者是计算机科学教授和人工智能(AI)研究员。这本书是她试图弄清楚一个即将到来的奇点是否存在(或至少可能存在),或者我们是否离创造任何真正的智能还很遥远。在此过程中,读者可以很好地了解图像识别、游戏和自然语言处理等领域的最新技术。虽然是针对普通读者的,但我觉得它的技术含量非常好。

几乎不可思议的是,神经网络从随机权重开始,经过训练可以做出良好的预测。然而,与此同时,我认为网络在任何方面都不是智能的。对我来说,这更像是一种统计形式的巧妙运用。

当我与其他软件开发人员交谈时,我发现他们中的许多人认为我们正在走向奇点。或者至少即将推出 5 级自动驾驶汽车(“你什么时候认为人类驾驶是违法的?”)。我很难看到通往那个目标的道路,梅兰妮·米切尔同样持怀疑态度。

在本书的介绍中,她解释了 Ray Kurzweil 等“奇异主义者”的观点。它归结为指数增长的力量——随着计算机功能越来越强大,我们很快就能重建人类水平的智能。当然,也有怀疑论者指出,例如,指数增长更多地适用于硬件而不是软件。无论如何,通过阅读和解释当今各种版本的人工智能如何工作,米切尔为读者提供了更多信息以找到他们的观点。在这个过程中,你可以学到很多关于人工智能技术的知识。

以下是我最喜欢的书籍的不同部分的摘要。尽管章节很短,但她设法在其中包含了许多相关信息。

历史

虽然制造可以思考的机器的想法已经存在了很长时间,但人工智能的起源可以在 1956 年达特茅斯学院的一个暑期研讨会上找到。该领域的“四大”先驱们参加了约翰麦卡锡、马文明斯基、艾伦纽维尔和赫伯特西蒙。早期,人们非常乐观。 Herbert Simon 曾预言:“二十年后,机器将能够做任何人类能做的事情。”。

人工智能的方法迅速分裂成不同的方向。符号 AI 和子符号 AI 之间的一个重要区别。在符号人工智能中,目标是建立一个可以像人类一样解决问题和推理的系统。这种方法涉及编码规则和应用它们。这个想法在前三年主导了人工智能领域,并催生了所谓的专家系统。

亚符号人工智能试图重现部分无意识的过程,例如识别面部或识别口语。该方法是模拟大脑中神经元的工作方式。 Frank Rosenblatt 在 1950 年代后期发明了感知器。它是一些输入的总和,乘以不同的权重。如果总和大于阈值,则生成输出 1(它“触发”),否则生成输出 0。这是当今神经网络的基石,用于图像识别等。

事实证明,人工智能比预期的要难得多。正如马文·明斯基后来所说:“看似容易的事情总是很难。”。人工智能的最初目标——计算机可以使用自然语言进行交流,描述他们看到的东西,并且只从几个例子中学习——是幼儿可以轻松完成的事情。但是很难让一台机器来做到这一点。当结果没有实现时,资金枯竭,“人工智能冬天”随之而来。

图像识别

过去十年图像识别技术的巨大进步来自人工智能的子符号分支。 Mitchell 描述了如何使用具有反向传播的神经网络来处理手写数字的图像。一个网络由若干层组成,每一层由许多类似感知器的单元组成。通常输入层中每个像素有一个单元。然后是一些隐藏层,最后是一个输出层,指示它是什么类型的图片。一层中的所有单元都连接到相邻层中的所有单元。每个单元的权重决定了它将提供什么输出,并且这些权重会在训练期间进行调整。误差(与预期输出相比的输出)决定了应该改变多少权重。这些错误修正通过各个层传播回来。经过几轮训练后,网络被配置为根据输入进行预测。

她接着描述了在对图像进行分类时,如何使用卷积来构建图像中较大结构(例如边缘和形状)的表示。这些系统需要标记图像进行训练。有一些标准的图像集合用于比较图像分类系统的性能。其中之一是 Image Net,它由 120 万张带标签的图像组成。亚马逊的 Robot Turk 系统被用来让人们标记许多图像。

批评:虽然今天的图像识别系统确实令人印象深刻(例如 Facebook 的面部识别),但它们也存在一些问题。人们常说他们是“自学成才”的。但是除了需要给输入打标签外,还有很多超参数需要设置。例如,网络中的单元和层数,以及学习率。这些设置会对神经网络的性能产生很大影响,而找到正确的组合目前更像是一门艺术而不是一门科学。

还有一些对抗性的例子。研究人员发现,您可以拍摄校车的照片并更改人类无法检测到的像素,但这会欺骗系统对其进行错误分类,例如鸵鸟。还有一些方法可以生成看起来像随机噪声的图片,但这些图片有 99% 的可能性是特定对象。这些对抗性示例提出了一个问题:“确切地说,这些网络在学习什么?”

还有一些例子表明这个问题的答案不是你所期望的。其中一个系统被训练来区分风景画和动物画。它工作正常,直到它被发现,它只区分模糊或锐利的背景。原因是大多数动物照片都是针对背景模糊的动物,而风景照片则比较锐利。同样,这不是我们所期望的。但是,您确实希望系统能够识别人类没有注意到或看到的特征。问题是很难知道这些特征是什么。

游戏

本节从一个关于强化学习如何工作的玩具示例开始。正在训练机器狗踢足球。执行随机动作,当一系列动作导致成功的结果(球被踢)时,这被记录为做更多。然而,在训练过程中,有时你必须尝试新的动作,即使你已经找到了一些成功的动作。这是探索潜在行为的整个空间(探索和利用)。为了知道执行了哪些之前成功的操作,需要存储状态和操作,以及这些操作估计会得到的对应值。对于机器狗来说,状态可能是它的位置和球的位置,动作是移动的,是否踢球。状态、动作和值存储在一个称为 Q 表的表中,这种形式的强化学习有时称为 Q-learning。

DeepMind 在创建可以玩经典 Atari 电脑游戏的系统时使用强化学习 (Q-learning) 和深度神经网络。他们将这种方法称为深度 Q 学习。这些情况下的状态是当前帧(当前屏幕的像素),以及前一个时间步的三帧。要选择一个动作(左断桨、右桨或无桨),使用卷积神经网络(类似于图像分类)。需要一个技巧来更新权重,因为没有像带标签的图片这样的已知答案。

在强化学习中,一个动作的价值是对训练结束时如果采取该动作所获得的奖励的估计。这个估计应该在节目结束时更准确。诀窍是假设网络的当前输出比前一次迭代更接近正确。因此,所采用的策略是最小化当前迭代与前一次迭代之间的差异。通过这种方式,网络学会保持每次迭代的输出一致。这称为时间差异学习。在许多情况下,这些系统学会了比人类更好地玩 Atari 游戏。

本节还介绍了另外两个游戏程序。第一个是 IBM 的 Deep Blue,它在 1997 年的国际象棋比赛中击败了 Garry Kasparov。该程序的工作原理是从可能的动作树中评估可能的未来位置,然后使用极小极大算法来决定采取什么行动。另一个可能是最著名的游戏例子——AlphaGo,它在 2016 年的围棋比赛中击败了李世石。

DeepMind 的 AlphaGo 类似于 Deep Blue,因为它分析游戏树中的移动序列。但是有一些差异使围棋成为更艰巨的挑战。围棋中有更多潜在的移动,所以动作树更大。此外,没有人能够提出一个好的评估函数来评估给定的电路板配置有多好。所以 AlphaGo 使用蒙特卡洛树搜索。 Since it is impossible to explore all possible moves in the game tree, it picks some at random (the Monte Carlo part), and plays these until the game ends in a victory or defeat. Actions along the way are also chosen at random. Simulating the game until the end of the game, such a pick-and-roll is called a kick-off from that position. The result of the rollout (win or loss) is used to update the stats where each position move is good. AlphaGo rolls out nearly 2000 times per turn, so the final stats are going to be pretty good.

Monte Carlo Tree Search is complemented by a deep convolutional neural network. The network is trained to assign rough values ​​to all possible moves from the current position. ConvNet indicates which initiatives are good candidates for rollout. After rollout, through backpropagation, update which steps are good values ​​for updating the output of the ConvNet. Eventually, the ConvNet will learn to recognize patterns. The program has been improved by playing the game on its own, played about 5 million times. Therefore, AlphaGo combines reinforcement learning, Monte Carlo tree search, and deep convolutional neural networks.

Criticism: These successful games have DeepMind claiming that they have demonstrated "...even in the most challenging domains, without human paradigms or guidance, even beyond ground rules Knowledge, it is also possible to train to a superhuman level." However, while the victory over Lee Sedol is impressive, it's important to remember that AlphaGo's skills at playing Go are only useful for playing Go. They don't help in any other game, let alone in other missions. In other words, there is no "transfer learning".

Furthermore, many real-world missions don't have a state as easily defined as in-game states. The same logic applies to assessing the effects of an action. Also, at least in AlphaGo's case, there is human guidance in deciding to use Monte Carlo Tree Search and setting hyperparameters for ConvNet.

Language

Natural Language Processing (NLP) refers to letting computers process human language. An example is sentiment classification, where the goal is to automate whether a short sentence is positive or negative. For example, for a review like "This movie is too dark for my taste", did the reviewer like the movie? Some early natural language processing systems determined sentiment by observing the occurrence of individual words. For example, "dark" in the example above might indicate a negative opinion. However, in "Despite the heavy theme, there's enough humor to keep it from getting too dark", the mood is positive, even if "dark" comes up again.

Looking at individual words is not enough to capture the meaning of a sentence. One such improvement is the use of recurrent neural networks. It deals with two issues - variable length input (sentences), and the importance of word order in sentences. Unlike neural networks used for image classification, where hidden units also have connections to themselves and other hidden units (recurrent connections), sentences are processed in time steps (one step per word). The output (positive or negative sentiment) is just the output after all the text has been processed. Loop joins allow it to process each word (the previous word in the sentence) as it memorizes the context.

There is one more problem - the input to the neural network must be numbers. How to encode input words as numbers? One way is one-hot encoding. If you have 20,000 words, you make a slot for each word. When a given word occurs, its slot is 1, and all other slots are 0. The problem with this approach is that there is no way to know whether two words are similar in meaning. For example, hate and dislike should have roughly the same meaning, but one-hot encoding doesn't capture this relationship.

Enter word2vec. In 2013, researchers at Google came up with a clever scheme to represent words as vectors in a 300-dimensional space. As input, they used a lot of text from Google News. For each sentence, they created all word pairs that appeared next to each other (excluding all short words like a and the).例如,“ a man went into a restaurant and ordered a hamburger”将创建对(man,went)、(went,into)、(into,restaurant)、(restaurant,ordered)和(ordered,hamburger)。这些词组,以及相反的词组,如汉堡包,被用来训练一个规则的神经网络来预测哪些词会挨着另一个出现。

在这种情况下,对输入和输出都使用了独热编码。举个例子,如果有700,000个不同的单词,那么神经网络将有700,000个输入,和700,000个输出。隐藏层有300个单位。当网络经过数十亿个词对的训练后,对于一个给定的输入词,它能够指出输出词出现在给定的输入词旁边的可能性有多大。例如,如果输入是 hamburger,则输入中相应的槽位为1,其他所有槽位为0。在700,000个输出插槽中,较高的值表示其对应的单词可能出现在汉堡包旁边。

现在来说说我的聪明之处: 对于每个单词,300个隐藏单位上的值用来构成该单词的向量。这意味着对于这700,000个单词中的每一个,都会创建一个300个元素的向量。这个向量与具有相似意义的单词类似。例如,接近法国的单词是西班牙、比利时、荷兰、意大利等等,因为它们都出现在句子的相似上下文中。同样,与汉堡相近的词是汉堡,芝士汉堡,三明治,热狗,玉米饼和薯条。

例如,在 Google 翻译中使用了向量这个词。当从英语翻译成法语时,输入句子中的单词被转换成相应的向量。然后递归神经网络按照时间步骤对句子进行编码(每个单词一个)。句子现在被编码在隐藏单位的激活中。这种编码作为解码器网络的输入也包括阅读理解。

阅读理解的一个困难的例子就是确定“它”指的是什么。例如:

第一句: “我把瓶里的水倒进杯子里,直到杯子满了。”

问题: “什么东西是满的?”a。瓶子。 b.杯子。

第二句: “我把瓶里的水倒进杯子里,直到杯子空了。”

问题: “什么是空的?”a。瓶子。 b.杯子。

这种测试被称为 Winograd 模式,以 NLP 研究先驱 Terry Winograd 的名字命名。在撰写本书时,任何程序的最佳表现是61% ――比随机猜测要好,但远低于人类的表现。由于这些类型的语言问题通常需要某种形式的现实世界知识(如果你从瓶子里倒水,它就变成空的,而不是满的) ,有人建议用一系列这类问题来替代图灵测试。

批评。自然语言处理的许多领域都取得了巨大的进步。但是为了获得更高的准确性,似乎需要真正理解文本,仅仅通过文本查找模式是不够的。

意义与理解

尽管迄今为止所描述的各种系统都取得了成功,但它们的一个共同弱点是,它们没有真正的”理解”。例如,最先进的图像识别系统不理解图片中的内容,即使它能够正确地对其进行分类。这本书的最后几章讨论了获得真正理解需要什么。

首先,米切尔讨论了人类对世界的所有隐性知识。我们知道世界上的物体是如何运作的。如果你掉下一个物体,它就会掉下来,当它落到地面时,它就会停下来,反弹,或者可能破裂。一个隐藏在另一个物体后面的物体仍然存在。这就是所谓的直觉物理。还有直觉生物学――我们知道狗可以自己移动,但婴儿车不能。我们也可以想象可能发生的不同情况。许多这些能力可以解释为来自我们体验物质世界。也许具象化也是人工智能系统所需要的,因为人工智能系统可以像我们一样理解世界。

还有一个有趣的抽象和模式发现示例: Bongard 问题。我以前从未见过这些作品,但它们在GEB中有出现。它们由左边的6个图形和右边的6个图形组成。目的是弄清楚左边的六个和右边的六个有什么不同。例如,左边的所有图片可以是一个大对象和一个小对象,而右边的图片都包含两个小对象。这是一个很难用程序解决的问题,但对人类来说却容易得多。

米切尔自己关于类比制作的研究也有一个有趣的例子。如果 abc 改为 abd,应该如何改变 pqrs。大多数人会回答 pqrt (将最后一个字母替换为字母表中的后续字母)。但是还有其他可能的答案,比如 pqrd (将最后一个字母替换为 d)。学习编写能够自动执行这类任务的程序的尝试是非常有趣的。最后,该书还列出十个米切尔对人工智能未来的问题及回答。

阅读剩余
THE END