• 大洋洲有哪些国家,澳大利亚在大洋洲面积最大

  • 联邦学习 算法详解与系统实现》薄列峰,(美)黄恒,顾松庠,陈彦卿著|(epub+azw3+mobi+pdf)电子书下载

    图书名称:《联邦学习算法详解与系统实现》【作者】薄列峰,(美)黄恒,顾松庠,陈彦卿著【丛书名】智能科学与技术丛书【出版社】北京:机械工业出版社,2022.04【ISBN号】978-7-111-70349-5【价格】99.00【分类】机器学习【参考文献】薄列峰,(美)黄恒,顾松庠,陈彦卿著.联邦学习算法详解与系统实现.北京:机械工业出版社,2022.04.图书封面:图书目录:《联邦学习算法详解与系统实现》内容提要:本书将从联邦学习概念、应用场景到具体的先进算法,再到系统实现,对该技术进行全盘梳理与总结……《联邦学习算法详解与系统实现》内容试读第一部分联邦学习基础知识CHAPTERI第章联邦学习概述随着人们对个人隐私泄露的担忧以及相关法律法规的出台,传统的人工智能技术急需适应新形势、新情况。联邦学习(FederatedLearig,FL)作为其中一种技术上的解决方案备受学术界和工业界人士的关注。本章将对联邦学习进行全面的介绍,以期达到服务大众、服务读者的目的1.1什么是联邦学习2016年是人工智能(ArtificialItelligece,AI)成熟的一年。随着AlhaGo击败人类顶级围棋手,我们真正见证了人工智能的巨大潜力,并开始期待更复杂、更尖端的人工智能技术可以应用在更多的领域,包括无人驾驶、生物医疗、金融等。如今,人工智能技术在各行各业都显示出了优势。最新的AlhaFold2技术甚至可以预测35万种蛋白质结构,这些结构涵盖了98.5%的人类蛋白质组。然而,这些技术的成功大都以大量的数据为基础。比如计算机视觉领域中图像分类、目标检测等技术的发展离不开众多大规模的图片数据集,如ImageNet、COCO和PASCALVOC。在自动驾驶领域,众多国内外厂商积累了数十万公里的道路测试数据。AlhaGo在2016年总共使用了30万场游戏的数据作为训练集。随着AlhaGo的成功,人们自然希望像AlhaGo这样的由大数据驱动的人工智能技术能够很快在生活中应用起来。然而,现实有些令人失望:除了少数行业,大多数领域只拥有有限的数据或质量较差的数据,这使A虹技术的落地比我们想象的更困难。是否可以通过跨组织传输数据,将数据融合在一个公共站点中呢?事实上,在许多情况下,打破数据源(数据拥有者)之间的障碍是非常困难的,甚至是不可能的。一般来说,任何A虹项目所需的数据都包含多种类型。例如,在人工智能技术驱动的产品推荐服务中,产品销售者拥有产品信息、用户购买数据,但没有描述用户购买能力和支付习惯的数据。在大多数行业中,数据以孤岛的形式存在。由于行业竞争、隐私安全、复杂的管理程序等,即使是第1章联邦学习概述3同一公司不同部门之间的数据集成也面临着巨大的阻力,要整合分散在全国各地的数据和机构几乎是不可能的,或者在成本上是不可行的。与此同时,随着越来越多的公司意识到损害数据安全和用户隐私的严重性,数据隐私和安全己成为全球性的重大问题。公共数据泄露的相关新闻引起了公共媒体和政府的极大关注,如2018年国外某社交网站的数据泄露事件引发了广泛关注。作为回应,世界各国都在完善保护数据安全和隐私的法律。例如,欧盟于2018年5月25日实施的《通用数据保护条例》(GeeralDataProtectioRegulatio,GDPR)。GDPR(见图l-l)旨在保护用户的个人隐私和数据安全,要求企业在用户协议中使用清晰明了的语言,并授予用户“被遗忘权”,即用户的个人数据可以被删除或撤销,违反该条例的公司将面临高额罚款。我国也在实施类似的隐私和安全措施。例如,我国于2017年颁布的《网络安全法》和《民法通则》规定,互联网企业不得泄露或篡改其收集的个人信息,在与第三方进行数据交易时,需要确保拟议的合同遵守数据保护法律义务。这些法规的建立显然有助于建立个更文明的社会,但也对人工智能中常用的数据交易程序提出了新的挑战。GDPR2衫My2010图1-1GDPR具体来说,人工智能中的传统数据处理模型往往涉及简单的数据交易模型,一方收集用户数据并将数据传输给另一方,另一方负责清理和融合数据。最后,第三方将利用集成的数据来建立模型以供其他方使用。模型通常作为服务出售的最终产品。这一传统的流程面临上述新的数据法规的挑战。此外,由于用户可能不清楚这些模型的未来用途,这些交易可能会违反GDPR等法律法规的规定。结果,数据使用方会面临这样一个困境一数据以孤岛的形式存在,但在很多情况下,数据使用方被禁止收集、融合或者将数据传输给其他组织或个人进行AI处理。因此,如何合法合规地解决数据碎片化和孤岛问题,是人工智能研究人员和从业者将要面临的一个重要挑战。1.1.1联邦学习的发展历史联邦学习这个术语是由McMaha等人在2016年的论文中引入的:我们将我们的方法称为联邦学习,因为学习任务是通过由中央服务器协调的参与方设备(我们称之为客户机,即Cliet)的松散联邦来完成的。联邦学习:算法详解与系统实现跨大量通信带宽有限的不可靠设备的一些不平衡且非独立同分布(IdeedetlyadIdeticallyDitriuted,IID)数据的划分是联邦学习面临的挑战。在联邦学习这个术语出现之前,一些重要的相关工作已经开展。许多研究团体(来自密码学、数据库和机器学习等多个领域)追求的一个长期目标是分析和学习分布在许多所有者之间的数据,而不泄露这些数据。在加密数据上计算的加密方法始于20世纪80年代早期(参考Rivet等人于l982年发表的文章),Agrawal、Srikat和Vaidya等人是早期尝试使用集中式服务器从本地数据中学习并同时保护隐私的典范。相反,即使自引入联邦学习这个术语以来,我们也没有发现任何一项研究工作可以直接解决FL面临的所有挑战。因此,术语“联邦学习”为这些经常在隐私敏感的分布式数据(又称中心化数据)的机器学习(MachieLearig,ML)应用问题中共同出现的特征、约束和挑战等提供了方便的简写。在联邦学习领域,许多开放式挑战的一个关键属性是,它们本质上是跨学科的。应对这些挑战可能不仅需要机器学习,还需要分布式优化、密码学、安全性、差分隐私、公平性、压缩感知、信息理论、统计学等方面的技术。许多最棘手的问题都处在这些学科的交叉点上,因此我们相信,各领域专家之间的协作对联邦学习的持续发展至关重要。联邦学习最开始被提出时,在移动和边缘设备等应用场景备受关注。之后,联邦学习的应用场景越来越多,例如,多个组织协同训练一个模型。联邦学习的上述相关变化引申出更广泛的定义。定义联邦学习是一种机器学习设置,其中多个实体(客户端)在中央服务器或服务提供商的协调下协同解决机器学习问题。每个客户端的原始数据都存储在本地,并且不会交换或直接传输;取而代之的是,使用旨在即时聚合的有针对性的更新迭代来实现学习目标。有针对性的更新是指狭义的更新,以包含特定学习任务所需的最少信息;在数据最小化服务中,尽可能早地执行聚合操作。虽然对数据隐私保护的研究已经超过50年,但在最近l0年才有广泛部署的大规模解决方案(例如Raor)。跨设备联邦学习和联邦数据分析正在应用于消费数字产品中。例如Goard移动键盘以及Pixel手机和AdroidMeage中广泛使用了联邦学习;又例如在iOS13中,跨设备FL被应用于QuickTye键盘和Si的声音分类器等应用中。跨信息孤岛的一些应用在各领域提出,包括金融风险预测、药物发现、电子健康记录挖掘、医疗数据分割和智能制造。对联邦学习技术不断增长的需求激发了许多工具和框架的出现,包括TeorFlowFederated、FATE(FederatedAITechologyEaler)、PySyft、Leaf、PaddleFL和ClaraTraiigFramework等。关于各种框架之间的异同,读者可参考Kairouz等人2019年发表的综述。一些成熟的技术公司和较小的初创公司也正在开发利用联邦学习技术的商业数据平台。1.1.2联邦学习的工作流程在介绍联邦学习(FL)的训练过程之前,我们先考虑一个FL模型的生命周期。F工过程通常是由为特定应用程序开发模型的工程师驱动的。例如,自然语言处理领域的专家第1章联邦学习概述5可以开发一个用于虚拟键盘的下一个单词预测模型。图1-2显示了联邦学习的主要组件和参与者。从更高层次上看,典型的工作流程如下。管理员模型测试客户端服务器端模型部署分发联邦学习工程师回和分析师图1-2FL模型生命周期和联邦学习系统参与者口问题识别:模型工程师识别出需要用FL解决的问题。口客户端检测:如果需要的话,客户端(例如手机上运行的应用程序)将在本地存储必要的训练数据(有时间和数量限制)。在很多情况下,应用程序已经存储了这些数据(例如,一个短信应用程序已经存储短信,一个照片管理应用程序已经存储照片)。然而,在某些情况下,可能需要维护额外的数据或元数据,例如用户交互数据,以便为监督学习任务提供标签。口仿真原型(可选):模型工程师可以使用代理数据集在FL模拟中对模型架构进行原型化并测试学习超参数。口联邦模型训练:启动多个联邦训练任务来训练模型的不同变体,或使用不同的超参数优化。口联邦模型评估:在任务得到充分训练之后(通常是几天),对模型进行分析并选择合适的候选者。模型分析可能包括在数据中心的标准数据集上计算指标或者联邦评估,其中模型被推送到保留的客户端,以对本地客户端数据进行评估。口部署:最后,一旦一个好的模型被选中,它将经历一个标准的模型发布过程,包括手动质量保证、实时A/B测试(通常是在一些设备上使用新模型,在其他设备上使用上一代模型来比较它们的性能),以及阶段性推出(以便在影响太多用户之前发现和回滚不良行为)。模型的特定启动过程是由应用程序的所有者设置的,通常与模型是如何训练的无关。换句话说,这个步骤同样适用于经过联邦学习或传统数据中心方法训练的模型。FL系统面临的主要挑战之一是如何使上述工作流程尽可能简单,理想地接近集中训练(CetralizedTraiig)的ML系统所达到的易用性。6联邦学习:算法详解与系统实现接下来,我们将详细介绍一种常见的FL训练过程,它可以涵盖McMaha等人提出的联邦平均(FederatedAveragig)算法和许多其他算法。服务器(服务提供者)通过重复以下步骤来安排训练过程,直到训练停止(由监视训练过程的模型工程师自行决定):口客户端选择:服务器从满足资格要求的一组客户端中抽取样本。例如,为了避免影响正在使用设备的用户,手机可能只有在插电、使用不计流量的WF连接且处于空闲状态时才会连接到服务器。口广播:选定的客户端从服务器下载当前的模型权重和一个训练程序(例如Teor-FlowGrah).口客户机计算:每个选定的设备通过在本地执行训练程序对模型进行更新,例如,训练程序可以在本地数据上运行SGD(如FederatedAveragig算法)。口聚合:服务器对设备的更新进行聚合。为了提高效率,一旦有足够数量的设备报告了结果,可能会删除掉队的设备。这一阶段也是许多其他技术的集成点,这些技术将在后面讨论,可能包括用于增强隐私的安全聚合、用于提高通信效率而对聚合进行的有损压缩,以及针对差分隐私的噪声添加和更新裁剪。口模型更新:服务器基于从参与当前轮次的客户端计算出的聚合更新,在本地更新共享模型。客户机计算、聚合和模型更新阶段的分离并不是联邦学习的严格要求,但它确实排除了某些算法类,例如异步SGD,即在使用其他客户机的更新进行任何聚合之前,每个客户机的更新都立即应用于模型。这种异步方法可能会简化系统设计的某些方面,而且从优化角度来看也是有益的。然而,上述训练过程在将不同研究方向分开考虑时具有很大的优势:压缩、差分隐私和安全多方计算的进步可以用于基础操作,如通过去中心化更新的方法计算和或均值,然后由任意优化或分析算法组合,只要这些算法以聚合操作的形式表示即可。值得强调的是,联邦学习的训练过程不应该影响用户体验。首先,如上所述,尽管模型参数通常会在每一轮联邦训练的广播阶段被发送到一些设备上,但这些模型只是训练过程中的一部分,不用于向用户显示实时预测。这是至关重要的,因为训练ML模型是具有挑战性的,而且一个超参数的错误配置可能产生一个做出错误预测的模型。相反,用户可见的模型使用被推迟到模型生命周期的第6步“部署”中的阶段性推出过程中。其次,训练本身是对用户不可见的,如在客户端选择步骤中描述的那样,训练不会使设备变慢或耗尽电池,因为它只在设备空闲和连接电源时执行。然而,这些限制所带来的有限可用性直接导致开放式的研究挑战,如半循环数据可用性(Semi-CyclicDataAvailaility)和客户端选择中可能存在的偏见。1.1.3联邦学习的分类根据样本和特征的分布方式不同,我们可以将联邦学习划分为两类:横向联邦学习···试读结束···...

    2023-05-15 联邦国际快递 联邦快递单号查询

  • 亚洲陆地面积是大洋洲的几倍

    1、亚洲陆地面积是4400万平方千米,而大洋洲的陆地面积大约是900万平方千米,因此亚洲陆地面积是大洋洲陆地面积的4倍还多800平方千米,大约占世界陆地总面积的6%。2、亚洲(字源古希腊语:Ασία;拉丁语:Aia)曾译作“亚细亚洲”和“亚西亚洲”,是七大洲中面积最大、人口最多的一个洲,它覆盖了地球总面积的8.7%(或占总面积的29.4%)。点评:...

    2023-02-21 大洋洲平方千米 大洋洲每平方千米人口数多少

  • 联邦通信委员会的裁决让Verizon批准将新手机锁定60天

    联邦通信委员会的裁决要求Verizo同意将新手机锁定60天,以防止客户在购买新手机后立即将其解锁并将其转售给其他人。此裁决旨在确保客户在购买新手机时能够享受最大的灵活性,以及最大限度地保护他们的投资。早在2月份,Verizo就要求联邦通信委员会允许它将所有销售的新手机SIM卡锁定60天。当时,该国最大的航空公司表示,它要求这样做可以保护其客户免受欺诈和身份盗用。由于该公司是美国四大无线运营商中唯一一家在售出手机时解锁手机的公司,Verizo表示,它担心犯罪分子正在集中精力利用其用户。Verizo向FCC提出了要求,因为犯罪分子窃取了客户的身份并订购了他们无意支付的电话。一旦坏人收到这些手机,他们就可以使用SIM卡连接兼容的无线服务提供商。今天,美国联邦通信委员会宣布,它正在批准Verizo将其手机锁定60天,以便它可以对其销售的每部手机进行欺诈安全检查。60天后,手机会自动解锁。Verizo执行副总裁RoaDue今天在一份声明中表示,新政策将很快生效。邓恩表示,新政策对合法的Verizo用户影响不大。“Verizo计划实施一个为期60天的短期欺诈安全检查期,该期限将很快生效。在60天后,手机将自动解锁。这意味着订购和窃取手机的欺诈者-显然无意付费给他们的时间会更加困难。即使有了这些保障措施,Verizo仍然会拥有业界最友好的解锁政策,而且我们认为对合法客户使用他们设备的能力影响很小。“-Verizo执行副总裁RoaDueVerizo重申了它在向美国联邦通信委员会提出原始请求时在二月份做出的评论,并表示它仍然拥有“业内最受消费者欢迎的解锁政策”。由于2008年赢得了联邦通信委员会的拍卖,Verizo被迫在销售后立即解锁手机。该运营商以47.4亿美元收购了CBlock的700MHz频谱。根据FCC关于拍卖的规则,CBlock频谱的获胜者不能“拒绝,限制或限制其客户在被许可人的CBlock网络上使用他们选择的设备和应用程序的能力”。尽管Verizo提交了法庭文件试图阻止联邦通信委员会强制其遵循开放平台规则,但谷歌能够让运营商同意遵守它们。点评:Verizo提出了将手机SIM卡锁定60天的要求,以保护其客户免受欺诈和身份盗用。美国联邦通信委员会批准了这一要求,并表示它仍然拥有“业内最受消费者欢迎的解锁政策”。Verizo之所以在销售后立即解锁手机,是因为它在2008年赢得了联邦通信委员会的拍卖,而谷歌能够让运营商同意遵守它们。...

    2023-02-21 verizon 通信人家园 verizon通信

  • 联邦法院挑战与改革波斯纳PDF版完整版|百度网盘下载

    编辑评论:联邦法院的挑战和改革PoerPDF《联邦法院:挑战与改革》的作者理查德·A·波斯纳基于大量数据,通过实证分析指出,美国联邦法院制度是由1950年代以来的司法工作量。一系列的变化,并提出了应对的改革措施,小编为大家准备了《联邦法院挑战与改革波斯纳》的PDF版,欢迎下载简介《联邦法院:挑战与改革》基于大量数据,通过实证分析,指出自1950年代以来司法工作量急剧增加导致美国联邦法院系统发生的一系列变化,并提出相应的改革措施。关于作者波斯纳(1939-),毕业于耶鲁大学(1959)和哈佛法学院(1962)文学专业。他曾担任最高法院大法官助理、政府律师、斯坦福大学法学院副教授、芝加哥大学法学院教授和讲座教授。自1981年以来,他一直在美国第七巡回上诉法院任职(首席法官1993-2000),同时也是芝加哥大学法学院的高级讲师。“他是有史以来最多产的联邦法官。他也是上诉法院最多产的法学家之一,并且仍然是最多产的法学家之一。如果你用引用率来衡量影响力,那么波斯纳是最多产的在世法学家。有影响力的法学家”(Leig)。相关内容部分预览目录:一级学位第一章联邦法院的组织结构基本结构法官与州法院的比较第二章联邦法院的管辖权二次编辑挑战3案件负担的增长案件负担...工作负担最高法院案件负担和工作负担是悲观的论点吗?第4章为什么案件量会如此增加案件量增长的模型地区法院上诉法院最高法院第5章后果:联邦法院系统扩展...更多法官,更努力法律助理的崛起第六章...同时,简化法院系统压缩口头辩论无评论复审标准,走向“规则控制”的趋势,简单的处罚标题III渐进式改革第七章症状策略增加费用根据不同的公民身份限制或取消管辖权rgt加强管理替代性争议解决律师改革第八章专门法院专门第三条法院重新思考行政审查gt第四章基本改革第九章联邦法院在联邦制度联邦管辖权的最佳范围具体案件负担分析第10章Feder司法克制有原则的司法裁判司法能动主义与司法自我约束的意义及后果自我控制及其他的棘轮效应第十一章联邦司法技术地区法官联邦上诉法官责任制度重新审视规则和标准遵循先例...

    2022-05-06 美国联邦法院法官 联邦法院法官

  • 《智能系统与技术丛书 深入浅出联邦学习 原理与实践》王健宗,李泽远,何安珣作|(epub+azw3+mobi+pdf)电子书下载

    图书名称:《智能系统与技术丛书深入浅出联邦学习原理与实践》【作者】王健宗,李泽远,何安珣作【丛书名】智能系统与技术丛书【页数】189【出版社】北京:机械工业出版社,2021.04【ISBN号】978-7-111-67959-2【分类】机器学习【参考文献】王健宗,李泽远,何安珣作.智能系统与技术丛书深入浅出联邦学习原理与实践.北京:机械工业出版社,2021.04.图书封面:联邦学习原理与实践》内容提要:这是一本从基础、原理、实战、拓展4个维度系统讲解联邦学习的著作。作者是人工智能领域的资深专家,现任某大型金融集团科技公司联邦学习团队负责人,这本书不仅得到了中外院士的联合推荐,而且得到了来自清华大学、华中科技大学、百度、蚂蚁集团、同盾科技等学术界和企业界的专家的一致推荐。全书共9章,分为4个部分。第1部分基础(第1-2章)主要介绍了联邦学习的概念、由来、发展历史、架构思想、应用场景、优势、规范与标准、社区与生态等基础内容,帮助读者建立对联邦学习的感性认知。第二部分原理(第3-5章)详细讲解了联邦学习的工作原理、算法、加密机制、激励机制等核心技术,为读者进行联邦学习实践打好理论基础。第三部分实战(第6-7章)主要讲解了PySyft、TFF、CryTe等主流联邦学习开源框架的部署实践,并给出了联邦学习在智慧金融、智慧医疗、智慧城市、物联网等领域的具体解决方案。第四部分拓展(第8-9章)概述了联邦学习的形态、联邦学习系统架构、当前面临的挑战等,并探讨了联邦学习的发展前景和趋势。《智能系统与技术丛书深入浅出联邦学习原理与实践》内容试读第一部分基础第1章联邦学习的前世今生第2章全面认识联邦学习CHAPTERI第1章联邦学习的前世今生联邦学习作为一种强调数据安全和隐私保护的分布式机器学习技术,在大数据与人工智能广泛发挥作用的背景下,受到具有数据监管和隐私保护需求行业的广泛关注。本章将主要介绍联邦学习的由来、发展历程及现状,并详细阐释联邦学习涉及的技术门类以及现有的生态与标准。1.1联邦学习的由来人工智能自1956年在达特茅斯会议上被正式提出以来,经历了三轮发展浪潮。第三轮浪潮起源于深度学习技术,并实现了飞跃。人工智能技术不断发展,在不同前沿领域体现出强大活力。然而,现阶段人工智能技术的发展受到数据的限制。不同的机构、组织、企业拥有不同量级和异构的数据,这些数据难以整合,形成了一座座数据孤岛。当前以深度学习为核心的人工智能技术,囿于数据缺乏,无法在智慧零售、智慧金融、智慧医疗、智慧城市、智慧工业等更多生产生活领域大展拳脚。大数据时代,公众对于数据隐私更为敏感。为了加强数据监管和隐私保护,确保个人数据作为新型资产类别的法律效力,欧盟于2018年推行《通用数据保护条例》(GDPR)。中国也在不断完善相关法律法规以规范数据的使用,例如,2017年实施《中华人民共和国网络安全法》和《中华人民共和国民法总则》,2019年推出《互联网个人信息安第1章联邦学习的前世今生3全保护指南》,2020年推出《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见(中华人民共和国个人信息保护法(草案)》等。这些法律条目都表明,数据拥有者需要接受监管,具有保护数据的义务,不得泄露数据。目前,一方面,数据孤岛和隐私问题的出现,使传统人工智能技术发展受限,大数据处理方法遭遇瓶颈;而另一方面,各机构、企业、组织所拥有的海量数据又有极大的潜在应用价值。于是,如何在满足数据隐私、安全和监管要求的前提下,利用多方异构数据进一步学习以推动人工智能的发展与落地,成为亟待解决的问题。保护隐私和数据安全的联邦学习技术应运而生。1.2联邦学习的发展历程人工智能自被正式提出以来,经历了60多年的演进过程,现已成为一门应用广泛的前沿交叉学科。机器学习作为人工智能最重要的分支之一,应用场景丰富,落地应用众多。随着大数据时代的到来,各行各业对数据分析的需求剧增,大数据、大模型、高计算复杂度的算法对机器的性能提出了更高的要求。在这样的背景下,单机可能无法很好地完成数据庞大、计算复杂度高的大模型训练,于是分布式机器学习技术应运而生。分布式机器学习使用大规模的异构计算设备(如GPU)和多机多卡集群进行训练,目标是协调和利用各分布式单机完成模型的快速迭代训练。但是,之前传统的分布式机器学习技术需要先将集中管理的数据采取数据分块并行或者模型分块并行的方式进行学习,同样面临着数据管理方数据泄露的风险,这在一定程度上制约了分布式机器学习技术的实际应用和推广。如何结合数据隐私保护与分布式机器学习,在保证数据安全的前提下合法合规地开展模型训练工作,是目前人工智能领域的研究热点问题之一。联邦学习技术在数据不出本地的前提下对多方模型进行联合训练,既保证了数据安全和隐私,又实现了分布式训练,是解决人工智能发展困境的可行途径。第一部分基础本节将主要介绍联邦学习的发展历程。首先,由于联邦学习本质上属于一种分布式机器学习技术/框架的延伸,因此本节将简要介绍机器学习与分布式机器学习的概念和重要的发展节点;其次,由于联邦学习使用了很多数据隐私保护领域的研究成果,因此本节会介绍隐私保护相关研究的历程;最后,本节将概述正处于成长阶段的联邦学习发展过程。1.机器学习机器学习的提出与发展可以追溯到20世纪40年代。早在1943年,WarreMc-Culloch和WalterPitt就在其论文“Alogicalcalculuoftheideaimmaetierv-ouactivity”⊙中描述了神经网络的计算模型。该模型借鉴了生物细胞的工作原理,试图对大脑思维过程加以仿真,引起了许多学者对神经网络的研究兴趣。1956年达特茅斯会议正式提出人工智能概念。短短3年后,ArthurSamuel就给出了机器学习的概念。所谓机器学习,就是研究和构建一种特殊算法(而非某一个特定的算法),能够让计算机自己在数据中学习从而进行预测。然而,由于当时的神经网络设计不当、要求进行数量庞大的计算,再加上硬件计算能力的限制,神经网络被认为是不可能实现的,机器学习的研究长期陷入停滞。直到20世纪90年代,随着云计算、异构计算等高新技术的发展,许多传统的机器学习算法被提出,并取得了良好的效果。l990年,RoertSchaire发表论文“Thetregthofweaklearaility'”e,文中提出弱学习集可以生成强学习,推动了机器学习领域使用Bootig算法;l995年,CoriaCorte和Vaik发表论文“Suort-vectoretwork”©,提出支持向量机的模型;2Ool年,Breima发表论文“Radomforet'”⑧,提出随机森林算法。随着深层网络模型和反向传播算法的提出,神经网络也重回研究视野,进入繁荣发展阶段。McCullochWS,PittW.Alogicalcalculuoftheideaimmaetiervouactivity[J].Theulletiofmathematicaliohyic,1943,5(4):115-133.SchaireRE.Thetregthofweaklearaility[J].Machielearig,1990,5(2):197-227.自CorteC,VaikV.Suort-vectoretwork[J].Machielearig,1995,20(3):273-297.BreimaL.Radomforet[J].Machielearig,2001,45(1):5-32.第1章联邦学习的前世今生52.分布式机器学习至今,机器学习已经发展出了很多分支,应用范围也越来越广泛。然而,随着数据量的持续增长,模型复杂度不断提高,单机节点无法承载大量的数据信息和计算资源,主流机器学习的发展遇到瓶颈。为了解决大数据训练慢的难题,分布式机器学习被提出。分布式机器学习技术将庞大的数据和计算资源部署到多台机器上,以提高系统的可扩展性和计算效率。实现分布式的核心问题是如何进行数据的存储和数据的并行处理,当前主要的分布式数据处理技术主要基于Google提出的分布式文件存储和任务分解处理的思想。Google在2003年和2004年分别发表两篇关于Google分布式文件系统(GFS)和任务分解与整合(MaReduce)的论文,并公布了其中的细节。基于这些核心思想,多家企业、科研机构开发了相应的大数据计算、大数据处理与分布式机器学习的平台。大数据计算与处理方面常见的平台有Hadoo、Sark和Flik等。Hadoo分布式系统的基础架构在2005年由Aache实现,其中的HDFS分布式文件系统为海量数据提供了存储空间,MaReduce为海量数据提供了计算支持,有效提高了大数据的处理速度。Sark平台则由加州大学伯克利分校AMP实验室开发,以数据流应用为主,扩展了MaReduce的应用。Flik是一种同时支持高吞吐、低延迟、高性能的分布式处理框架,近些年来被越来越多的国内公司所采用。分布式机器学习训练分为数据并行和模型并行两种。数据并行是更常用的分布式训练方案,在这种方式下,所有设备自行维护一份参数,输人不同的数据,反向传播的时候通过AllReduce方法同步梯度,但是对于太大的模型不适用。由于数据并行会出现模型过大的情况,模型并行的方案被提出。模型并行主要包括层内并行和层间并行两种,但它们会有参数同步和更新的问题,对此业内正在探索更加高效的自动并行方法,尝试通过梯度压缩的方式来减少参数的通信量等。随着分布式技术的发展,一些机器学习/深度学习框架纷纷宣布支持分布式。2013年年底,由卡内基梅隆大学邢波教授主导的机器学习研究小组开源Petuum平台,旨在提高并行处理效率。主流深度学习框架TeorFlow和PyTorch分别于2016年和2019第一部分基础年开始支持分布式运行和分布式训练。2017年1月,由亚马逊选定的官方开源平台MXNet及其项目进人Aache软件基金会。MXNet支持多种语言和快速模型训练。2o18年3月,百度开源依托云端的分布式深度学习平台PaddlePaddle。2018年10月,华为推出一站式AI开发平台ModelArt,其中集成了MoXig分布式训练加速框架。MoXig构建于开源的深度学习引擎TeorFlow、MXNet、PyTorch、Kera之上,使得这些计算引擎的分布式性能更高,易用性更好。2019年1月,英特尔开源其分布式深度学习平台Nauta,该平台提供多用户的分布式计算环境,用于进行深度学习模型训练实验。3.隐私保护技术如何在数据传输中保护数据的隐私安全,一直是密码学领域的一大研究热点。早在1982年,姚期智院士就提出了“百万富翁问题”,即两个百万富翁都想知道谁更富有,但都不愿意将自己的财富数字透露给对方,双方如何在不借助第三方的前提下获得这个问题的答案。由这个问题引申出了安全多方计算的研究领域。具体来说,该领域探讨设计的协议是解决一组互不信任的参与方之间如何在保护隐私信息且没有可信第三方的前提下协同计算的问题。目前已有多个安全多方计算框架,涉及的密码学技术有混淆电路、秘密共享、同态加密、不经意传输等。混淆电路针对双方安全计算,其思想是,将共同计算的函数转化为逻辑电路,对电路的每一个门都进行加密并打乱,从而保证计算过程中不会泄露原始输入和中间结果,双方根据各自的输入,对每个电路逻辑门的输出进行解密,直到获得答案。秘密共享的思想是,将需要保护的秘密按照某些适当的方式拆解并交予不同的参与方管理,只有一同协作才能恢复秘密消息。同态加密的思想由Rivet在1978年提出,之后Getry又在其2009年发表的论文“Fullyhomomorhicecrytiouigideallattice”e中引申出全同态加密。全同态加密是指同时满足加同态和乘同态性质、可以进行任意多次加与乘运算的加密函数,通过这样的函数保障,经过同态加密处理的数据在解密后,其输出等于未加密原始数据经过同样操作后的输出。不经意传输则强调通信双方以一种GetryC.Fullyhomomorhicecrytiouigideallattice[C]//Proceedigoftheforty-firtaualACMymoiumoTheoryofcomutig.2009:169-178.···试读结束···...

    2022-05-04 深入浅出陆行夏寒全文免费阅读xyping 小说 深入浅出的近义词

学习考试资源网-58edu © All Rights Reserved.  湘ICP备12013312号-3 
站点地图| 免责说明| 合作请联系| 友情链接:学习乐园