《计算机视觉》双锴编著|(epub+azw3+mobi+pdf)电子书下载

图书名称:《计算机视觉》

【作 者】双锴编著
【丛书名】数据科学与大数据技术专业教材丛书
【页 数】 171
【出版社】 北京:北京邮电大学出版社 , 2020.01
【ISBN号】978-7-5635-5946-6
【分 类】计算机视觉
【参考文献】 双锴编著. 计算机视觉. 北京:北京邮电大学出版社, 2020.01.

图书封面:

图书目录:

《计算机视觉》内容提要:

本书主要探讨当前计算机视觉方面的前沿问题,特别关注于深度学习在计算机视觉领域的应用。内容包括:图像的表示;特征提取;神经网络;物体分类与识别等。

《计算机视觉》内容试读

安高贤陈除草子

千的项1神

的南为马划“以

第1章

四民及情安

绪论

随日4只果为的四同南股在男增件本四

本章思维导图

作为人类,我们可以轻松感知周围的三维世界。相比之下,不管近年来计算机视觉已经取得多么令人瞩目的成果,要让计算机能像人类那样理解和解释图像,却仍然是一个遥远的梦想。为什么计算机视觉会成为如此富有挑战性的难题?它的发展历史与现状又是怎样的?本章将对计算机视觉的发展简史及应用现状进行介绍。

深度学习概念的提出

GPU与并行技术一深度学习和计算机视觉发展的加速器GPU成为深度学习主流选择

GPU种类特点及选择

图像分类简介

深度学习在计算机视觉领城的发展综述

物体检测简介

人脸识别简介

基于卷积神经网络的计算机视觉应用图像搜索简介

图像分割简介

视频分析简介

其他应用■

绪论

背景介绍计算机视觉定义

计算机视觉简史计算机视觉发展史

计算机视觉发展近况及代表会议

2012年—计算机视觉发展的新起点SVRC比赛初期情况

AlexNet的出现及卷积神经网络

让计算机拥有一双眼睛一计算机视觉綜述

安防应用简介

交通应用简介工业生产应用简介在线购物应用简介

计算机视觉应用信息检索应用简介

游戏娱乐应用简介摄影摄像应用简介机器人/无人机应用简介

明面

体育应用简介

医疗应用简介

1112

·1…

计算机视觉COMPUTER VISION

1.1计算机视觉简史

都说“眼睛是心灵的窗口”,乍一听觉得只是一个很好听的比喻,但仔细想想,视觉对于人类的重要性是不言而喻的。现代的科学研究也表明,人类的学习和认知活动有80%~85%都是通过视觉完成的。也就是说,视觉是人类感受和理解这个世界的最主要的手段。在当前机器学习成为热门学科的背景下,人工智能领域自然也少不了视觉的相关研究,这即是本书将要介绍的计算机视觉。

计算机视觉(Computer Vision)顾名思义是一门“教”会计算机如何去“看”世界的学科。计算机视觉与自然语言处理(Natural Language Process,NLP)及语音识别(Speech

Recognition)并列为机器学习方向的三大热点方向。而计算机视觉也由诸如梯度方向直方图(Histogram of Gradient,.HOG)以及尺度不变特征变换(Scale-Invariant Feature

Transform,SIFT)等传统的手动提取特征(Hand-Crafted Feature)与浅层模型的组合(如图l-1所示)逐渐转向了以卷积神经网络(Convolutional Neural Network,CNN)为代表的深度学习模型。然而计算机视觉正式成为一门学科,则要追溯到1963年美国计算机科学家拉里·罗伯茨在麻省理工大学的博士毕业论文“Machine Perception of Three-Dimensional

Solids'[山。加拿大科学家大卫·休伯尔(David Hubel)和瑞典科学家托斯坦·维厄瑟尔(Torsten Wiesel)从l958年起通过对猫视觉皮层的研究,提出在计算机的模式识别中,和生物的识别类似,边缘是用来描述物体形状的关键信息。拉里在论文中根据上述研究,通过对

输人图像进行梯度操作,进一步提取边缘,然后在3D模型中提取出简单形状结构,之后利

用这些结构像搭积木一样去描述场景中物体的关系,最后获得从另一角度看图像物体的渲染图。在拉里的论文中,从二维图像恢复图像中物体的三维模型的尝试,正是计算机视觉和传统图像处理学科思想上最大的不同:计算机视觉的目的是让计算机理解图像的内容。所以这算是与计算机视觉相关的最早的研究。

特征表达

学习算法

如SIFT,HoG等

图1-1传统的手动提取特征与浅层模型的组合

20世纪70年代:从有了计算机视觉的相关研究开始,一直到20世纪70年代,人们关心的热点都偏向图像内容的建模,如三维建模、立体视觉等。比较有代表性的弹簧模型☒(Pictorial Structure,如图l-2所示)和广义圆柱体模型(Generalized Cylinder,如图l-2所示)就是在这个时期被提出来的。那个时期将视觉信息处理分为三个层次:计算理论、表达和算法、硬件实现。在如今看来,或许有些不合理,但是却将计算机视觉作为了一门正式学科的研究。而且其方法论到今天仍然是表达和解决问题的好向导。

。2

第1章。绪论

头发

000m

000

000

左边界

右边界

000

(a)弹簧模型

6)广义圆柱

图1-21弹簧模型与广义圆柱

20世纪80年代:在视觉计算理论提出后,计算机视觉在20世纪80年代进人了最蓬勃发展的一个时期。主动视觉理论和定性视觉理论等都在这个时期被提出,这些理论认为人类的视觉重建过程并不是马尔理论中那样直接,而是主动的、有目的性和选择性的。同时从20世纪80年代起,这个学科开始慢慢脱胎于神经科学,更多偏重计算和数学的方法开始发展起来,相关的应用也变得更加丰富。著名的图像金字塔和Canny边缘检测算法在这个时期被提出,图像分割和立体视觉的研究在这个时期也蓬勃发展,当然还有和本书更紧密的基于人工神经网络的计算机视觉研究,尤其是模式识别的研究也伴随着人工神经网络的第一次复兴变得红火起来。

20世纪90年代:进人20世纪90年代,伴随着各种机器学习算法的全面开花,机器学习开始成为计算机视觉,尤其是识别、检测和分类等应用中一个不可分割的重要工具。各种识别和检测算法迎来了大发展。尤其是人脸识别在这个时期迎来了一个研究的小高潮。各

种用来描述图像特征的算子也不停地被发明出来,如耳熟能详的SFT)算法就是在20世

纪90年代末被提出的。另外伴随着计算机视觉在交通和医疗等工业领域的应用越来越多,其他一些的基础视觉研究方向,如跟踪算法、图像分割等,在这个时期也有了一定的发展。

21世纪:进入21世纪之后,计算机视觉已经俨然成为计算机领域的一个大学科。国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern

Recognition,CVPR)和ICCV等会议已经是人工智能领域,甚至是整个计算机领域内的大型盛会,甚至出现了一些新的子方向,如计算摄影学(Computational Photography).等。在传统的方向上基于特征的图像识别成了一个大热门,斯坦福大学的李飞飞教授牵头创立了一个非常庞大的图像数据库ImageNet。ImageNet里包含1400万张图像,超过20000个类别。基于这个数据库,自2010年开始,每年举办一次的大规模视觉识别挑战比赛(ImageNet Large Scale Visual Recognition Challenge,ILSVRC),采用了ImageNet里1Ooo个子类目的超过120万张图片作为数据,参赛者来自世界各国的大学、研究机构和公司,成为了计算机视觉领域最受关注的事件之一。图1-3为计算机视觉领域最活跃的主题时间轴。

·3…

计算机视觉COMPUTER VISION

20世纪70年代

20世纪80年代

20世纪90年代

21世纪

图像处理保视觉对应图像

物理的建模尔曼滤波距离数据投影不变量分解物理的视能量的分识别和检方法合成与修图摄影学特征的识别鲜糖

条标注

变焦到

图像的建模和绘制

图1-3计算机视觉领域最活跃的主题时间轴

若想详细了解论文“Machine Perception of Three-Dimensional

Solids'”,请扫描书右侧的二维码。

▣3

1.22012年一计算机视觉发展的新起点论文“Machine Perception of

Three-Dimensional Solids"

ILSVRC举办的前两年,各种“手工设计特征+编码+SVM”框架下的算法一直是该项比赛

的前几名。ILSVRC的分类错误率的标准是让算法选出最有可能的S个预测,如果有一个是

正确的,则算通过,如果都没有预测对,则算错误。2010年ILSVRC的冠军是NEC的余凯带领

的研究组,错误率达到了28%。2011年施乐欧洲研究中心的小组将这个成绩提高到了25.7%。

20l2年,Hinton的小组也参加了竞赛,主力选手是Hinton的一名研究生Alex

Krizhevsky。在这一年的竞赛上,Alex提出了一个5卷积层+2全连接层的卷积神经网络

AlexNet),并利用CUDA给出了实现,这个算法将前5类错误率从25.7%降到了15.3%。在之前的ImageNet竞赛中,哪怕只有一个百分点的提升都是很不错的成绩,而深度学习第次正式应用在图像分类竞赛就取得了10个百分点的改进,并且完胜第二名(26.2%)。这在当时对传统计算机视觉分类算法的冲击是不言而喻的。现在概括起来,当时的改进主要有以下3点:更深的网络结构、校正线性单元(Rectified Linear Unit,ReLU)、Dropout等方

法的应用、GPU训练网络。

尽管在当年许多传统计算机视觉的学者仍然对AlexNet抱有种种质疑,如算法难以解释、参数过多(实际上比许多基于SVM的办法参数少)等,但自从2012年后,ImageNet的参赛者几乎全体转向了基于卷积神经网络的深度学习算法,或者可以说计算机视觉领域全体转向了深度学习。基于深度学习的检测和识别、基于深度学习的图像

3▣

分割、基于深度学习的立体视觉等如雨后春笋般发展起来。深度学习,尤其是卷积神经网络,就像一把万能的大杀器,在计算机视觉的各个领

▣中

域开始发挥作用。

ImageNet竞赛

若想详细了解ImageNet竞赛及数据集相关信息,请扫描书右侧的及数据集相关信息

二维码。

。4

第1章。绪论出

1.3计算机视觉应用

尾理随是母件速德足

前面已经提到过深度学习在图像分类中的亮眼表现与应用潜力,那么当今计算机视觉在人类世界中又有哪些应用的空间与可能呢?本节将举几类例子来看看现实生活中都有哪些地方用到了计算机视觉。

(1)安防

安防是最早应用计算机视觉的领域之一。人脸识别和指纹识别在许多国家的公共安全系统里都有应用,因为公共安全部门拥有真正意义上最大的人脸库和指纹库。常见的应用有利用人脸库和公共摄像头对犯罪嫌疑人进行识别和布控。例如,利用公共摄像头捕捉到的画面,在其中查找可能出现的犯罪嫌疑人,用超分辨率技术对图像进行修复,并自动或辅助人工进行识别以追踪犯罪嫌疑人的踪迹;将犯罪嫌疑人照片在身份库中进行检索以确定犯罪嫌疑人身份也是常见的应用之一;移动检测也是计算机视觉在安防中的重要应用,利用摄像头监控画面移动用于防盗或者劳教和监狱的监控。

(2)交通

提到交通方面的应用,一些开车的朋友们一定立刻就想到了违章拍照,利用计算机视觉技术对违章车辆的照片进行分析提取车牌号码并记录在案,这是大家都熟知的一项应用。此外很多停车场和收费站也用到车牌识别。除车牌识别外,还有利用摄像头分析交通拥堵状况或进行隧道桥梁监控等技术,但应用并没有那么广泛。前面说的是道路应用,针对汽车和驾驶的计算机视觉技术也有很多,如行人识别、路牌识别、车辆识别、车距识别,还有更进

一步的也即是近两年突然火起来的无人驾驶等。计算机视觉技术在交通领域虽然有很多研究,但因为算法性能或实施成本等因素,目前真正能在实际应用中发挥作用的仍然不多,交通领域仍是一个有着巨大空间的领域。

(3)工业生产

工业领域也是最早应用计算机视觉技术的领域之一。例如,利用摄像头拍摄的图片对部件长度进行非精密测量;利用识别技术识别工业部件上的缺陷和划痕等;对生产线上的产品进行自动识别和分类用来筛选不合格产品;通过不同角度的照片重建零部件三维模型。

(4)在线购物

例如,淘宝和京东的拍照购物功能。事实上计算机视觉在电商领域的应用还有更多。图片信息在电商商品列表中扮演着信息传播最重要的角色,尤其是在手机上。当我们打开购物Ap即时,最先最快看到的信息一定是图片。而为了让每一位用户都能看到最干净、有效、赏心悦目的图片,电商背后的计算机视觉就成了非常重要的技术。几乎所有的电商都有违规图片检测的算法,用于检测一些带有违规信息的图片。在移动网络主导的时代,一个手机App的一个页面能展示图片数量非常有限,如果搜索一个商品返回的结果里有重复图片出现,则是对展示画面的巨大浪费,于是重复图片检测算法发挥了重要的作用。对于第三方商家,一些商家在商品页面发布违规或是虚假宣传的文字很容易被检测,这个时候文字识别(Optical Character Recognition,OCR)就成了保护消费者利益的防火墙。除保护消费者利

·5

_H计算机视觉COMPUTER VISION

益外,计算机视觉技术也在电商领域里保护着一些名人的利益,一些精通Photoshop的商家常常把明星的脸放到自己的商品广告中,人脸识别便成了打击这些行为的一把利剑。

(5)信息检索

搜索引擎可以利用文字描述返回用户想要的信息,图片也可以作为输入来进行信息的检索。最早做图片搜索的是一家老牌网站Tineye,上传图片就能返回相同或相似的结果。后来随着深度学习在计算机视觉领域的崛起,G0ogle和百度等公司也推出了自己的图片搜索引擎,只要上传自己拍摄的照片,就能从返回的结果中找到相关的信息。

(6)游戏娱乐

在游戏娱乐领域,计算机视觉的主要应用是在体感游戏,如Kinect、Wi和PS4等。在这些游戏设备上会用到一种特殊的深度摄像头,用于返回场景到摄像头距离的信息,从而用于三维重建或辅助识别,这种办法比常见的双目视觉技术更加可靠实用。此外就是手势识别、人脸识别、人体姿态识别等技术,用来接收玩家指令或和玩家互动。

(7)摄影摄像

数码相机诞生后,计算机视觉技术就开始应用于消费电子领域的照相机和摄像机上。最常见的就是人脸,尤其是笑脸识别,不需要再喊“茄子”,只要露出微笑就会捕捉下美好的瞬间。新手照相也不用担心对焦不准,相机会自动识别出人脸并对焦。手抖的问题也在机械技术和视觉技术结合的手段下,得到了一定程度上的控制。近些年一个新的计算机视觉子学科—计算摄影学的崛起,也给消费电子领域带来了新玩意—“光场相机”。有了光场相机甚至不需要对焦,拍完之后回家慢慢选对焦点,聚焦到任何一个距离上的画面都能一次捕捉到。除图像获取外,图像后期处理也有很多计算机视觉技术的应用,如Photoshop中的图像分割技术和抠图技术,高动态范围(High Dynamic Range,HDR)技术用于美化照片,利用图像拼接算法创建全景照片等。

(8)机器人/无人机

机器人和无人机中主要利用计算机视觉和环境发生互动,如教育或玩具机器人利用人脸识别和物体识别对用户和场景做出相应的反应。无人机也是近年来火热的一个领域。用于测量勘探的无人机可以在很低成本下采集海量的图片用于三维地形重建;用于自动物流的无人机利用计算机视觉识别降落地点,或者辅助进行路线规划;用于拍摄的无人机,目标追踪技术和距离判断等可以辅助飞行控制系统做出精确的动作,用于跟踪拍摄或自拍等。

(9)体育

高速摄像系统已经普遍用于竞技体育中。球类运动中结合时间数据和计算机视觉的进球判断、落点判断、出界判断等。基于视觉技术对人体动作进行捕捉和分析也是一个活跃的研究方向。

(10)医疗

医学影像是医疗领域中一个非常活跃的研究方向,各种影像和视觉技术在这个领域中至关重要。计算断层成像(Computed Tomography,CT)和磁共振成像(Magnetic

Resoiiance Imaging,MRI)中重建三维图像,并进行一些三维表面渲染都有涉及一些计算机视觉的基础手段。细胞识别和肿瘤识别用于辅助诊断,一些细胞或者体液中小型颗粒物的

·6·

···试读结束···

阅读剩余
THE END