好运1分快3走势微软亚洲研究院梅涛博士:机器也能看懂视频,还能给“影评” ?| CCF

  • 时间:
  • 浏览:25
  • 来源:彩神8快3-彩神快3官方

雷锋网(公众号:雷锋网)AI科技评论按:7月7号,全球人工智能和机器人峰会在深圳如期举办,由中国计算机针灸学会(CCF)主办、雷锋网与香港中文大学(深圳)承办的这次大会共聚集了来自全球50多位AI领域科学家、近50家AI明星企业。雷锋网最近机会陆续放出峰会上的精华内容,回馈给长期以来支持雷锋网的读者们!

本次介绍的这位嘉宾是微软亚洲研究院资深研究员梅涛博士,分享主题为「视频内容的生命周期:创作,解决,消费」。

梅涛博士,微软亚洲研究院资深研究员,国际模式识别针灸学会会士,美国计算机针灸学会杰出科学家,中国科技大学和生山大学兼职教授博导。主要研究兴趣为多媒体分析、计算机视觉和机器学习,发表论文 50余篇(h-index 42),先后10次荣获最佳论文奖,好运1分快3走势拥有40余项美国和国际专利(18项授权),其研究成果十余次被成功转化到微软的产品和服务中。他的研究团队目前致力于视频和图像的角度理解、分析和应用。他并肩担任 IEEE 和 ACM 多媒体汇刊(IEEE TMM 和 ACM TOMM)以及模式识别(好运1分快3走势Pattern Recognition)等学术期刊的编委,而且是多个国际多媒体会议(如 ACM Multimedia, IEEE ICME, IEEE MMSP 等)的大会主席和多多程序 委员会主席。他分别于 501 年和 506 年在中国科技大学获学士和博士学位。

为哪哪哪几个要以「视频内容」为主题做分享?

梅涛博士从原来方面讲了他为哪哪哪几个想和让我们分享「视频内容」例如 话题。首先视频跟图像相比信息更丰富,解决起来也更富挑战性;其次,计算机视觉技术领域,如人脸识别,人体跟踪等研究的比较多,而互联网视频内容相对来说研究的比较少;最后,跟跟我说在十年前就现在开使做视频方面的研究,人个都说视频是下原来风口,今天看来例如 说法也是对的。

在传统的视觉理解(2012年但是)的辦法 里,要做视觉问提基本上分原来步骤:

第一,理解原来物体,比如说识别原来桌子,首没能检测原来关键点(比如角、好运1分快3走势边、面等);

第二,人为设计而且 社会形态来描述哪哪哪几个点的视觉属性;

第三,采用而且 分类器将哪几此人 为设计的社会形态作为输入进行分类和识别。

而现在的角度学习,尤其是在2012年现在开使但是:

“图像理解的错误率在不断降低,角度神经网络也从最早的8层到20多层,到现在能达到152层。让我们最新的工作也表明,视频理解的角度神经网络也要能从2015年3D CNN的11层做到现在的199层。”

梅涛博士也在演讲中表示,视频内容的生命周期大致要能分为原来偏离 ,即视频的创作、解决和消费。

Creation(创作)

关于为甚去创造原来视频,梅涛博士给了原来基本概念。“Video的产生是先把Video切成原来原来的镜头,要能看成是原来原来断码,而且每原来镜头再组合编成原来故事或场景,每原来镜头还要能再细成子镜头,每个子镜头要能用原来关键帧来代表。通过例如 分层式社会形态要能把一段非线性的视频流像切分文章一样进行社会形态化,例如 社会形态化是后边做视频解决和分析的基础。通过例如 社会形态化将视频分解成不同的单元,就要能做视频的自动摘要,即将一段长视频自动剪辑为精彩的短视频,或将一段长视频用而且 具有角度视觉代表性的关键帧表示。哪哪哪几个摘要使得用户对长视频的非线性快速浏览成为机会。”

梅涛博士表示,微软目前将视频摘要的技术用在了Bing的视频搜索里,现在全世界有八百万的Bing用户通过有一种叫multi-thumb的技术,要能快速预览每原来视频搜索结果。

Curation(解决)

当用户有了视频但是,研究者要做的事情是给视频片段打上标签,原来 后边的搜索就要能基于标签搜到视频的内容后边去。“让我们最近的工作要能对视频内容打上50多个静态标签和超过50个以上的动作标签。让我们设计的P3D(pseudo 3D resent)是专门为视频内容理解而精心设计的3D残差网络。”

做图像分析目前最好的角度神经网络是微软亚洲研究院在2015年提出的152层的残差网络(ResNet),目前最深要能做到50层。而且在视频领域,专门为视频设计的最有效的3D CNN目前才11层。

为了解决例如 问提,梅涛博士表示,团队最近借用ResNet的思想,将3D CNN的层数做到了199,识别率能在UCF 101数据集上比但是的3D CNN提高6到7个百分点。例如 对视频进行自动标签的技术,机会被用在微软的Azure云服务中。

实现了视频自动标签技术外,梅涛博士还阐述了团队“更进一步”的研究工作:用一段连贯通顺的自然语言,而全部都有孤立的单个标签,来描述一段视频内容。

“比如给定这段视频,让我们要能生成励志的话 来描述例如 Video?但是让我们说例如 Video是原来舞蹈,现在要能告诉你这是那末人在跳一段哪哪哪几个舞蹈,例如 技术就叫Video Captioning(视频说明)。例如 技术使得自动生成视频的标题成为机会。”

微软亚洲研究院目前把例如 技术用在了聊天机器人的自动评价功能里,例如微软小冰,当用户上传视频给小冰,它会夸赞对方。在例如 技术上线原来月后,小冰在某视频网站上的粉丝数涨了50%。当然,小冰现在还要能根据图片内容写现代诗,将来让我们希望小冰要能根据视频来写诗。

“让我们也要能将Video进行编辑,再加滤镜,或是做风格的转换,把自然的Video变得非常卡通。视频中的人物分割出来要能放上去另外原来虚拟的场景后边去。让人想象,当原来人在异地谈恋爱的但是,让我们要能给他原来房间,让我们在同原来房间里、在星空下、在安静湖面上的一艘小船上进行聊天。另外,让我们也要能提供storytelling的服务,让原始的、那末经过任何编辑和解决的image、video集合变成一段非常吸引人的、有一定设计感和视觉感的故事,这段视频demo而且 而且 机器自动产生的效果。再加人工的解决,视频就要能变得更加时尚。”

Consumption(消费)

视频的消费往往和广告紧密相关。梅涛提到,做视频广告有原来问提需要解决:第原来问提是广告到底放上去视频的哪哪哪几个位置;第一有一个问提是选哪哪哪几个样的广告,例如 广告跟你插入点的信息是全部都有相关,使得用户接受度更加好。

让我们的解决方案是将视频进行分解,并计算出有一种度量,原来是discontinuity(不连续),衡量原来广告插入点的故事情节有无连续;原来 是attractiveness(吸引力),衡量一段原始视频的内容有无精彩。对这有一种度量进行不同的组合就要能满足符合广告商(advertiser)或用户(viewer)的需求。

最后梅涛总结道,在做科研的人看来,AI也好,角度学习也好,落地全部都有很长的路要走。“嘴笨 计算机视觉机会发展了50多年,嘴笨 现在AI炒的很火热,但做科研和技术的,还是要脚踏实地去解决原来个的场景和原来个底层的基础问提。”

以下是梅涛博士的现场分享实录,雷锋网做了不改动原意的埋点和编辑

很高兴跟让我们聊一下视频内容领域。为哪哪哪几个讲视频内容呢?有原来意味着着:第原来意味着着是视频跟图像相比更加深入,视频是信息领域的东西,研究视频是原来非常大的挑战。第二是让我们在而且 而且 专场都看视觉领域,人脸、安防方面的进展,视频领域对让我们来说是相对比较崭新的东西。第三是我此人 在十年前做视频方面的研究,人个都说视频是下原来风口,今天看来例如 说法也是对的。

计算机视觉(CV)要能认为是人工智能的原来分支,1950年代CV的创始人之一Marvin Minsky说,“给计算机接上原来相机,计算机要能理解相机所都看的世界。”这是做CV人的原来梦想。到最近的50年,CV领域发展有而且 而且 成果,机会来总结一下,从视觉理解角度来看,要做视觉问提基本上分原来步骤:首先,理解原来东西,比如说识别原来桌子,让我们要检测而且 线条,而且 拐角。第二,人为设计而且 社会形态来描述所检测的社会形态。第三,设计而且 分类器。这是让我们2012年但是让我们做CV的原来步骤。

 让我们要能从例如 图中都看CV的而且 进展,举哪哪几个例子,比如说这篇论文SIFT(Scaled Invariant Feature Transform)文,机会被引用5500次了。另外,机会让我们做人脸识别就会知道,需要定位人脸的区域。让我们501年有原来辦法 是Boosting +Cascade,做快速的人脸定位。到今天为止,嘴笨 让我们知道做人脸定位有而且 而且 角度学习的辦法 ,而且例如 辦法 依然是最先的必经的步骤之一。例如 论文到目前为止已被引用了500次,在学术界有一篇论文被引用超过500次机会是相当了不起了。到了2012年但是,基本上人个全部都有用角度学习,从Hinton的学生用AlexNet在ImageNet后边能得到近乎15%的错误率,从那现在开使,所有视觉的东西全部都有用CNN,代表性的有GoogLeNet,AlexNet等等,让我们的任务也会越多,那末有挑战,比如现在正在做的从图片中生成语言,不仅要在图片或视频中打上而且 标签,需要把哪哪哪几个标签变成能用自然语言描述的励志的话 。

让我们今天讲的是视频理解,机会从理解原来像素或理解原来图片或视频来说,要能把例如 理解问提分成哪哪几个层次。最难的是需要理解图片或视频后边每个像素代表哪哪哪几个标签。再往上是让我们关心每原来物体在哪哪哪几个位置、属于哪哪哪几个类别。第三偏离 是不关心例如 物体在哪哪哪几个地方,你给我一图片机会视频,让人知道例如 图片机会视频后边有哪哪哪几个标签。再往前走一步,比如说我让人原来图片,要求不仅要生成单独的标签,需要看想要 能生成原来非常自然的语言来描述例如 图片。再往上,我让人原来图片,要能给我原来故事,比如说现在机器要能产生原来 原来故事。

 让我们看一下例如 图(见PPT),Image Classification(图像分类)从最早8层到20多层,到现在让我们的152层。让我们在微软做了而且 而且 工作,image后边有而且 而且 image recognition computational style transfer(图像识别计算的风格转换)等等。微软跟例如 相关的产品有而且 而且 ,比如说小冰不仅要能跟你用文字聊天,还要能通过图片和视频跟你交流。

从图像到视频,理解原来视频需要理解每原来帧后边的运动。为哪哪哪几个今天要谈论视频呢?

全世界现在每天有超过50%的人在线看视频,每天在Facebook上会观看37亿个视频,YouTube上每天会观看5亿小时时长的视频。让我们做视频,让我们首先想到的而且 而且 做广告,视频后边的广告每年全部都有50%的速率单位递增的,在YouTube后边也是每年50%的增长态势。让我们在视频上花的时间是图片上的2.6倍。视频的生成比文字和图片要多150%。2016年中国视频用户超过7亿。

 今天从另外原来角度来看视频内容的产生、编辑、管理会经历哪哪哪几个过程,有哪哪哪几个技术来支撑,让我们从Creation(创作)到Curation(解决)、到Consumption(消费)的顺序来讲。

 为甚去创作原来视频?这后边有原来基本概念,视频的产生是先把视频切成原来原来的镜头,让人看成是原来原来断码,而且每原来镜头再编成原来故事,每哪哪几个语言要能放成原来故事。每原来镜头要能分成子镜头,而且有原来数据,这是让我们做视频的前提。

今天原来视频,机会15分钟,机会是原来小时,要能让人一有一个关键帧你就知道例如 镜头。原来8分钟的视频要能生成50秒的内容,比如说来了原来运动视频,通过智能分析知道例如 运动视频后边哪个偏离 最应该看,这是它的重点。

原来 话题是视频生成,今天我让人一段文字,你给我生成原来新的视频,例如 事情听起来天方夜谭,而且值得挑战。我告诉你生成原来视频,也而且 而且 原来数字8在后边不停的游动。另外让人数字6和0,要能让数字6和0在这后边游动,例如 事情是非常难的。最近让我们做了研究,发现要能做而且 简单的事情,比如说原来人在烤牛肉。实际上这还是没能的,机会让我们生成的视频准确性非常低,而且 而且 这是非常难的事情。

当有了视频之需要做的事情是给视频打标签,至今为止要能打上50个的静态标签,你有了哪哪哪几个静态的标签就要能设置到内容后边去。比如说视频后边出現原来桥,例如 桥的位置在哪里。比如说而且 运动,这是让我们要能识别出来的运动,左边全部都有运动的视频,右边是让我们日常生活中的而且 行为。有原来动作最难识别,原来是跳跃,原来是三级跳,为甚让我们现在机会要能区分出哪哪哪几个非常细微的差别。

 这是让我们今天讲的唯一的原来技术性的偏离 。让我们最近做的原来非常好的工作,而且 而且 要能做角度次的网络,让我们要能通过而且 辦法 使得角度次的网络是可行的。比如说例如 到现在要能做到152层,也要能做到501层,性能超过了任何网络。让我们要能从例如 网站的图片扩展到视频?我把二维的卷积盒变成三维的,当它卷积的但是是沿着X、Y和T例如 方向卷积的。C3D模型是要能做到13层,它非常复杂性。让我们有原来想法,把它进行分解,原来是要能找出例如 物体的数量,使的例如 过程可行,另外还要能在图像上进行解决。让我们做了而且 而且 工作,比如说例如 视频是原来太极的动作,让我们通过P3D要能找出来原来点,例如 机会非常了不起了。

让我们要能很精确的告诉你例如 视频中每原来关节是为甚运动的(见PPT),比如说我今天做原来智能的健身教练,要能把你的动作进行分解,告诉你哪个动作是不准确的。

还有原来是Video captioning(视频说明),让人原来视频,要能生成励志的话 来描述例如 视频。但是让我们说例如 视频是原来舞蹈,现在要能告诉跟跟我说这是原来哪哪哪几个舞蹈。

这是让我们生成的原来视频(见PPT)。小冰要能做auto-commenting(自动评论),不仅告诉你很美,还能告诉你美在哪哪哪几个地方。后边是原来小孩子,它说你的女儿很漂亮、很时尚。基本上它要能给自拍的视频做评论,给小孩的视频做评论,也要能给宠物视频做评论。

小冰还要能写诗,最近让我们发表了原来小冰诗集。小冰说:“看那星,闪烁的几颗星,西山上的太阳,青蛙儿正在远远的浅水,她嫁给了人间而且 的颜色”。

 让我们另外还做style transfer(风格转移),让人另一一公里画机会卡通,要能把例如 风格转移到视频中,要能把例如 水的波纹表达出来。

下面这幅图是某个娱乐节目,让我们要能把例如 人物分割出来放上去另外原来虚拟的场景后边去。让人想象,当原来人在异地谈恋爱的但是,让我们要能给他原来房间,让我们在房间后边进行聊天。

还有Storytelling(讲故事),让人要能让人提供服务,让人的图片、视频变得更好,这全部都有机器产生的效果(见PPT)。例如 风格叫Fashion,让我们只要再加人工的解决,视频就要能让人的图片变得更加时尚。这很容易用在而且 to C(针对消费者的市场)的场景后边。

讲一下最后原来题目,例如 广告是我十几年前加入微软的项目。那但是让我们做的视频广告有原来问提需要解决:第原来问提是广告到底放上去视频的哪哪哪几个位置;第一有一个问提是选哪哪哪几个样的广告,例如 广告跟你插入点的信息是全部都有相关,使得用户接受度更加好。这原来问提为甚解决?当时让我们提出原来方案,我来了原来视频,把例如 视频分解,让我们有哪哪几个值,第原来是discontinuity(不连续),看每一段是全部都有要能做广告,它的间断点使得用户的接受度更好。还有而且 而且 在是激动人心的阶段放广告。另外原来是Attractiveness(吸引力),让它变得可计算,当时让我们有原来曲线,这原来曲线有不同的辦法 ,第有一种辦法 是要符合广告商的需求。

例如 视频后边,当出現车子爆炸的镜头,让我们要能识别出来例如 内容,要能在这里放广告,使得广告和内容无缝连接在并肩。让我们也要能在故事需要的地方放广告。

刚才讲了而且 而且 场景和技术,而且在做科研的人看来,AI也好,角度学习也好,落地有很长的路要走,让我们要脚踏实地的原来原来的去实现。

这而且 而且 我今天的演讲,谢谢让我们!

雷锋网埋点编辑

雷锋网原创文章,未经授权禁止转载。详情见转载须知。