清华大学深圳国际研究生院多篇论文被2021国际计算机视觉与模式…

近日,深圳国际钻研生院信息科学与技能学部将来媒体实行室和智能计较实行室三篇论文被国际计较机视觉与模式辨认大会(IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR))2021接管。

2019级节制工程专业硕士生胡小婉(引导西席:王好谦,将来媒体实行室)颁发论文《用于真实图象去噪的伪3D自相干收集》(Pseudo 3D Auto-Correlation Network for Real Image Denoising)。

该论文重要提出了一种别致的具备快速一维卷积的空间自相干模块。采纳标的目的自力和参数同享的计谋,可有用地低落从全图象依靠中获得上下文信息的时候和空间繁杂度。轻量级的二维布局可获得更有辨别性的真实噪声的相干特性。图象的自相干提取在深度进修收集中表示出庞大的潜力,如通道域的自注重机制和空间域的自类似机制。但是,上述机制的实现大多必要繁杂的模块叠加和大量的卷积计较,不成防止地增长了模子的繁杂性和存储本钱。是以,该论文提出了一种伪3D自相干收集 (pseudo 3D auto-correlation network, P3AN),以摸索一种更有用的图

象去噪中获得布景信息的法子。一方面,伪3D自相干收集采纳快速一维卷积取代密集毗连实现交织交互,计较资本较少;另外一方面,该操作不会扭转特性巨细,且易于扩大。这象征着只必要简略的自顺应交融便可以得到包括信道域和空间域的上下文信息。该法子经由过程一维卷积构建伪3D自相存眷意块,并通太轻量级二维布局实现更具备辨别性的特性。在3组合成和4组真实噪声数据集长进行了大量的实行。从量化指标和视觉质量评价来看,伪3D自相干收集算法表示出了庞大的优胜性,跨越了今朝先辈的的图象去噪法子。

提取伪3D全局自相干特性的示用意:输入为巨细为H*W的特性图,每一个位置(如赤色)可以从其他像素采集信息,(c)图为2D情势,从程度和垂直两个空间标的目的提取相干性,(d)图为3D情势,从空间域的程度、垂直和通道域标的目的提取相干性并交融。

伪3D自相干模块(P3AB)的内部实现细节图:颠末1D快速卷积和自顺应特性交融(AFF),输出包括程度、垂直和通道三个标的目的的自相干并以等尺寸交融。赤色箭头暗示操作流程。

P3AN收集图:重叠的P3AB通过量级残差毗连实现持续特性交互并获得自相干特性。

2019级节制工程专业硕士生杨耿聪(引导西席:杨余久,智能计较实行室)颁发论文《针对场景图天生语义歧义性的几率性建模》(Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation)。

该论文创始性地测验考试了以几率散布建模视觉瓜葛展望的不肯定性,在有用晋升模子展望平衡性的同时,初次摸索了视觉瓜葛的多样化展望问题,拓展了相干范畴的钻研鸿沟。其利用价值在于,有助于下流看图措辞、图片检索等使命的机能改良;同时,几率散布的建模情势也带来了较强的可诠释性,模子展望的几率散布参数可直接反应视觉瓜葛的语义模胡度。

为了天生“切确”表述的场景图,几近所有现有的法子都以肯定性的方法展望成对瓜葛,而视觉

瓜葛在语义上常常具备歧义性。详细来讲,受说话学常识的开导,钻研者将歧义分为同义词歧义、上下位词歧义和多视点歧义三类,这类歧义性天然会致使隐性多标签问题,也激起了对展望多样性的需求。这项事情提出了一个别致的即插即用式几率不肯定性建模(PUM)模块,它将每一个物体结合区域建模为高斯散布,其方差怀抱响应视觉内容的不肯定性,与传统简直定性法子比拟,这类不肯定性建模带来了特性暗示的随机性,使得展望具备多样性。作为一个副产物,PUM还可以或许笼盖更细粒度的瓜葛,从而减缓对高频瓜葛的成见。在大范围视觉数据集上的充沛实行表白,将PUM与新提出的ResCAGCN相连系可以在均匀召回怀抱下得到最好机能。别的,经由过程将PUM插入到一些现有模子中,证了然PUM的普适性,文中也对其天生多样化但公道的视觉瓜葛的能力举行了深刻阐发。

数据集中存在的视觉瓜葛语义歧义样例图:即类似的视觉场景可以用多个公道的谓词描写。(a)同义词歧义,(b)上下位词歧义,(c)多视点歧义。

提取伪3D全局自相干特性的示用意:输入为巨细为H*W的特性图,每一个位置(如赤色)可以从其他像素采集信息,(c)图为2D情势,从程度和垂直两个空间标的目的提取相干性,(d)图为3D情势,从空间域的程度、垂直和通道域标的目的提取相干性并交融。

清华大学深圳国际钻研生院2016级节制工程原专业硕士生、现伦敦大学学院(UCL)统计系在读博士夏伟浩(引导西席:杨余久副传授,智能计较实行室)颁发论文《文本指导的多样人脸图象编纂和天生》(TediGAN: Text-Guided Diverse Face Image Generation and Manipulation)。

该论文提出文本指导的人脸图象天生和编纂的同一框架,交融了分歧模态的输入,可输出1024*1024辨别率的天生和编纂成果。文章也针对按照多模态天生人脸图象的问题开放了新的数据集,包括真实人脸图象和响应的语义朋分图、草图和文本描写。

基于文本生指定图象是前提图象天生范畴的首要内容,以前法子大多只能天生较低辨别率的图象,和无前提图象天生范畴比拟成长紧张滞后。这项事情中引入无前提图象天生中的先辈模子StyleGAN,借助GAN Inversion将给定真实图象映照到预练习StyleGAN隐空间获得隐编码。视觉-说话类似性模块将图象和文本映照到大众的W隐空间来进修文本——图象匹配。此外,针对分歧模态输入别离练习编码器可实现对应模态的图象天生,利用基于StyleGAN“样式夹杂”的节制机制,模子支撑具备多模态输入的图象合成,比方同时知足给定文本所描写的头发色彩和草图或语义标签所界说的人脸轮廓。由于隐编码可经由过程从噪声中采样或由真实图象映照获得,这让咱们的法子实现了图象天生和编纂的同一。该模子实现了以1024*1024辨别率天生多样化和高质量的图象。

法子框架图:TediGAN是文本指导图象天生和编纂的同一框架,可以交融分歧模态的输入,输出1024*1024辨别率的天生和编纂成果。

法子框架图:GAN Inversion将图象映照到预练习GAN模子的W隐空间获得隐编码;视觉-说话类似性进修在W空间文本和视觉内容的对齐;和分歧模态获得的隐编码的互换和优化。

gong2022

gong2022

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

|京ICP备18012533号-320