欢迎到访阿拉善盟网!

首页科技正文

电银付(dianyinzhifu.com):预训练图像处置Transformer:华为诺亚、北大等提出IPT模子,刷榜多项底层视觉义务

admin2020-12-0583

机械之心公布

,

欧博app下载

www.allbetgame.us欢迎进入欧博app下载网站,欧博app下载网站是欧博官方网站。欧博app下载网站开放欧博注册、欧博代理、欧博电脑客户端、欧博app下载等业务。

, 机械之心编辑部
作为自然语言处置领域的主流模子,Transformer 近期一再出现在计算机视觉领域的研究中。 例如 OpenAI 的 iGPT、Facebook 提出的 DETR 等,这些跨界模子多应用于图像识别、目的检测等高层视觉义务。 而华为、北大、悉大以及鹏城实验室近期提出了一种新型预训练 Transformer 模子——IPT(Image Processing Transformer),用于完成超分辨率、去噪、去雨等底层视觉义务。 该研究以为输入和输出维度相同的底层视觉义务更适合 Transformer 处置。

预训练模子能否在视觉义务上复刻在自然语言义务中的乐成? 华为诺亚方舟实验室团结北京大学、悉尼大学、鹏城实验室提出底层视觉 Transformer,使用 ImageNet 预训练,在多项视觉义务上到达 SOTA。
与自然语言义务相比,视觉义务在输入形式上有很大差异。Transformer 等模子在自然语言处置义务上展现出了壮大的特征学习能力,使用大量数据举行预训练的计谋获得了乐成。因此,许多研究都在思量如何在计算机视觉领域施展 Transformer 模子与预训练的潜力。
克日,华为、北大、悉大以及鹏城实验室的研究者提出了一个名为 IPT(Image Processing Transformer)的预训练 Transformer 模子,用于完成超分辨率、去噪、去雨等底层视觉义务。IPT 具备多个头结构与尾结构用于处置差别的义务,差别的义务共享同一个 Transformer 模块。预训练获得的模子经由微调即可在多个视觉义务上大幅逾越对应义务上的当前最好模子。 


论文链接:https://arxiv.org/pdf/2012.00364.pdf
Transformer 真的比 CNN 要好吗?
卷积神经网络(CNN)是计算机视觉领域中的常用模子,自然语言处置领域中出类拔萃的 Transformer 模子在应用到计算机视觉义务中时,真的能比 CNN 更好吗?
该研究通过一系列实验回覆了这个问题
首先,研究者展示了经由预训练的 IPT 模子在差别义务上微调后到达的性能。如图 1 所示,在多项底层视觉义务中,IPT 模子均取得了伟大的性能提升。例如,对于差别倍率的超分辨率义务,IPT 普遍能够提升 0.4dB,而对于去噪和去雨义务则提升更多,提升了 1.6-2.0dB。  

本文链接:http://www.kariteparis.com/post/1992.html

网友评论