微软亚洲研究院最新研究成果:文字生成视频,只需一步
相关推荐
-
[首藏作品](6648)图片、文字、语音都能理解 这个AI平台是“全能”选手
图片.文字.语音都能理解 这个AI平台是"全能"选手◎本报记者 陆成宽"小初,请以天宫为主题作首诗吧?""天宫生殿开成,万花垂露照初.稠云不掩国志,飞 ...
-
端到端多模态理解的MDETR调制检测
重磅干货,第一时间送达 小黑导读 论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
-
基于用户直观输入的深度学习图像生成技术 | CVMJ Spotlight
日前,Computational Visual Media期刊上线发表了一篇综述论文 [1],对基于用户直观输入的真实感图像生成技术进行了系统的回顾,涵盖了文本.草图.语义图.人体姿态.属性.场景图. ...
-
AXM-Net:用于行人检测的跨模式上下文注意力网络
重磅干货,第一时间送达 小白导读 论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
-
OpenViDial:一个大规模多模态对话数据集
人类对话不仅仅只依靠聊天内容,更需要利用视觉信息.本文构建了一个大规模多模态对话数据集,从电影和电视剧中抽取出(句子,图片)对,经过数据处理与清洗,最终得到一百万余条句子,及其对应的图片信息.此外,本 ...
-
大模型时代的AI之变与开发之根
自2018年谷歌发布Bert以来,预训练大模型以强大的算法效果,席卷了NLP为代表的各大AI榜单与测试数据集.随着产学研各界的深入研究,大模型在AI产学研各界的地位得到不断加强.到2021年,我们可以 ...
-
南京大学提出CPD:通过视频-文本对匹配的视频预训练模型
作者:南京大学教授.博士生导师 王利民 本文介绍南京大学计算机系媒体计算组于2020年初公开到arxiv上的一篇文章: CPD (Learning Spatiotemporal Features vi ...
-
首篇「多模态摘要」综述论文
仅做学术分享,如有侵权,联系删除 转载于 :专知 [导读]多模态是文档内容的本质特征之一.来自印度理工等学者发布了首篇多模态摘要综述论文. 摘要 科技的新时代让人们可以方便地在各种平台上分享自己的观点 ...
-
零样本风格迁移:多模态CLIP文本驱动图像生成
重磅干货,第一时间送达 来源:GitHub ,新智元 [导读]零样本的风格迁移听说过没有?英伟达一个实习生小哥集文本CLIP和图像生成StyleGAN于一身,只需要输入几个单词就可以完成你想要的风格迁 ...
-
对话摘要简述
作者:哈工大SCIR 冯夏冲 对话摘要任务在近两年得到了工业界和学术界的广泛关注.随着社会的发展和通讯技术的进步,对话数据日益增多,并且迸发出不同的形式:会议.邮件.闲聊.讨论.辩论等等.不同形式的对 ...
-
[首藏作品](5696)把文本变成画作,AI对艺术“下手”了
把文本变成画作,AI对艺术"下手"了图为人工智能系统 DALL·E根据文本"穿着芭蕾舞裙遛狗的小萝卜"绘制的图像图片来源:OpenAI官网自然语言处理与视觉处理 ...
-
关于NLP相关技术全部在这里:预训练模型、信息抽取、文本生成、知识图谱、对话系统
我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准资源并高效学习.其次,即便网络上的资源非常多,学习是需要成本的,而且越有深度的内容越难找到好的学 ...
-
视觉增强词向量:我是词向量,我开眼了!
设为 "星标",重磅干货,第一时间送达! 转载自 | 夕小瑶的卖萌屋 文 | 橙橙子 亲爱的读者,你是否被各种千亿.万亿模型的发布狂轰乱炸,应接不暇,甚至有点产生对大模型的审美疲劳 ...
-
文本生成图像的新SOTA:Google的XMC-GAN
来源:新智元 [导读]从图像到生成文本.从文本生成图像,多模态模型的探索一直未停止.最近Google又出从文本到图像的新模型,75%的人类都说超过了传统的SOTA模型,直呼脑子里有画面了! 文本到图像 ...
-
EMNLP2021 “Transformer+预训练”再下一城,港科大开源高效的"多模态摘要总结"网络
▊ 写在前面 多模态摘要总结(Multimodal abstractive summarization,MAS)模型总结了视频(视觉模态)及其相应的文本(文本模态)的知识,能够从互联网上的大量多模态数 ...
-
更精准地生成字幕!哥大&Facebook开发AI新框架,多模态融合,性能更强
现在,给视频添加字幕,又有了新玩法. 这就是Facebook.哥伦比亚大学等大学的新研究,共同开发了一个框架--Vx2Text. 这个框架可以帮助我们,从视频.音频等输入内容中提取信息,再以人类可以理 ...
-
找论文太难?试试这款「文本生成」论文搜索工具丨开源
子豪 发自 凹非寺量子位 报道 | 公众号 QbitAI NLP工作者,尤其是文本生成领域的工作者们,你们福音来了! ArXiv Text Gen Searches --一款能够及时.快速.精准查阅论 ...
-
跨界出圈 | 谈谈BERT跨模态预训练
NewBeeNLP原创出品 公众号专栏作者@上杉翔二 悠闲会 · 信息检索 BERT以及BERT后时代在NLP各项任务上都是强势刷榜,多模态领域也不遑多让.前几天我们刚分享了复旦邱锡鹏老师的报告:复旦 ...