无差体验GPT4识图能力,MiniGPT4看图聊天还能草图建网站澎湃号·湃客澎湃新闻

GPT-4已经发布一个多月了,但识图功能还是体验不了。来自阿卜杜拉国王科技大学的研究者推出了类似产品——MiniGPT-4,大家可以上手体验了。

对人类来说,理解一张图的信息,不过是一件微不足道的小事,人类几乎不用思考,就能随口说出图片的含义。就像下图,手机插入的充电器多少有点不合适。人类一眼就能看出问题所在,但对AI来说,难度还是非常大的。

GPT-4的出现,开始让这些问题变得简单,它能很快的指出图中问题所在:VGA线充iPhone。

其实GPT-4的魅力远不及此,更炸场的是利用手绘草图直接生成网站,在草稿纸上画一个潦草的示意图,拍张照片,然后发给GPT-4,让它按照示意图写网站代码,嗖嗖的,GPT-4就把网页代码写出来了。

但遗憾的是,GPT-4这一功能目前仍未向公众开放,想要上手体验也无从谈起。不过,已经有人等不及了,来自阿卜杜拉国王科技大学(KAUST)的团队上手开发了一个GPT-4的类似产品——MiniGPT-4。团队研究人员包括朱德尧、陈军、沈晓倩、李祥、MohamedH.Elhoseiny,他们均来自KAUST的Vision-CAIR课题组。

MiniGPT-4展示了许多类似于GPT-4的能力,例如生成详细的图像描述并从手写草稿创建网站。此外,作者还观察到MiniGPT-4的其他新兴能力,包括根据给定的图像创作故事和诗歌,提供解决图像中显示的问题的解决方案,根据食品照片教用户如何烹饪等。

MiniGPT-4看图说话不在话下

MiniGPT-4效果到底如何呢?我们先从几个示例来说明。此外,为了更好的体验MiniGPT-4,建议使用英文输入进行测试。

首先考察一下MiniGPT-4对图片的描述能力。对于左边的图,MiniGPT-4给出的回答大致为「图片描述的是生长在冰冻湖上的一株仙人掌。仙人掌周围有巨大的冰晶,远处还有白雪皑皑的山峰……」假如你接着询问这种景象能够发生在现实世界中吗?MiniGPT-4给出的回答是这张图像在现实世界并不常见,并给出了原因。

接着,在来看看MiniGPT-4图片问答能力。问:「这棵植物出现了什么问题?我该怎么办?」MiniGPT-4不但指出了问题所在,表示带有棕色斑点的树叶可能由真菌感染引起,并给出了治疗步骤:

几个示例看下来,MiniGPT-4看图聊天的功能已经非常强大了。不仅如此,MiniGPT-4还能从草图创建网站。例如让MiniGPT-4按照左边的草稿图绘制出网页,收到指令后,MiniGPT-4给出对应的HTML代码,按照要求给出了相应网站:

MiniGPT-4还能对着一张图片生成菜谱,变身厨房小能手:

解释广为流传的梗图:

根据图片写诗:

此外,值得一提的是,MiniGPT-4Demo已经开放,在线可玩,大家可以亲自体验一番(建议使用英文测试):

下面还有更多网友的测试体验:

方法简介

作者认为GPT-4拥有先进的大型语言模型(LLM)是其具有先进的多模态生成能力的主要原因。为了研究这一现象,作者提出了MiniGPT-4,它使用一个投影层将一个冻结的视觉编码器和一个冻结的LLM(Vicuna)对齐。

MiniGPT-4由一个预训练的ViT和Q-Former视觉编码器、一个单独的线性投影层和一个先进的Vicuna大型语言模型组成。MiniGPT-4只需要训练线性层,用来将视觉特征与Vicuna对齐。

MiniGPT-4进行了两个阶段的训练。第一个传统的预训练阶段使用大约5百万对齐的图像文本对,在4个A100GPU上使用10小时进行训练。第一阶段后,Vicuna能够理解图像。但是Vicuna文字生成能力受到了很大的影响。

为了解决这个问题并提高可用性,研究者提出了一种新颖的方式,通过模型本身和ChatGPT一起创建高质量的图像文本对。基于此,该研究创建了一个小而高质量的数据集(总共3500对)。

第二个微调阶段使用对话模板在此数据集上进行训练,以显著提高其生成可靠性和整体可用性。这个阶段具有高效的计算能力,只需要一张A100GPU大约7分钟即可完成。

此外,项目中还使用了开源代码库包括BLIP2、Lavis和Vicuna。

THEEND

投稿或寻求报道:content@jiqizhixin.com

原标题:《3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站》

THE END
1.识图软件app下载万能识图app下载好用的识图app推荐识图软件哪个好用呢?今天小编就为大家推荐几款好用的识图app,其中就有常见的万能识图app、慧眼识图app、百度app和微软必应app等识图软件。无论是花草树木、商标、汽车模型、动物还是生活中常见的物品,大家只要轻轻一扫就可以自动进行鉴定。当然无论是我们自己拍摄的照片还是在网络上找到的图片都可以进行识图哦!https://m.32r.com/zt/stapp/
2.图像识别云主机 ECS GPU云主机 GACS 弹性伸缩 EAS 裸金属服务器 BMS 专属宿主机 DDH 容器服务 KCS 容器镜像服务 CIS 云主机备份 CBS 镜像服务 IMS Linux系统订阅服务 CLS 云电脑 容器服务 CNP版 云硬盘 EBS 对象存储 EOS 文件存储 EFS 云备份CBR 并行文件存储 PFS https://ecloud.10086.cn/op-help-center/api/outline/77270
3.看图识图题看图识图题 (1) 图片中人物是( )。 (2) 八七会议结束后他回到湖南领导( )起义。 (3) 他建立的第一个农村革命根据地是( ) 【知识点】 抱歉,您未登录!暂时无法查看答案与解析! 登录查看答案解析 纠错 收藏 + 选题 能力提升 真题演练 换一批 1. 阅读以下材料,回答问题。 材料:毛泽东着重指出:秋收https://www.zujuan.com/question/detail-52952744.shtml
4.迅速提高看图识图能力(通用7篇)迅速提高看图识图能力(通用7篇) 篇1:迅速提高看图识图能力 认图识图实习报告 一、认识实习目的通过老师讲解和自己看图来了解建筑的结构图和施工图,从而认识和了解建筑材料的品种、性质、规格和用途等。 二、认识基本要求 1、做好实习前准备工作,了解实习目的和任务,以提高实习效果 https://www.360wenmi.com/f/filewnnaqn3g.html
5.看图识图职场视频职场视频:能比较正确地指出成人所说的图片!https://m.tv.sohu.com/v/dXMvMjExMjcwNjY2LzI5MDIwNDEuc2h0bWw=.html
6.看图识图的基本方法理想股票技术论坛看图识图的基本方法是指通过图像识别技术,利用视觉图像搜索和图像识别算法,从给定的图像中快速准确地找到相似或匹配的目标图像。这种方法在计算机视觉领域具有重要意义,可以广泛应用于图像搜索、安全监控、自动驾驶等多个领域。 ,理想股票技术论坛https://www.55188.com/tag-3678969.html
7.看图,识图,懂图及算量案例请登录后学习 19:08 第1节 并联,串联,混联 20:43 第2节 电气工程中的那些符号问题 22:39 第3节 配管,配线问题 27:16 第4节 图纸说明讲解 27:17 第5节 图纸上没有的图集讲解 21:52 第6节 配电箱回路的问题 31:43 第7节 看图,识图,懂图及算量案例 https://edu.toujianyun.com/lesson/9881
8.谷歌识图看图,看图识人识别谷歌识图看图,谷歌识图,以图搜图谷歌识图功能在哪google识图网页版谷歌识图在线网页版2022已更新今日动态谷歌智能识图应用googlelens再换图标谷歌地图可以在线编辑的谷歌地图谷歌识图 网页版google地图谷歌地球仪强大功能探索世界更细致 第1张http://dashangu.com/postimg_23078837.html
9.看图识字识图表专题模板看图识字识图表图片素材下载我图网看图识字识图表专题为您整理了261个原创高质量看图识字识图表图片素材供您在线下载,PSD/JPG/PNG格式看图识字识图表模板下载、高清看图识字识图表图片大全等,下载图片素材就上我图网。https://so.ooopic.com/sousuo/57361895/
10.常识看图识图,类视搜图轻松搞定电脑图片搜索"图片放哪里了""这几张图片看着一样怎么没分类在一起"如果你经常遇到这样的问题,那使用类视搜图这个软件就没错了!论你拥有多少图片,论是产品图片还是个人照片,AI以图 常识看图识图,类视搜图轻松搞定电脑图片搜索 ,松原都市网https://www.0438.tv/forum.php?mod=viewthread&tid=5666399
11.机械图纸看图技巧机械图纸入门识图讲解机械图纸看图技巧【机械图纸入门识图讲解】 怎样看懂机械图纸是机械五金行业工作中必备的基本技能,机械识图是机械行业工作中交流沟通工具。自学教材(学习办公自动化word excel ppt,学习计算机基础应用等教材。学习photoshop图片图像处理,学习CAD二维制图应用,学习机械制图技能知识,学习CAD设计三维效果图,学习如何看懂机械图纸,https://www.shejilogo.com/article/design/1173.html
12.在识图过程中看图的要点是()在识图过程中看图的要点是()A.把握全局,明确分区,抓住关键B.掌握基本制图规范,明确制图符号的含义C.掌握总图中的设计说明内容D.掌握施工工艺的答案是什么.用刷刷题APP,拍照搜索答疑.刷刷题(shuashuati.com)是专业的大学职业搜题找答案,刷题练习的工具.一键将文档转化为https://www.shuashuati.com/ti/20e26fdf50334c958f86ca883feb2131.html?fm=bdd63aca45ed4f66e96defede01fc70463
13.图晓晓一键识图,秒出清单BOM 懂图纸,更懂你! 图晓晓是一款专业的成套电气系统图纸识别软件,采用人工智能技术,依托利驰电气大脑的海量专业电气数据打造,一键识别图纸,轻松高效搞定成套项目清单BOM。 产品能力 快速 整图秒速自动提取设备及BOM 智能 自研AI技术、海量电气图源数据加持 https://www.dq123.com/product/tuxiaoxiao
14.升级版学电工识图超简单电工识图基础速成全图解看图学电工升级版 学电工识图超简单 电工识图基础 速成全图解 看图学电工技能 入门教程 电子电路识图知识书 epub pdf mobi txt 电子书 下载 2024 - 静思书屋https://book.tinynews.org/books/29536475172