亚马逊云科技生成式AI视觉Pipeline,成功实现LLM与视频生成模型的有效融合永州新闻网

在2023年9月底,亚马逊云科技宣布将Antrophic公司的Claude2模型纳入亚马逊云科技AmazonBedrock服务并正式上线。作为ChatGPT-4最强有力的竞争对手,Claude2的语料库截至2023年初。其单次对话可处理高达10万个token的长文本,使其在总结归纳等涉及超长文本的任务中表现尤为突出。此外,许多影视和游戏领域的专家认为,Claude2在故事创作和角色扮演等方面展现出更加拟人化和准确的表达特点。

ComfyUI

ComfyUI是一个基于节点式工作流的WebUI,其核心采用了稳定扩散视频生成模型。它通过将稳定扩散的流程分解成多个节点,实现了更加精细化的流程定制和更高的结果可重用性。相比于SDWebUI,ComfyUI的节点工作流需要一定的学习曲线,因此普及程度不如前者。然而,在特定领域的项目中,ComfyUI依然显示出以下优势,并且受到了越来越多的青睐:

支持json文件或者图片来共享节点工作流,提高了项目组内部的工作效率(流程+质量)

由于节点内部的优化,其整体的出图速度对于SDWebUI快了10%-20%左右

在超分或者出大图的情况下也不容易将显卡打爆,得到黑图

主流的ControlNet,LoRA等等都已支持,缺少的模块,也可以通过custom_nodes方式安装

节点式工作方式,在游戏工作室(UE蓝图背景)会有天然的亲和性

由于其存储为结构化的数据结构,支持各种语言编程

架构图

本文将基于AmazonCloudService能力,利用Bedrock上面的Claude2模型作为驱动来输出关键提示词,然后输入到构建在SageMaker上的ComfyUI,最后的视频素材存储到S3上面,来实现自动生成视频的管线。

本方案通过CloudFormation进行一件部署,主要的架构图如下,其中包含的组建有:

SageMakerNotebook:基于g5.2xlarge的笔记本实列,包含项目运行环境以及核心代码

Claud2:AmazonBedrockLLM大模型

S3:存储图片和视频

ComfyUI:提供了节点式的界面,进行GenAI推理网站

Ngrok:第三方反向代理软件,方便外部访问ComfyUI

实现步骤

申请NgrokAuthtoken

Ngrok是一个第三方的反向代理应用,通过安全可靠的内网穿透能力提供了较为方便的网络访问端点。在使得ComfyUI能够公开访问之前,需要去Ngrok的官方网站申请一个免费Authtoken。

CloudFormation安装

获取到安装模板后,需要填写如下参数:

StackName:CloudFormtion堆栈名字,方便管理

NotebookInstanceName:SageMaker笔记本的名字

NotebookInstanceType:SageMaker笔记本实列类型,建议g5系列

VolumeSizeInGB:SageMaker笔记本硬盘大小,建议300G以上

SageMakerIAMRole:如果留空,则会创建新的笔记本执行角色

DefaultCodeRepository:项目的Github地址

等待5-10分钟后,可以在CloudFormationOutputs中,或者SageMaker中找到对应的笔记本连接:

进去后,发现项目源码也下载好了,具体内容如下:

comfyui-Sagemaker-notebook.ipynb:安装和运行ComfyUI

comfyui-Bedrock-Claude2-notebook.ipynb:Claude2调用ComfyUI管线

workflows:ComfyUI生成视频管线

langchain_tasks:langchain模版文件

utils:python脚本

安装运行ComfyUI

进入/home/ec2-user/SageMaker/SageMaker-ComfyUI,打开comfyui-Sagemaker-notebook.ipynb,顺序执行脚本即可

将前面获取的Ngrok的authtoken替换到对应的位置

获取ComfyUI项目,安装环境依赖

按需获取VAE,Checkpoints,ControlNets,Lora等等

推荐安装ComfyUI的插件:comfyUI-manager,animatediff,upscaler等等

运行NgrokAgent+ComfyUI

成功起来后,即可获得一个公开的访问地址(蓝色文字部分,第一次访问,可能会看到警告,可以忽略直接访问)

如果想停止对外服务,停止SageMakernotebook即可

如果想回收资源,找到对应的CloudFormation删除即可

测试管线

当ComfyUI的网站起来以后,可以做以下测试(将图片拖到ComfyUI即可使用)

txt2img:

txt2gif:

可编程管线

后面将基于下面的管线制作视频,导入ComfyUI。

使用可编程管线之前,需要开启ComfyUI的EnableDevmodeOption模式,然后保存为API模式。

Claude2安装和设置

进入目录/home/ec2-user/SageMaker/SageMaker-ComfyUI,获取笔记comfyui-Bedrock-Claude2-notebook.ipynb,顺序执行脚本即可。

测试生成短片代码,生成目录为/home/ec2-user/SageMaker/outputs/:

安装Bedrock以及Claude2所需的依赖

测试AmazonBedrock是否安装成功

提示词工程

如果上面都通过后,接下来就可以尝试让Claude2去生成各种prompt即可。

通过上面例子,可以看到prompt设置需要比较具体地描述业务需求。总结下来的一个比较有效的prompt工程格式为:

角色描述+业务描述

业务约束条件

参考输出例子

嵌入可替换的参数

总结

本文提供了一个快速搭建Claude2与ComfyUI的解决方案,通过程序化手段巧妙地将这两个LLM和视频生成模型融合,使其在实际业务场景中具备更显著的价值。

我们欣喜地看到,Claude2具有单次可处理10万个token的强大能力,能够帮助快速解析理解各种长度的文本提示,并生成所需的高质量输出结果。基于Claude2的这些输出,可以进一步驱动ComfyUI的视频生成流程,只需要替换其中的关键参数,就可以实现个性化的视频生成。通过这个方案,成功实现了LLM与视频生成模型的有效融合,使之为实际业务带来更多可能性。

原标题:释放Claude2和ComfyUI超强能力,基于AmazonBedrock和SageMaker的GenAI视觉管线

(本内容转载于网络,文中图片等内容如有侵权,请联系编辑删除。市场有风险,选择需谨慎!此文不作选择参考。)

THE END
1.零基础入门ComfyUI(一)初识ComfyUIComfyUI HelloWorld 打开浏览器,你会看到如下的内容: 如果你已经安装了相关的模型,可以在Load Checkpoint中选择你的模型,然后点击右下角的Queue Prompt,即可完成 comfyui 的 hello world,下图是一个示例,不用担心,后面的文章会进行一一讲解。 成功后,会在Save Image节点展示相关图片; https://blog.csdn.net/2401_84760322/article/details/141020338
2.解决抖音AI绘画黑屏问题的方法BIM免费教程本文旨在为用户提供一个详尽的指南,帮助他们解决在使用抖音AI绘画功能时遇到的黑屏问题。通过分析可能的原因以及提出相应的解决方案,让用户能够顺利使用这项创新技术进行创作。 随着人工智能技术的发展,许多应用程序解始引入AI功能以增强用户体验。抖音作为一个广受欢迎的短视频平台,也不例外地推出了AI绘画功能。然而,https://m.tuituisoft.com/ai/213921.html
3.ComfyUI+Flux生成图片是纯黑色的问题解决朋友听说AI生成图片朋友听说 AI 生成图片,8 月出现了 Flux,好用到爆,打算要亲身体验一下。使用 ComfyUI + Flux 搭建了本机环境,结果生成的图片是黑色,如下图: 从网上找了一个 Issue(github.com/comfyanonym…),里面提到的解决办法是,使用git reset --hard b0ab31d将 ComfyUI 回退到指定的版本。 https://juejin.cn/post/7408103832143396901
4.终极FLUX.1实战指南将下载的大型模型放入 ComfyUI\models\unet 目录。 如果你有16GB或更多的VRAM,官方模型无疑是最佳选择,提供最佳性能和图像质量。 接下来是FP8模型,这些模型比原模型小得多,可以在8GB VRAM上运行,生成关键文本和细节的质量没有明显下降。 然后是@lllyasviel发布的NF4量化版本。这些模型更小且生成图像更快。在WebUIhttps://www.imooc.com/article/359069
5.ComfyUI帮你不断的生成图片15.ComfyUI的提示词融合 16.ComfyUI中的交错绘制 17.ComfyUI生成相似风格图像-Seed的定义 18.ComfyUI帮你不断的生成图片 19.为什么我高清图片反而崩了 20.引用TextEmbedding和HyperNetworks 21.图片对比节点ImageCompare 22.ComfyUI基于手绘图生成相应内容 https://edu.51cto.com/lesson/1084443.html
6.AIGC3D&Unity文生贴图方向自研ToC级的实现技术专栏AI浪潮下,2D图像领域的应用已经非常泛滥,相关的工作流已经趋于成熟,各种以SD、ComfyUI、MJ为底的应用服务应运而生,结合2D领域较为成熟专业的AIGC工作流开源项目<ComfyUI>然后高度定制为ComfyUI产出服务的着色器,使得直接在ToC领域得到成熟的应用 U首发价值技术点:《3D个性化贴纸》 概要:先进行符合AIGC生产标准的3Dhttps://developer.unity.cn/projects/65dee8ededbc2a001f827d70
7.[ComfyUI]更可控的iclight图片打光效果:3D实时打光!快过年了,大家工作的心情应该都差不多,最近出圈的新技术出的也少了!我们还是继续来介绍有趣实用的 ComfyUI 插件吧! 今天要介绍的插件和图像打光有关,不过和别的打光插件不同的是,它可以进行 3D 实时打光,听着应该还是蛮高大上的,实际效果也确实很不错。 具体怎么个https://dardrwsz7u9.feishu.cn/wiki/AtHqwgt0AipWYHkXzCKcLnIDnIc
8.ComfyUI入门教程新手小白同时,因为内部生成流程做了优化,生成图片时的速度相较于webui又10%~25%的提升(根据不同显卡提升幅度不同),生成大图片的时候不会爆显存,只是图片太大时,会因为切块运算的导致图片碎裂。 该界面可让您使用基于图形/节点/流程图的界面设计和执行高级稳定扩散管道。(comfyui的官网:https://github.com/comfyanonymoushttps://www.jianshu.com/p/3506a68397ed