基于大语言模型和机器视觉的智能制造系统人机自主协同作业方法
黄思翰,陈建鹏,徐哲,阎艳,王国新
引用本文:
原文阅读(摘要)
关键词:工业5.0;人本智造;智能制造系统;大语言模型;机器视觉;人机自主协同作业;深度学习
中图分类号:TH16;TH18;TP18
0 前言
工业4.0的提出把工业带入到技术加速驱动的转型升级快车道,并取得了卓有成效的发展。近年来,以价值为驱动力的工业5.0逐渐引起各界的关注,其中“以人为中心”的理念逐渐得到大家的认可,并形成了“以人为本的智能制造”(人本智造)新领域。人机协同作业(Human-robot collaboration,HRC)是“以人为中心”理念在智能制造系统中的典型应用。随着人工智能、大数据、物联网等新兴技术的广泛使用,人机协同作业模式正在发生新的变化,也带来了新的挑战。
智能制造系统中的人机协同作业通常是指操作工与机器人在同一个制造环境中相互配合来共同完成作业任务。一方面,操作工是人机协同作业的“灵魂”,兼具灵活性和创造性;另一方面,机器人通常在人机协同作业过程中扮演擅长从事简单重复、重体力等任务的角色。事实上,从机器出现之初就产生了人与机器或机器人的交互及协同作业的议题。一开始,由于技术发展的历史局限性,人与机器人的协同作业必须建立在绝对安全的环境下进行,也就是通过设置物理围栏的形式,采用时间交错的协同作业方式,难以充分发挥人与机器各自的优势。随着技术的发展以及新型生产关系的出现,人与机器人在同一个工作环境中进行同步协作逐渐成为可能,人机协同作业将会变得更加智能化和自然化,人和机器人之间的协作也将变得更加紧密和高效。基于上述目标,国内外研究人员围绕人机协同作业状态感知、机器人作业路径规划等主题开展了一系列研究,积累了丰富的理论方法成果。WANG等提出了一种基于深度学习的预测情境感知人机协同作业的人体动作识别方法,引入两个AlexNets分别用于人体运动识别和零件工具识别。AL-AMIN等提出了一种基于骨架数据的深度学习分类器来个性化识别操作者的装配动作,提高了操作工人的动作识别精度。BILBERG等提出了一种面向对象的事件驱动仿真方法,在数字孪生技术的赋能下实现人机协同实时控制以及基于技能的动态任务分配,探索了具有高柔性的人机协同伙伴模式。ZHU等对人机协同模式下智能制造单元的布局重构进行了探讨,围绕时间、成本以及人机空闲建立多目标优化模型,并利用NSGA-II算法进行求解,动态优化人机协同作业布局,提高生产效率。LIU等对手势识别技术和算法进行综述,探讨了手势识别在人机协同作业的应用情况,并建立了一个人机协同作业手势识别的整体模型,涵盖传感、识别、跟踪及分类等内容。DUAN等提出基于多模态感知的双机器人装配系统人机协作框架,通过手势感知、语音感知、人体感知和视觉感知为机器人控制提供多模态信息交互。LI等在操作工运动意图未知和机器人动力学未知的情况下,提出了人机协同作业的自适应阻抗控制方法。李祥文等对人机协同决策中的人因能力评估进行了深入研究,充分考虑人的特性和因素下研究人与机器、环境的交互活动,为人因能力提供新定义。YE等引入Chat GPT来提升人机协同作业过程的互信度,确保作业安全性。从现有研究可以看出,人机协同作业是一个很活跃的研究领域,研究人员在探索过程中也不断融合数字孪生、深度学习、大语言模型(Large language model, LLM)等新技术来提升协同作业效率、人机互信度等。然而,现有研究侧重于从人机协同作业过程中的某一个单点切入进行研究,比如手势识别、人机互信等,对于如何让机器人更好的理解生产任务以及操作工意图来自主进行协同作业配合的研究较少。随着机器视觉的加速应用以及人工智能技术的快速发展,特别是大语言模型的出现和垂直应用,为人机自主协同作业的实现提供了技术基础和可能性。
基于此,本文提出了基于大语言模型和机器视觉的智能制造系统人机自主协同作业方法,以视觉感知为驱动力,以大语言模型为决策力,建立操作工与机器人在协同作业过程中的认知链,达到人机自主协同作业的效果,为实现人机共融提供重要抓手。首先,对智能制造系统中人机协同作业过程以及存在的难点进行了详细分析;然后,利用深度摄像头建立机器人视觉感知系统,通过融合YOLOV7和迁移学习来识别作业对象状态,借助长短期记忆网络(Long short-term memory, LSTM)和注意力机制动态追踪操作工的作业动作;进一步,对大语言模型进行微调,以适配人机协同作业需求,并建立基于微调大模型的人机协同作业决策框架,实现动态作业过程的操作工与机器人自主协同作业。最后,为了验证所提方法的有效性,以减速器装配为例进行试验分析,试验结果提供了正向的效果支撑,也为进一步应用推广提供参考。
1 智能制造系统人机
协同作业分析及研究框架
当前,智能制造系统人机协同作业执行过程中,操作工与机器人的关系从传统的“主-从”模式向“伙伴”模式转变。基于此,也衍生出了一种新的机器人——协作机器人(Collaborative robots)。相较于传统的工业机器人,协作机器人更强调在生产作业过程中与操作工发挥各自优势进行通力配合(前提是保证操作工的安全)来共同完成生产任务的目标。
在典型的协同作业过程中,两个或者多个操作工对所要执行的任务会有共识,并且在具体执行过程中动态辨识协作伙伴的作业状态,以便随时进行作业动作调整来更好地完成作业任务。对于人机协同作业来说,人类操作工之间的协同作业是其进化的重要标杆,也是人机协同作业理论方法研究、应用场景探索过程中需要重点对标的内容。具体来说,在人机协同作业过程中,如何让机器人更好地领会操作工的意图,并快速、准确地进行协作决策,高效、安全、协同完成作业任务,是人机协同作业亟需解决的问题,也是当前研究的热点。
因此,本文将以智能制造系统的人机协同作业过程中的操作工意图识别和机器人作业决策为切入点来开展研究工作,达到人机自主协同作业的效果,如图1所示。生产任务动态下发,涉及产品类型、工艺规划、操作规程等必要信息,并根据机器人和操作工各自的特点进行任务分工(已知)。基于此,机器人在机器视觉、深度学习以及大模型的支持下建立智能感知、智能决策路径,与人类操作工联合形成协同作业认知链路,在自主、动态交互过程中高效、准确地共同完成生产任务。
2 融合机器视觉和深度学习的
人机协同作业状态感知
在智能制造系统中,作业状态的准确感知是人机自主协同的关键。通过感知当前工作状态,协作机器人能够实时识别操作工的动作情况和作业对象的种类、位置、进度等关键信息,奠定人机之间自主化协同作业的基础。在机器视觉基础上,针对人机协同作业过程中的作业对象和操作工动作的不同特点,一方面采用YOLOV7和迁移学习算法来识别作业对象的作业进度,另一方面融合LSTM和注意力机制来实时感知操作工的动作情况,并通过信息融合为机器人自主协同作业决策提供支持,如图2所示。
2.1 融合YOLOV7和迁移学习的作业对象状态识别
You Only Look Once(YOLO)算法是一种基于深度学习的一阶段目标检测算法,其核心思想是将目标检测任务转化为一个单次前向传递的回归问题。YOLO算法的优点在于其速度和实时性。YOLOV7是YOLO系列中最先进的算法之一。考虑到人机协同作业对目标检测准确性、效率具有很高的要求,因此,采用YOLOV7算法对协同作业对象的状态进行识别。
在智能制造系统中的关键零部件往往具有相似的图像特征,YOLOV7模型在面对新的生产任务时需要能够快速部署。然而YOLOV7模型在训练过程中,初始效果通常不够理想,损失函数较大,训练结果差异显著。迁移学习可以在训练数据不足时,加快收敛速度,减少计算资源。因此,利用迁移学习对YOLOV7进行训练,将识别零部件相似特征的通用权重有效利用起来,提高模型训练的效率和准确性,如图3所示。由于预训练模型中的主干网络所提取的特征具有通用性,以基于COCO数据集的YOLOV7预训练模型中的权值作为训练的初始权值,在训练前先冻结主干网络,仅对模型的头部网络进行训练,利用已提取的特征来完成关键零部件的分类任务(迁移学习过程)。通过冻结主干网络进行训练,不仅能提高训练效率,还能有效防止特征提取权值被破坏。在冻结阶段,仅对头部网络进行微调,特征提取网络保持稳定,不发生改变,占用的计算资源相对较小。
本算法的损失函数综合考虑了关键零部件定位的坐标损失和零部件识别分类损失,计算过程如式(1)所示。
式中, 表示损失函数; 表示零部件识别分类损失; 表示关键零部件定位的坐标损失。
零部件识别分类损失的计算过程如式(2)所示。
式中,为零部件类别数量;为Sigmoid函数;为符号函数,如果识别到的关键零部件属于真实类别,则取值为1,否则为0。
关键零部件定位的坐标损失计算采用CIoU损失,以提高目标框回归的稳定性,计算过程如式(3)所示。
式中,,A与B分别为预测框与真实框的覆盖区域;为预测框与真实框的最小闭包区域的对角线距离;为零部件识别预测框的中心点;为真实框的中心点;为权重系数;用于衡量长宽比的一致性,其计算过程如式(4)所示。
式中,与分别为预测框的宽度与高度;与分别为真实框的宽度与高度。
2.2 基于LSTM和注意力机制的操作工动作识别
在人机协同作业过程中,操作工作业动作的高效、精准识别同样十分重要,进而实时获取操作工的工作状态,为机器人的智能决策提供准确、及时的信息输入。因此,引入了在时序数据处理方面十分优秀的LSTM算法,并结合注意力机制来增强动作识别算法的适应能力。具体来说,利用机器视觉获取操作工图像数据,提取操作工身体关键信息并转化为时间序列数据,并输入到融合LSTM和注意力机制的神经网络中进行动作分类,实现操作工作业动作的准确识别,如图4所示。
考虑到生产环境的复杂性,引入MEDIAPIPE图像处理框架提取操作工作业动作的关键点,以减少环境对动作识别过程的干扰。具体来说,需要提取操作工的三类主要关键点,包括手部关键点、骨架关键点以及面部关键点。手部关键点包含了操作过程中的动作细节,骨架关键点包含了操作工的躯干信息,面部关键点包含了操作工的面部位置和朝向信息。上述关键点将为机器人判断操作工的作业状态提供关键信息。
通过提取上述关键点可以持续获取操作工的作业动作数据。LSTM在处理类似操作工作业动作这类时间序列信息时,可以展现其独特的优势。LSTM在激活函数、输入、输出和遗忘门结构共同作用下能够“记住”操作工动作的历史信息,在处理当前动作时能够捕捉到操作工动作序列中的时间依赖性,从而提升动作识别的效率和准确性。为了提升模型的学习能力和泛化能力,采用多层LSTM结构(见图4)来处理操作工作业动作时序数据,细胞间的信息传递如式(5)所示。
式中, 表示当前细胞状态; 表示前一个细胞状态; 表示候选细胞状态,它包含了当前输入和前一个隐藏状态的信息; 是双曲正切激活函数; 表示隐藏状态。
LSTM单个细胞内的信息处理过程如式(6)所示。
式中, 分别表示输入门、输出门和遗忘门; 分别表示输入、遗忘、输出门的权重矩阵; 分别是各个门线性变化的常数值; 表示Sigmoid激活函数; 表示LSTM第 层的输入。
操作工动作时序数据经过LSTM模型处理后,按照式(7)的形式输出。
在实际应用中,操作工的某些动作特征具有较高的重要性,比如操作工的手部动作等。为了更加专注于某些关键的动作信息,在模型中加入注意力机制来动态生成权重向量,对输入数据进行加权。定义了 作为评分函数,用于计算目标序列和源序列隐藏状态之间的相似度,如式(8)所示。
式中, 是可训练的权值矩阵, 是可训练的偏置。
综上,可以计算出加权后的操作工动作识别信息向量 ,如式(10)所示。
3 基于大语言模型的
人机协同作业自主决策
大语言模型具有出色的自然语言理解和逻辑推理能力。本文结合大语言模型与人机协同作业软硬件条件构建可以主动进行协作的机器人决策大脑。基于领域知识和逻辑链对通用大语言模型进行微调,以满足智能制造系统领域的推理需求;进一步,利用前文所获得的作业状态融合信息构建人机自主协同作决策框架,提升人机协同作业自主化、智能化水平。
3.1 基于领域知识与逻辑链的大语言模型微调
面向智能制造系统领域从零构建相应的大语言模型需要大规模数据和计算资源,耗费的时间和成本非常高,性价比较低。考虑到通用的大语言模型是基于大量语料训练得到的,包含了丰富的语义关系和各领域知识,为特定领域进行重塑和微调形成垂直领域的定制化大模型奠定了基础。而通过构建逻辑链让大语言模型逐步将一个复杂问题分解为紧密相连的子问题并依次进行求解的过程可以显著提升大语言模型的性能。因此,基于领域知识和逻辑链对大语言模型进行微调,不仅可以大大缩短训练所需的时间,减少计算资源的使用,而且可以依靠少量数据快速适应新的特定领域,进而为人机协同作业过程的快速推理决策提供有力支持。
本文以通用大语言模型为基础,分成两个阶段对通用大语言模型进行微调。以常见的人机协作规则、特定产品的生产工艺知识及典型场景信息为训练数据。为了更好地帮助预训练模型理解微调数据以及更方便进行微调语料输入,对微调数据进行结构化处理,将其转化成对话问答形式对通用大模型进行整体微调,使其从具有高泛化能力的模型转变为聚焦于智能制造系统特定人机协作场景的专业大语言模型。通用大语言模型并不能很好地直接完成从状态感知到任务指令输出的特定任务操作逻辑推理,因此,进一步为人机协同任务序列推理设置一个逻辑推理链来进行大语言模型的提示微调。整个微调过程将模型的信息处理过程视作一个逻辑分析序列,由特定作业场景理解、作业状态处理、任务指令输出组成,各个部分相互独立。输入为人机协作的状态提示词文本,输出为协作机器人任务指令,而中间的思维链就将推理过程拆分成独立的逻辑处理模块,使得大模型可以按照首先理解场景信息、然后处理作业状态和最后输出任务指令的思维顺序进行操作场景的理解和任务控制。这一过程极大地提高了通用大语言模型在理解特定人机协同操作任务的能力,在可以快速部署和运行的情况下,使得机器人能够更加智能地理解操作工的操作状态,主动完成复杂的人机协作任务,微调过程框架如图5所示。同时,也为大模型设置了输出提示模板,确保微调后的大模型能够输出具有结构化格式的人机协同作业指令,简化了编解码过程,提高微调大模型的使用效率。
3.2 基于微调大模型的人机协同作业决策框架
在完成了大语言模型的微调后,需要进一步与协作机器人集成到一起来组成人机协同作业智能决策大脑,为人机协同作业自主化提供决策支持,如图6所示。首先,将操作工动作信息和作业对象状态信息进行融合,形成信息输入模板,为人机协同作业决策提供有效、可信数据支撑。然后,微调后的大语言模型对输入的结构化信息进行解析、推理,形成作业进度及下一步需要执行的作业步骤信息,并以提示文本的形式输出。最后,将输出的提示文本信息解码成协作机器人的控制指令,驱动协作机器人执行下一步任务。值得注意的是,当任务执行过程中出现异常指令则立即停止相关任务,以保障操作工的安全。
4 案例验证
以一个减速器装配过程为例,验证本文所提的基于大模型和机器视觉的人机自主协同作业方法的可行性和有效性。试验涉及1个3D打印的减速器、1台具有机器视觉(双摄像头)的协作机器人以及1个操作工,如图7所示。
4.1 构建数据集
4.1.1 建立减速器关键零部件数据集
为减速器各个零部件拍摄10 s的视频,利用OPENCV对拍摄的视频进行抽帧处理,将视频扩展成拥有2601张各零件图像的数据集,在数据集中拥有9个类别的零部件,包括机体、上箱盖、轴承端盖、端盖、齿轮轴、大齿轮、大轴、键、定距环,如图8a所示。减速器的工艺路线为“减速器成品={机体→{定距环→大轴→键→大齿轮}→齿轮轴→上箱盖→端盖}”,其中定距环、大轴、键、大齿轮共同构成减速器的一个子装配体。由于YOLO算法是有监督深度学习,因此,需要利用LABELIMG对数据集进行标签化处理,对主要的零部件打标签,将标签的位置等信息做归一化处理并统一成text格式,形成标签文件,即减速器关键零部件数据集,如图8b所示。
4.1.2 建立操作工装配动作数据集
采集减速器人机协同作业场景中人的三个状态数据,包括“装配”、“等待”、“离开”。“装配”代表操作工正在装配减速器的某一道工序,“等待”表示操作工完成一个零件装配工作后,等待机器人传递零件,“离开”代表操作工完成当前工作离开协同作业场景。在协同作业过程中,机器人会持续监测操作工的状态,操作工的状态则进入“等待-装配-等待”的循环。这个过程中,机器人适时传递所需的零件,直到完成减速器装配,操作工离开,结束本轮的协同作业。在动作数据采集过程中,每个动作采集30个从不同角度拍摄的30帧视频。每个动作采集到的每三十帧关键点位置信息储存为一个样本,数据结构如图9a所示。所获取的装配动作数据实例如图9b所示。操作工装配动作数据集如图9c所示。
4.2 装配作业状态感知模型训练
基于上述数据集对装配状态感知模型进行训练,包括融合迁移学习的YOLOV7模型以及融合注意力机制的LSTM模型。装配状态感知模型训练的软件环境为Python3.7、Pytorch使用的计算机配置为Intel Core i9-12900H、NVIDIA Geforce 3070Ti。
如前文所述,在利用融合迁移学习的YOLOV7模型进行减速器装配进度识别前,需要利用迁移学习进行预训练YOLO模型的迁移训练:冻结预训练YOLO模型的主干网络权重(前50层),仅训练50层头部网络,批量大小为8,图像大小设置为640×640,学习率设置为0.01,经过248个epoch的训练后得到结果如图10a所示。从图中可以看出,Precision达到0.8,Recall也接近0.8。根据Precision和Recall相互关系,融合迁移学习的YOLOV7模型在漏检和误报间取得了较好的平衡,能够满足减速器装配这类节奏不是特别快的生产作业需求。利用迁移学习训练好的YOLOV7模型进行效果测试,如图10b所示。试验效果表明融合迁移学习的YOLOV7模型可以准确地识别减速器各个零件,证明了其有效性。
进一步,面向操作工装配动作识别构建一个具有3层结构的LSTM模型,对输入的动作关键点序列进行深度编码。每层LSTM都采用了ReLU激活函数,并使用Adam优化器进行优化。将编码后的序列输入到注意力机制层,用于计算注意力权重,并根据这些权重对序列进行加权。注意力机制的输出经过展平处理,转变为一维,以便于后续的全连接层处理。动作识别数据集经训练后的收敛情况如图11a所示,经过200个epoch的训练后神经网络基本收敛并可以得到准确的分类识别结果。尽管训练每个动作只采集了30个30帧的数据集,但是通过训练过程的参数变化可以看出Training Loss趋近为0,而Training Accuracy趋近于1,训练效果较好。由于人的动作具有连续性,为了保持动作识别效果的稳定性并避免突然的动作识别错误,我们特别设置了一套预测结果修正规则:只有当连续五个30帧动作的识别结果指向新的动作时,系统才会输出新的动作识别结果。实时检测的效果如图11b所示,结果显示能够较为准确和完整地识别出人的面部、躯干和手部特征点,在受到遮挡的情况下,也可以预测出关键点所在位置,展现了很强的识别能力。
4.3 大模型微调及协同装配决策
在完成装配作业感知基础上,进一步利用微调大模型实现机器人控制决策。将人机协作的安全规则、场景信息和工艺信息文档转化成json格式的约2000字符文档输入到CHAT GPT-4中进行微调,设置训练参数epochs=9、batch size=1、LRmutiplier= 1.8,数据集与训练收敛过程如图12所示。由图12可看出,经过少量文档数据90次约10 min的微调训练后,模型的收敛效果较好。
通过对比试验发现,未经微调训练的CHAT GPT-4模型输入当前装配状态后输出的指令为对装配领域的通俗论述,响应速度为3 074 ms,占用Token为170 t,而微调后的模型响应速度提升了65%,占用资源Token减少89%且有效输出准确的匹配当前装配状态的任务指令,如图13所示。
为了进一步提高状态输出指令的稳定性,使模型输出可以直接驱动协作机器人的任务指令,基于LangChain框架使用提示词工程对模型的信息处理过程进行微调。利用装配场景输入模板、状态处理模板和输出提示词模板形成完整逻辑提示链,使模型可以根据逻辑链进一步拆解任务协作处理逻辑的同时直接准确输出协作机器人任务指令,如图 14a所示。图14b展示了人机协同作业状态输入以及机器人自助协同作业指令输出的示例。每段对话的开头输入的是检测到零部件种类和数量以及当前操作工的工作状态,输出为所需的零件以及机器人操作任务指令。
例如,当状态感知系统识别到当前正在装配机体、大齿轮、齿轮轴,操作工的状态为正在装配时,模型输出指令为“需要上箱盖,执行抓取上箱盖操作”。根据减速器的工艺路线,当作业状态感知模块识别到齿轮轴时,下一步就可以安装上箱盖,模型输出指令与工艺路线匹配,验证了决策结果的正确性。在此基础上,机器人接收到模型输出的指令后,根据零件所在位置,通过逆运算进行运动求解实现自适应抓取和传递,形成人机自主协同作业闭环。
4.4 人机协同装配原型系统实现
将装配作业状态感知、微调大模型决策集成建立人机协同装配原型系统,如图15所示。图15左上角的装配状态感知模块精准捕捉了三个核心的关键零部件,右上角识别到操作工当前正在执行的动作。图15左下角的微调大模型决策模块能够迅速分析并下达下一步的任务指令,并指导机器人执行协同装配任务。图15右下角的装配现场监测模块实时获取人机协同作业执行过程,动态监测本文所提方法的执行效果,并实时保障操作工的作业安全。
在本文选用的减速器模型装配实例中,随着装配状态的变化,人机协同装配系统响应迅速,延迟约为500 ms。当操作工完成当前工序时,协作机器人已提前抓取并准备好下一工序所需的部件,并在确认操作工状态安全后将其传递给操作工,如图16所示。与传统的仅由操作工执行装配的模式相比,该系统显著减轻了操作工的认知负荷,同时提升了装配效率。
5 结论
智能制造系统的人机协同作业是工业5.0阶段的重要研究热点。针对人机协同过程的自主化、智能化问题,本文提出了基于大语言模型和机器视觉的智能制造系统人机自主协同作业方法。在分析智能制造系统的人机协同作业场景基础上,建立了人机自主协同作业框架,融合机器视觉和深度学习实现人机协同作业状态感知,在微调大模型赋能下对人机协同作业过程中的机器人作业进行智能决策,并通过一个减速器装配的实际案例对所提方法的可行性和有效性进行验证。试验结果表明,本文所提算法以及集成形成的人机协同装配原型系统能够为人机协同作业迈向自主化、智能化提供有效参考。
未来的研究工作可以进一步探索基于国产化、轻量化大模型的人机协同作业决策方法,建立具身智能,进一步提高任务决策响应的速度和准确性。同时,目标检测算法是人机自主协同作业效率和准确性提升的重要环节之一,在未来的研究工作中有必要进一步探索相关创新算法。另外,当前的人机协同作业主要聚焦在单个机器人和单个操作工所组成的人机协同作业系统,在未来的研究中可以拓展到多人-多机器人同时进行协同作业的生产场景,进一步突破相应的理论方法,具有很高的科学意义和实际价值。
作 者:黄思翰
责任编辑:赵子祎
责任校对:恽海艳
审 核:张 强
JME学院简介
欢迎各位老师扫码添加小助理-暖暖为好友,由小助理拉入JME学院官方群!
寻觅合作伙伴
有一种合作叫做真诚,有一种发展可以无限,有一种伙伴可以互利共赢,愿我们合作起来流连忘返,发展起来前景可观。关于论文推荐、团队介绍、图书出版、学术直播、招聘信息、会议推广等,请与我们联系。
感谢关注我们!《机械工程学报》编辑部将努力为您打造一个有态度、有深度、有温度的学术媒体!
联系人:暖暖
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.