400-035-6699
当前位置: 首页 » 技术支持 » 博文资讯 »

多种图像压缩算法加速网络传输以实现高效机器人自动控制系统设计

信息技术飞速发展的当下,远程控制机器人已经变成一种触手可及的技术。这种技术不仅让实时监测机器人活动成为可能,还能够通过传输的图像对机器人实施精准控制。然而,人工直接进行远程控制常常会面临长时间监视和重复发送指令的困扰。这时候,电脑的智能化自动控制便显得尤为重要。
针对这一需求,我们研发了远程机器人的自动控制平台。这个平台是在原有实时图像传输和控制系统的基础上升级的,包括远程机器人站点和控制站点两个部分。远程机器人站点负责图像的采集、压缩和传输,以及接收并执行控制指令;而控制站点则负责图像的解压和显示,并向机器人站点发送控制命令。自动控制平台的特色在于,控制站点的应用程序中加入了对图像进行智能分析和自动指令发送的功能。
在图像采集与显示方面,我们使用了Video for Windows SDK(VFW),这是一个由Microsoft公司提供的视频处理接口。尽管我们的开发环境是Delphi,而VFW原生支持的是VC和VB,我们还是通过改写vfw.h文件,使其能在Delphi环境下工作。尽管如此,程序运行时实际使用的还是Windows Driver Model(WDM),它在视频处理方面相比VFW有更多的优势。
图像压缩是远程控制中的关键技术之一。我们的系统采用了多种压缩算法,以适应不同的网络环境和实时性要求。比如,在网络状况良好时,我们使用质量较高的MPEG4算法;而网络状况较差时,则使用数据开销较小的H.263算法。
为了更好地适应网络条件,我们还设计了自适应传输机制。一种是帧频自适应,通过调节视频发送速率来调整图像质量;另一种是通信带宽自适应,通过调整关键帧和非关键帧的质量来控制数据量。
在多进程和多线程的使用上,我们的系统能够同时控制多个机器人站点。每个站点控制进程都有几个线程负责不同功能,如文字通信、同步性维护、图像接收与解压缩、以及自动控制等。
自动控制的核心在于图像分析与指令发送。系统通过比较实时图像与预设的标准图像来判定机器人的状态,并据此发出相应指令。由于机器人动作方式的限制,我们只需对关键部位如头部和手臂的图像进行比较即可。
自动控制平台的设计理念是将机器人的运动过程分解为多个关键状态,并存储这些状态的图像及相应指令。执行运动过程时,系统读取这些数据,实时图像与关键状态图像比较后,发出指令实现自动控制。
我们使用的数据结构设计灵活,可以适应不同运动过程的脚本文件。这些脚本文件包含了执行运动所需的所有状态信息和指令。通过这种设计,我们能够方便地进行图像截取、脚本存储和读取。
在实验室环境中,我们对系统进行了充分的测试,验证了关键设计思想的可行性。测试结果显示,即使在脚本包含大量图像的情况下,系统仍能快速得出比较结果,证明了自动控制平台的有效性和可靠性。

作者:付昊桓,戴梅萼,周健,常剑

多种图像压缩算法加速网络传输以实现高效机器人自动控制系统设计

1 自动控制平台概述

在网络和多媒体技术飞速发展的今天,通过网络传输的远程机器人图像对机器人进行控制已经成了一种可行的技术。利用这种技术,可以对远程机器人的活动进行检测,从而获得实时的信息,再据此向远端的机器人发出某种命令。但如果由人直接在远端进行控制,就需要其长时间地通过传输过来的图像监测机器人的行为,同时还要不断向远端机器人发送相同的命令。显然由电脑进行智能化的自动控制更合适。

远程机器人的自动控制平台正是基于这种考虑而研制的。本课题组研制的原有的远程机器人实时图像传输和实时控制系统分为两个部分:一是远程机器人站点,二是控制站点。其中远程机器人站点负责图像信息的采集、压缩、传输,同时接收控制端发送的命令并执行;控制站点对图像进行解压、显示,同时向远程机器人站点发送命令。自动控制平台就是在原有系统的基础上,在控制站点的应用程序中加上了对远端传送过来的图像进行判断、并依据判断自动发送命令的部分。

2 相关技术

2.1 图像的采集与显示

在远程机器人站点,需要对机器人现场进行图像采集;而在控制端,则需要对机器人的图像进行显示。

在本系统的应用程序中,采集和显示是通过对VFW的调用来实现的。VFW(Video for Windows SDK)是Microsoft公司于1992年推出的被称为AVICap窗口类函数的系统调用接口。通过VFW的调用,可以通过发送信息或是设置属性来采集或播放视频剪辑。如在程序中,调用capCreateCaptureWindow就可以创建一个视频采集窗口,调用capSetCallbackonFrame就可以设定采集到一帧图像时的回调函数,在回调函数中可以进一步作显示或对图像作其它处理。

VFW只有VC和VB版本,而本系统采用Delphi进行开发,以便获得Delphi优良的界面功能和多线程机制。为此需要先用Pascal对vfw.h进行改写,得到在Delphi中可以直接调用的vfw.pas文件。

尽管在编程时使用的是VFW,但是由于程序运行在Windows2000下,实际上驱动程序仍是使用WDM(Windows Driver Model)。WDM也是由Microsoft公司推出的,相对于VFW,在视频会议、PC/TV等方面有较大优势。

2.2 图像压缩

本系统中采用了多种图像压缩算法,以适应多种网络传输环境和实时性要求,其中包括显示质量好但开销大的MPEG4,以及开销小适用于远程传输但网络传输率低的H.26x。此外还有本课题组自行开发的一个Tsinghua H.263压缩算法,在系统使用时可以根据网络的情况来进行选择。如果网络情况好,则使用显示质量好的MPEG4,如果网络不好,则使用开销小的H.263。

2.3 网络传输的自适应

除了压缩算法可灵活选择之外,本课题组还设计了两种自适应的方法来对传输进行调节,以便更好地适应网络条件。一种是帧频的自适应,通过调节机器人端视频发送速率来实现对图像质量的自适应;另一种是通信带宽的自适应,通过调节关键帧和非关键帧的质量来调节单位时间发送的数据量,从而与网络情况相适应。

2.4 多进程、多线程的使用

本系统可同时控制多个机器人站点。每当连接一个新的远程机器人站点时,控制站点会自动产生一个新的进程对该机器人站点进行控制。在对一个机器人站点进行控制的进程中,同时会有几个线程来分别实现几方面的功能。ChatThread线程负责机器人站点和控制站点之间的文字通信,SyncThread线程则负责两站点传送和接收的同步性,最大的也是最主要的DrawThread线程负责图像的接收、解压缩以及显示,同时实现自动控制功能。

2.5 自动控制

如前所述,自动控制包括两方面:一是对传送过来的图像信息进行分析,获得机器人的实时状态。二是依据机器人目前所处的状态发出相应的命令。

对图像信息进行分析是通过与标准图像进行比较来实现的,以此来确定机器人是否已经进入了某种状态。如果发现机器人当前处于某种标准图像对应的状态,则控制站点会发出与该状态相对应的命令。

由于目前机器人不可能有很灵活的细腻的动作方式,所以只需要对几个关键部位(例如头部、手臂等)的图像进行比较,即可确定机器人当前的状态。由此,为标准图像的存储和识别提供了有利条件,也为自动控制平台的设计和实现提供了前提。

3 自动控制平台的设计与实现

3.1 设计思想

机器人的某一个运动过程一般可以分解为若干个关键状态。当其处于某一状态时,需要通过向它下达某一种指令才能使之向下一个状态转换。因此,可以在某一个文件中存储完成该运动过程所需要的各个关键状态的图像信息,并存储与该状态相对应的指令。要执行该运动过程时,通过应用程序读入该文件,获得各状态的信息,然后即可开始将实时的图像信息与关键状态的图像信息相比较,如果相符,则发出相应命令。实际上,这个文件就相当于一个运行脚本。可以在手动控制的过程中,制作好这样的运行脚本。下次要执行同样的操作时,只需要把这个脚本读入,就可以实现自动控制功能。

3.2 数据结构

在程序中,建立了一个名为scformat的数据结构,来描述和存放运行脚本。scformat的基本结构如图1所示。

pIYBAGBubcSAaHguAACDzwHIBdk855.png

一个scformat即对应于一个完整的脚本文件。由于对数据文件采用链表方式来组织,所以其中可以含有任意多个标准图像及其对应的命令。scformat中包含诸如色深/colordepth(1表示8位色,依此类推)、图像个数/framenum、图像宽度/framewidth、图像高度/frameheight等数据块,datahead、datatail则是数据链表的头尾指针。

一个data则对应于一幅图像,除了fwidth、fheight、depth这些基本的信息之外,order是一个字符数组,用来存放对应的命令,segnum表示这幅图像中所截取的几个最重要的反映机器人基本运动情况的关键部分,pnext则指向数据链表中的下一个data。对于一个data图像中截取的各个部分,同样采用链表结构来组织,seghead、segtail则分别指向链表的头尾。

一个seg对应于从图像中截取的一个关键部分,其中,width、height表示该部分的宽度、高度,topx、topy则是该部分左下角在该图像中的坐标,以适应图像的数据从左下角开始存储的规则。segdata指向该部分具体的图像数据。

图2是各个结构在图像上的具体关系。

pIYBAGBubdKAC268AACEhsHhfSI451.png

上述数据结构的优点是其具有充分的多方面的灵活性。因为对应于不同的运动过程的脚本文件可能需要不同数目的标准图像,而对应于机器人处于不同状态的图像,为了反映机器人的运动状态,也可能需要截取不同数目的关键部分。由于上述数据结构的灵活性,对于标准图像的数据data和图像中的关键部分seg,都采用链表结构来组织,所以可以适应各种不同情况。

同时,对于scformat、data、seg这些数据结构,分别提供了各种函数以及过程,使得在进行图像的截取、脚本文件的存储、脚本文件的读取和显示时都相当方便。

3.3 流程要点

具体的流程分为以下两个方面:

其一是控制脚本的获得,由人工进行手动控制实现。基于上面的这种数据结构,此过程可以准确完成。在此过程中,首先创建一个scformat结构。由于其中的数据是按照链表结构组织,所以可以随时加入标准图像及相应的命令。同时对于某一幅特定图像,可以选取图像中的若干关键部分。此过程结束后,可以调用scformat的writescfile,将得到的脚本文件存放到硬盘文件中。

其二是自动控制过程。在进行自动控制时,首先从硬盘上读入文件,调用readscfile将文件中的数据加入到一个scformat结构中。然后按照这个scformat脚本文件中的数据进行自动控制。由于系统中采用压缩技术,所以在控制站点取得压缩包之后,进行解压,得到实时图像,然后将实时图像与运行脚本中的图像逐个进行比较。如果比较相符,则停止比较,同时将相应的命令传送给远端机器人;如果获得相符的结果,则说明机器人当前不处于任何特定的状态,所以继续循环检测和比较。

4 平台运行环境

本系统在实验室中进行了充分的测试和修改,硬件和软件的环境如下。

硬件环境:

Intel Pentium 4 处理器

NVIDIA TNT2 M64 图像显示卡

Intel ProShare Personal Conferencing 摄像头,Leadtek WinFast TV2000视频采集卡

10M/100M自适应网卡,100M以太网

软件环境:

Microsoft Windows 2000 Advanced Server

Borland Delphi 6.0 (With Update pack 2)

Microsoft Visual C++ 6.0 (Service Pack 5)

5 实际测试

本系统在实验室中进行了充分的测试。在通常的情况下,对于反映某一运动状态的图像,系统默认可以抽取0~5个关键部分来反映该状态的特征。而对于一个运行脚本而言,如果是有序化的简单脚本(也就是说脚本中的图像按照要进行的操作顺序排列,系统只需将得到的实时图像与目前应该处于的那一幅图像进行比较即可),脚本中可以包含任意多幅(在存储大小满足的条件下)反映关键状态的图像;如果是无序的脚本,也就是说系统需将所获取的图像与脚本中的所有图像进行比较以得到当前需要执行的指令。在测试中,脚本包含十幅图像时,仍能很快得出比较的结果。从测试来看,本系统的关键设计思想均是可用的。

责任编辑:gt

【限时免费】一键获取网络规划系统模板+传输架构设计+连通性评估方案

相关文章

服务电话:
400-035-6699
企服商城