首页 理论教育 图像语义描述

图像语义描述

时间:2023-03-04 理论教育 版权反馈
【摘要】:目前主要有以下的图像语义表示方法。而MPEG-7的出现,解决了多媒体信息描述的标准化问题,使信息检索能够很好地进行。这个被称为“多媒体内容描述接口”的多媒体家族新成员使得多媒体数据,包括静态图像、图形、三维模型、语音、演讲和视频的语义描述成为可能。MPEG-7描述标准与互联网信息描述语言XML结合使用,实现图像特征、图像语义的提取、描述、存储和检索。

9.3.3 图像语义描述

1.语义描述概述

图像语义的表示本质上是一种知识的表示,但与一般的知识表示有所不同。首先,图像包含了大量的语义信息,并且这些信息之间存在着复杂的关系,因此需要有强大表达能力的方法。其次,由于图像理解的主观性,图像语义的表示方法需要一定的模糊和非精确性。目前主要有以下的图像语义表示方法。

(1)文本表示法

最简单的图像语义表示方法是用文本对图像或图像的区域进行解释。Hermes在IRIS系统中,使用相似性技术直接从户外图像中推导出场景的自然语言描述。颜色、纹理、区域和空间信息被输入到图像解释器来获得每一图像区域最可能的解释,然后整个场景产生的文本描述,可以利用文本检索技术来检索。在某些情况下,利用词典(WordNet)将文本表示的相关语义概念联系起来,可以获得一定的模糊匹配能力。但是使用文本表示语义对于一些概念之间的复杂关系缺乏足够的表达能力,因此不具有普遍意义。

img96

图9-8 图像语义和特征处理

(2)知识表示法

这些表示方法主要采用了人工智能中传统的知识表示,例如语义网络、数理逻辑、框架等方法,它们具有表达复杂关系的能力。最近的一些研究者使用了一些不同的语义表示模型,比如Zhuang等使用了模糊布尔模型、概率布尔模型,Colombo等使用了形式语言理论表示,Meghini使用了模糊逻辑语言,Marc Cavazza等使用了符号语言学方法。这些方法在不同的场合分别显示了它们在语义表达或者模糊匹配方面的能力,但是目前还没有在不同的情况下都能表现出很好效果的通用方法。而MPEG-7的出现,解决了多媒体信息描述的标准化问题,使信息检索能够很好地进行。

2.MPEG-7的语义描述方案

1998年,国际标准化组织(ISO)运动图像专家组(MPEG)开始建立描述多媒体数据内容和支持基于内容的多媒体管理的标准。这个被称为“多媒体内容描述接口”的多媒体家族新成员(简称MPEG-7)使得多媒体数据,包括静态图像、图形、三维模型、语音、演讲和视频的语义描述成为可能。MPEG-7描述标准与互联网信息描述语言XML结合使用,实现图像特征、图像语义的提取、描述、存储和检索。

(1)MPEG-7描述符

MPEG-7标准为多媒体数据的描述提供了一整套工具,特别是标准中的MDS部分包括了用于描述多媒体数据的结构、语义、媒体、用法和摘要等特征的工具,使得对多媒体数据进行有效的搜索、过滤、浏览和访问成为可能。建立的MPEG-7描述符能够大致分为一般视觉描述符和特定域视觉描述符。前者包括颜色、纹理、形状和运动特征,后者是一些具体应用,包括人脸鉴定和识别。由于特定应用仍然在不断完善之中,本节侧重于广泛应用的一般描述符。以下对每一种描述符进行简单的回顾。

①颜色描述符

颜色空间:为了实现不同颜色描述符之间的互操作性,标准颜色空间限定为:色调饱和度值(HSV)、最大最小色调差(HMMD),HMMD是MPEG-7定义的新的颜色空间,它只用在颜色结构描述符中(CSD)。

可测量色描述符(SCD):颜色特征最基本的描述符由描述图像的颜色分布提供,前提是这种分布可以在整个图像中被测量到。MPEG-7的一般SCD是一个经过Haar变换编码的颜色直方图。它使用了统一定义到255bins的HSV颜色空间。为了紧凑表示直方图,bin的值没有统一表示,它的范围从颜色分布的粗略表示的16bits/histogram到高质量应用的1000bits/histogram。

显色描述符:该描述符主要用于高速检索和浏览的图像的全局和局部空间颜色分布的描述。与颜色直方图相比,该描述符实现了更紧凑的表示方式。该描述符包括典型色、它们在区域中的比例、颜色的空间一致度和颜色变异。

颜色分布:该描述符主要用于描述在任意形状区域的颜色的空间分布。每个区域的颜色分布能用上述的显色描述符描述。

颜色结构(CSD):该描述符的主要目的表示图像中的局部图像特征。

GoF/GoP:该描述符定义了一种结构,用于通过SCD表示视频帧或相似视频帧的集合的颜色特征。它由一些帧的组织的平均、中等、交集直方图组成。这些直方图根据个别帧直方图计算而来。

②视觉纹理描述符

均匀纹理描述符:该描述符描述了图像模型的方向性、粗糙度和规律性。它最适合于有均匀属性的纹理的定量特征化。它能用于纹理图像数据库的图像到图像的相似度匹配。为了描述图像纹理、能量和能量偏移,须从频率分布中提取值。为了实现刻度和不变旋转描述和纹理匹配,频率空间在角度方向上被等分为30°的通道和在射线方向上被等分,每个特征通道使用二维Gabor函数过滤。

均匀纹理描述符(边界直方图):该描述符俘获边界的空间分布,有些像颜色分布描述符。该描述符的提取需要把图像划分为16个等大的无重叠的块。边界信息通过计算5个边界分类(水平、垂直、45°、135°和无方向边界)得出。它被表示为5bin直方图,对应每一个图像块。

③视觉形状描述符

三维形状描述符——形状光谱:该描述符用于进行自然和虚拟三维对象的对比。形状光谱被定义为形状索引的直方图。通过对整个三维表面计算得出。颜色索引本身测量了每个局部三维表面的局部凸面。使用带有100bin的直方图,每个确定为12位。

基于区域的描述符——ART:MPEG-7基于区域的描述符ART(角度直线转换),属于形状描述的时刻不变方法的类。该描述符适用于通过形状区域而非轮廓进行的描述。MPEG-7的ART描述符利用定义在极坐标的盘型单元上的复杂的角度直线变换来实现目的。ART基本函数的系数都被确定并用于匹配。该描述符非常紧凑(每区140位)。

基于轮廓的形状描述符:该描述符基于轮廓的曲率刻度空间(CCS)表示,并包括了初始或过滤了的轮廓的离心率和环度的值。CCS索引用于匹配和表示最凸点的高度,并表示在所谓CCS图像中的剩余点的水平和垂直位置。该描述符的大小平均为每轮廓122位。

2D/3D形状描述符:一般来说,三维对象的形状可被有限数目的二维形状近似描述,但这些二维形状必须从不同角度的快照中得到。

④视频的运动描述符

以上所有描述符都可用于视频序列中的图像索引。一般来说,通过运动域描述视频序列的运动是非常昂贵的。MPEG-7建立了一种从运动域中俘获必要的运动特征以进行简洁和有效描述的机制。最突出的特征由镜头运动描述符和对象运动描述符表示。

运动活动描述符:对一段视频段而言,它的整个活动层次、运动步调和场景中的动作都由运动活动描述符俘获。该描述符描述了场景对参观者而言是否觉得正在变慢、变快或动作变化。根据运动向量数量的标准偏移,该描述符测量了运动的强度。标准偏移被定量为5个活动值。运动方向、运动的空间分布和运动的时间分布等有关描述便于执行相似度匹配和检索。

镜头运动描述符:镜头或场景中的虚拟视点运动可用镜头运动描述符描述。该描述符对哪一种全局运动参数在一幅场景中的什么场合出现进行了详细描述。该参数可能由照相机直接提供,通过相应的照相机模型和运动估计技术,它也可从像素亮度中估计该照相机参数。基于确定的照相机参数,该描述符可用于查询视频序列。这些照相机参数有:带有大量放大活动的场景或带有主要是平移活动的场景。

扭曲参数:在场景中评估运动的另一种方法是扭曲参数描述符。

运动轨道描述符:使用运动轨道描述符,视频序列中的每个独立的运动对象的运动可被描述。该描述符通过描述对象的运动轨道,对对象在时间上的位置变化进行了详细表示。

(2)MPEG-7内容描述方案

在MPEG-7标准中,多媒体描述方案(MDS)提供了一些标准化的多媒体描述工具,它由基本元素、内容描述、内容管理、内容组织、导航和访问、用户接口等部分组成。其中内容描述工具从结构上和语义上描述了多媒体内容,本节首先介绍内容描述工具。

内容描述工具分为结构描述工具和语义描述工具。结构描述工具表示了多媒体数据的结构,如时间、空间和一些由多媒体数据段描述的媒体源。语义描述工具表示了现实世界或由位于现实世界中的语义实体所描述的媒体数据,例如,对象、代理对象、事件、概念、语义状态、语义空间、语义时间、属性和语义实体的关系。

结构描述工具(Structure DS)的核心是段描述Segment DS。它表示了视听内容的时空结构。段表示视听内容项的一个片断,它能被组织成层次结构以生成用于访问的内容表或用于搜索的索引。Segment DS可通过语义树的形式表示不同段之间的关系,也可通过图Graph DS来表示树结构不能表示的段之间的复杂关系。Segment DS可分解为声音段、视频段、音视频段、动态区和静态区。

①声音段(Audio Segment DS)能描述与一段声音相应的在时间上的片断。

②视频段(Video Segment DS)描述了一段视频流上的一系列帧。

③视听段(Audio Visual Segment DS)描述了一段带有同步声音视频的声音视频的合成。

④静态区(Still Region DS)描述了视频中一幅帧或图像的空间段和区域。

⑤动态区(Moving Region DS)描述了视频流中的时空段或运动区域。

任何段可以被创建信息、使用信息、媒体信息和文本注解所描述,此外段还可以通过段分解(Segment Decomposition DS)分成子段,同时存在一些依靠段类型的特殊特征。这些特殊特征如表9-4所示。

表9-4用于段描述的特征描述

img97

语义描述工具(Semantic DS)从现实世界语义和概念的角度描述视听内容,它不再强调段而是强调现实世界里的事件、对象、时间、地点和抽象,它包括事件描述方案,对象描述方案、概念描述方案、语义时间描述方案、语义地点描述方案、语义状态描述方案、语义基描述方案。

①事件(Event DS)描述了可理解或抽象的事件。可理解事件是发生在现实世界中的某一时空域中一个或多个对象的动态关系。抽象事件是对可理解事件的抽象结果。

②对象(Object DS)语义上描述一个物理或抽象的对象。

③概念(Concept DS)描述了一种不能被描述为特定对象、事件、时间、空间、状态的抽象和一般化的语义实体。

④语义状态(Semantic State DS)在现实世界给定时刻、给定空间位置或给定媒体位置内描述了实体的语义属性。

⑤语义空间和语义时间(Semantic Place and Semantic Time DS)分别描述了现实世界中的空间和时间。

⑥语义基(Semantic Base DS)描述了现实世界中的环境与语义实体。

和Segment DS一样,描述的概念特征也可以用树和图的方式组织。图结构由一系列结点定义,表示语义结点,而一系列边则表示结点间的关系。

图像描述方案的目标是描述图像的单一内容文档,根据MPEG-7 MDS的描述方式,它由如下几个基本DS组成:对象、特征分类、对象层次、实体关系图。在这些DS中,一篇内容文档由一系列对象和对象关系组成。每个对象可能有一个或几个相关的特征。它们被分为以下几类:媒体特征、视觉特征和语义特征。每个特征包括一些能够指向外部提取和相似匹配算法代码的描述符。对象之间的关系可用对象层次和实体关系图描述。

图9-9用UML类图的方式表示了给定的图像描述方案的结构。在给定的描述方案中,一张图像被表示为一组图像对象的集合,这些图像对象能通过对象层次和实体关系图联系起来。

img98

图9-9 图像描述方案的UML表示

在这个图像描述方案(Image DS)中,表示图像描述的图像元素(〈image〉)由一个图像对象组(〈image_object_set〉)、一个或多个图像对象层次元素(〈object_hierarchy:〉)、一个或多个实体关系图元(〈entity_relation_graph〉)组成。

图像组由一系列图像对象元素(〈image_object〉)组成,图像对象指的是一幅图像中一个或多个任意的区域,它在空间上是可连续的,也可非连续。根据特征的不同,把图像对象分为全局对象和局部对象,全局对象包含整个图像共有的特征,局部对象只包含图像中某个片断的特征。每个对象元素在图像描述中都有一个唯一的标识符,该标识符和对象类型(全局或局部)分别被表示为对象元素的属性。

根据所表达的不同信息,图像对象包含三类特征元素:媒体(〈img_obj_media_features〉)、视觉(〈img_obj_visual_features〉)和语义特征(〈img_obj_semantic_features〉)。表9-5列出了各类特征的特征示例。图像对象中的每个特征元素都包含一些选自MPEG-7的描述符,一些与视觉特征相关的描述符如表9-6所示。这些视觉特征描述符的值可根据特征提取算法自动提取。

在图像描述方案中,可根据不同的准则把图像对象组中的图像对象组织成对象层次。每个对象层次是一棵表示图像对象的对象结点树。层次表示了父结点与子结点之间的一种包含关系,这种关系根据选定对象特征的不同有所差异,如语义特征层次和结构特征层次。表9-7列出了不同关系类型及其之间的关系,在图像层次中,对象结点通过属性object_id表示不同图像对象,通过属性object_ref指向其父结点。

表9-5特征类和特征

img99

表9-6视觉特征和相关的描述符

img100

此外,尽管层次结构足以满足检索的需要,一些对象的关系不能用这种树结构来表示,该图像描述方案也可以使用实体关系图来表示更复杂的对象关系。实体关系图是一个实体结点和它们之间关系的图。

表9-7关系类型和关系示例

img101

图像语义描述方案(Semantic DS)描述了图像内容的意义。它由语义基描述方案(Semantic Base DS)和语义关系(Semanitc Relation DS)描述方案组成。其中语义基描述方案包括对象描述方案(Object DS)和事件描述方案(Event DS)。

对象描述方案(Object DS)描述了图像对象的语义特征,对象指的是图像中可语义描述的实体。它用文本注解的方式描述对象。

事件描述方案(Event DS)描述了图像事件的语义特征,事件指的是图像中可用语义描述的发生过程。它用语义时间、语义空间和文本注解描述符描述。

语义关系描述方案(Semanitc Relation DS)描述了各对象事件之间的语义关系。

下面对一幅图片进行描述,给定的图像如图9-10所示。

img102

图9-10 图像的描述方案

在给定的图像描述方案中,首先是结构描述,其中静态区SR1表示整个图像,用媒体特征来描述该图像的名称、格式、大小和创建日期。静态区SR2和SR3分别表示图像中的两个区域,通过对静态区SR1进行空间段分解所得,用视觉特征描述符来描述其颜色和形状特征。

在空间关系上,静态区SR1与静态区SR2、SR3是整体与部分的关系,静态区SR2位于静态区SR3的右方。

完成结构描述以后,接下来进行图像语义描述,在语义基描述方案中,对象描述通过文本注解的方式对其进行语义描述,事件描述对事件的语义时间和语义空间进行了描述。语义关系描述方案描述了各对象之间的语义关系。

(3)XML文档的语义解析

在检索时,需要对存储在XML文档中的语义信息进行解析。首先对XML索引文档进行解析。解析方式一般有两种:一种是基于文档对象类型DOM(Document Object Model)的解析方式,它的解析结果为树结构,应用程序可以随机和反复对树进行操作,但解析的树是在内存里进行的,比较占用内存,当树结构比较大时,运行速度会比较慢。另一种是基于SAS(Simple API For XML)的事件驱动型解析方式,通过串行方式来处理文档,与DOM方式相比,需要的内存要少得多,是一种比较简单的解析方式,运行速度比较快。本系统采用的是基于DOM的解析方式。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈