利用计算机从遥感图像识别植被类型的理论研究
利用计算机从遥感图像识别植被类型的理论研究[1]
王 铮 梅安新 刘树人 王学林
利用遥感图像编制植被图、监测植被动态、分析以地植物为主体的生态环境,是近年来普遍采用的方法;采用计算机完成这一工作具有速度快、信息分析精度高、稳定性好、便于与环境信息系统通讯等优点,它正在被植被遥感工作者所普遍应用。然而目前利用计算机识别植被类型,分析植被信息的工作,尚少报导,这是因为计算机识别植被类型的成败,很大程度上取决于从原始图像提取特征信息的图像处理工作和在此基础上的模式识别工作,因为不适当的图像处理,可能抑制或破坏植被信息,而不适当的模式识别技术,也可能产生错误的分类结果。后者的原因是多方面的,如概率分布函数估计错误、非线性问题采用了线性模型等。目前也有一些分类成功的报道,但多限于经验式的,缺少植被遥感的理论分析。因此发展植被类型识别的基本理论模型,成了必要的工作。本文的目的就在于介绍这方面的探索。
作者选择了昆明毗邻地区为实验区,在区内研究了各种方案的可行性和获取有关参数。选择该区的原因是该区自然地理环境分异强烈,包括了中亚热带、北亚热带、暖温带和温带4种自然气候带,因而植被类型丰富,加上强烈的小地貌差异,植被类型随地域变化快。这种特殊的复杂地理条件,有助于计算机识别植被的许多问题。试验选择的资料是泰国地面站提供的1985年2月18日的MSS图像的CCT资料。图像几何误差已由计算机作过精校正。为了合理选择计算机处理模型和检验结果,作者与云南地理所有关同志作了三次野外考察。
一、植被信息恢复的模型研究
从传感器得到的图像,是整个地面景观的图像,它包括了植被、土壤、地貌以及“噪声”等多种信息。植被遥感的首要任务是从普通的遥感图像中增强或恢复植被信息。
植被信息的恢复,比较成功的是Tasseled Cap第二主因子矢量与SB、GV矢量之间的关系,结果发现在所有陆地样区中,第一、第二主因子几乎均与SB、GV矢量方向重合;可能有时第一主因子与GV重合,例如农田样区,也可能第二主因子方向与GV重合,例如中山山地混交林样区。在16个陆地样区中,地貌类型包括了中山山地、丘陵山地、石灰岩裸岩山地、冲积湖积平原,植被类型包括针阔混交林、常绿阔叶林与落叶阔叶林、灌木林、灌木草丛、草丛以及不同的作物类型,如:蚕豆和小麦。这些地貌类型与植被类型的组合,构成了复杂的景观类型。各种景观类型在地物光谱特征方面,包括各类型各波段上直方图分布范围、正态概率分布逼近个数等,都有较大差异。但是实验结果却表明SB、GV与主因子矢量的重合性有惊人的一致性。表1给出了4个样区的实验结果。第一个样区的地貌类型是中山山地,它包括的植被类型有针叶林(云南松)、次生的常绿阔叶林、落叶阔叶林等,光谱直方图在正态概率纸上呈三段。第二个样区是中山山地灌木草从景观,在光谱直方图正态概率纸上呈三段,但不同于样区1。样区3是丘陵山地环境,灌木林密布于本区而不同样区2有明显的草地出露,样区的光谱直方图在正态概率纸上呈二段。样区4是石灰岩基底的丘陵山地,稀疏的草丛随机地散布乎其间,光谱直方图呈一段式。4个样区无一例外地表明GV方向几乎就是景观的某一主因子方向。这里我们从自然地理学的角度证明了GV作为植被信息特征的合理性。
表1 景观主因子特征与SB、GV的关系
在常用的植物遥感模型中,规范差ND和波段R是著名的。分析它们的特点是有意义的。规范差为
这里ρN和ρr分别是近红外和红光波段反射率。
(3)式表明R与ND有某种等价性。利用GV、ND与叶面指数ND的经验估计式,可以得到下列关系:
式中α估计值为0,c、e估计值为1.2,b为0.5/cosη,η为太阳高度角。
注意到c、e的估计值和b是小于1的正数,这时可知当ND较小时,GV比ND增长得慢,当ND较大时,GV比ND增长得快。换言之对GV来说它关于较大盖度(或较强光合作用)的像元的植被状况反映比ND敏感。
(6)式表明R比ND敏感,甚至比GV更敏感,这似乎表明R比GV优良,其实图像量化是给定在一定范围的,由于R图像量化灰阶相对于盖度增长得太快,结果很可能在较小盖度时就出现接近最大灰阶的情况,这样对较大盖度的植被状况反映欠佳,甚至不能反映这种情况下的植被内部差异,同时由于图像噪声的存在,过于敏感的指标R会在较小盖度的情况下,把随机误差增强,最后产生虚假的植被类型。与R不同,GV在低盖度时增加得慢,这样保证了不会很快接近最高量化灰阶,它的敏感性次于R,对随机噪声有一定的抗干扰性,所以我们认为GV是总体上优于ND和R的植被状况遥感指标的。
Wall的植物亮度指标为〔8〕
式中,Bi为第i波段信号强度,n为波段数。由实验我们发现对地貌岩性为代表的因子来说,变换的各波段权几乎都位于(0.25,0.26),即接近是等权的。Wall模型是赋予各波段相等的一个权1来定义一个测度(实际上是数学上的范数),所以本质上讲EB是地貌岩性控制的景观特征的描写,不是植被景观的直接描写,但由于地植物学研究的结果,地貌岩性景观控制着或影响着植物群落的分异,所以EB是植被景观的一种粗结构测度。
为了反映植被状况的内部细微差异,使细节信息得以表露,本文建议采用最大离散度距离测度,这一测度使各植被类型信息特点在Bayes意义下具有最大距离,最后可以化作类似于K-L变换的线性变换,并按最大离散度选择采用的变换式。在我们的实验例子中,有
MD=0.561MSS 4-0.077MSS 5-0.658MSS 6+0.496MSS7
最后我们讨论了各种植被信息恢复模型的相互关系,结果见表2。
表2 各种植被信息恢复模型的相关矩阵
表中EB2是EB的二次方。从表2可以看出MD与其他指标有不同的信息特点,这正是意料之中的,因为EB反映的是植被状况的粗结构,ND对植被状况不太敏感。GV与ND相关性也很差,这里由于整个研究区植被类型、盖度差距很大,ND变化范围大,它们之间的非线性关系就突出了。值得一提的是Galla在美国Lafayette的一个农场研究各种植物指标关系时发现ND与GV的相关系数达0.91。这里呈现了事实上的假象,因该研究区位于印第安纳州,所谓大平原地区,地貌及土壤类型单调,加上是农场经营,农作物以单一的玉米为主,所以ND和GV变化不大,它们的非线性关系在一个小的数值范围内可用线性关系逼近;但是我国多山、农作物品种在小范围内变化大,自然植被因生境变异大而结构复杂的条件下,各种模型之间的非线性关系就明显了。这就表明一些国外的经验公式未必适应我国情况,针对我国自然地理条件发展相应的模型是必要的。
用MD、EB2、GV矿和ND的不同组合合成的假彩色影像表明,这种经过理论分析而得到的植物信息图像比标准假彩色片提供出了更大量的植被细节信息。例如,在农田环境中明显地可识别出蚕豆、小麦、油菜及蔬菜、撂荒地,在标准假彩色片上,滇池原为一片黑色,而在新合成的图像中滇池呈橙、红、黑三色,分别表示沿岸水生植物带、藻类生物污染地区和水面,山地的针叶林和阔叶林分别呈浅蓝和紫红色,而标准假彩色片上均呈红色。
二、植被类型的计算机识别研究
在完成了植被特征信息恢复后,我们就得到了植被类型识别的基础图像,这种图像可供计算机识别用。
要对植被特征图像完成类型的机器识别,首先碰到的是采用何种识别方法。试验工作表变换,规范差变换和波段比,以及Wall提出的植物亮度指标,其中Tasseled Cap变换的两个分量SB和GV有着特别重要的意义。SB称背景亮度,反映了景观图像的背景特征。从地理学上看,本质上是地貌岩性特征,因为它们控制了局部地区地理景观的分异。另一特征GV与SB垂直,经验证明它与植被的光合作用相关,称作绿度。本文的工作就是要从理论上分析各植被特征恢复模型的优良性,以提高图像处理的科学性,有助于计算机在严格的地植物学基础上识别植被类型。
首先一个地理景观主要包括地貌和植被,至少遥感景观图像是这样。这个景观图像可以看做由地貌岩性特征SB和植被特征组成的空间的矢量,后者是否就是绿度GV呢?因此我们选了样区,研究了样区景观图像的因子分析表明采用监督分类方法是不适应的,这主要表现在下面几个困难上:
1.训练样区选择困难。单一植物群落在图像中的点一般较小,要在区内选择一个样区是十分困难的;样区中又往往含有许多“野点”,野点的掺入会使分类器参数估计发生错误。根据统计决策理论,用正态分布的贝叶斯分类器,其“鲁棒性”是较差的,参数估计错误可能使分类风险迅速变大,分类效果变坏。
2.采用贝叶斯决策,涉及光谱分布的分布函数形式,常用算法是采用正态分布函数的。我们的实验工作却发现,许多小单元在正态概率坐标图上呈不稳定状态,有人证实甚至在128×128这样一个单元内,图像的光谱统计分布已经更为接近X2分布或别的形式了。所以实际的分类工作者难于为分类器提供一个合理的算法和简单的概率分布。
3.贝叶斯分类器要求输入地物类型ωi出现的先验概率P(ωi),这在一般情况下是未掌握的知识,经常的做法是设各种地物出现在各种地理环境中的概率是相等,显然这与生态学关于优势种或优势种群的基本原理相矛盾,它忽视了地理环境对生态条件的分异作用。
针对上述困难,本文采用了ISODATA算法对(MD、EB2、GV、ND)图像作非监督分类,这一非监督分类方法与常用的集类法、C-平均法相比具有了初步的人工智能的水平,是国外近年来颇受重视的方法,它的缺点是由于多次迭代,计算速度较慢。
对上述图像分类的结果,发现了下面的现象,对(MD、EB2、GV、ND)实行ISODATA算法分类,与贝叶斯分类结果比较,更多的植被细节被分析了出来,例如在山地中,可以识别出针叶林、落叶阔叶林、常绿阔叶林和混交林,有的地方小片的竹林也有反映,灌木林与草地也明显地分开,特别是那些石漠化土地(无植被)从草山草坡中检测了出来。而采用贝叶斯分类器,却只能分出针叶林、阔叶林、混交林、灌木林、草地—荒芜地。局部地区的抽样调查表明,局部环境内的树种差异也有被识别出来的现象,这对于贝叶斯分类器来说几乎不可能,因为训练样区是无法取得的。
另一方面,ISODATA分类却使背景特征丧失了,地貌的控制作用很不明显,不同地貌单元内的不同树种可能被识别为同一地物,但这个缺陷可以配以地貌识别来克服。将上述图像作K-L变换后再采用ISODATA算法分类,结果发现,新的分类结果在揭示植被分布的总体轮廓方面比原始图像的分类结果为好,但细微结构丧失了,有的类型并成了一类,如落叶阔叶林与灌木林有混淆现象,常绿阔叶林也与针叶林有混为一类的现象,总之分类性能变差了。
试验结果还表明,ISODATA算法占用机时间较多,完成一幅图像(1 024×1 024像元、4特征图像)的分类,约需在PDP-11主机上运算8.5h,这个时间约是最大似然比算法的5倍,最小距离算法的7倍。
三、结论与讨论
研究表明,在植被类型的机器识别方面,有下面几点内容是值得注意的:
1.GV特征是一个较好的反映植被信息的特征,它对图像信息反映适中,本身是线性变换,处理方便。
2.各种恢复植被信息的模型之间的相关关系,因地理环境不同而异,在我国复杂的地理环境结构条件下,这种关系趋于复杂化。
3.对植被类型识别来说,由于我国地理环境分异大,土地利用形式复杂,监督分类方法不太适合,而非监督分类方法是较好的。
4.为了反映植被的细微结构,不宜对图像作K-L变换,以免植被内部结构信息在这种处理过程中被压缩而损失。
参考文献
[1]云南农业区划委员会.云南省不同气候带和坡度的土地面积.昆明:云南科学技术出版社,1987.
[2]李介谷,等.计算机模式识别技术.上海:上海交通大学出版社,1986.
[3]Edward,G.A.,etc..Light,Interception and Leaf Area Estimates.IEEE trans,1986.
[4]Huete,A.R..Separation of Soil-plant Spectral Mixtures by Factor Analysis.Remote Sensing:of Environment,1986,19(3):237-251.
[5]Asrar,G.E.,etc..Spectral Estimation of leaf Area Index.Remote Sensing of Enviro-nment,1985,17(1):1-12.
[6]Wall,S.l..Landsat-Based Inventory System for Agriculture in California.Remote Sensing of Environment,1984,14(1—3):267-278.
[7]Galla,K.P.,etc..Spectral Estimation of Canopy Light Interception Remote.Sensing of Environment,17(3):221-232.
[8]Crist,E.P.,etc..A Physically-Based Transformation of Thematic Mapper Data-The TM Tasseled Cap.IEEE trans.Geos,1984,GE—22(3),256-263.
[9]Berger.Statistical decision Theory.Springs-Verlag,Inc,1980.
[10]Lowitz,G.E..The Fourier Transform and Clustering.Pattern Recognition,1984,17(6),657-665.
[11]Ismall,M.A..Fuzzy C-Means.Pattern Recognition,1986,19(6):481-485.
【注释】
[1]本文得到了云南省地理所卢培泽,云南计算中心高原、杨昌洪、陈国栋、王庆庆等同志的帮助。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。