地統計學

地統計學

研究自然現象的學科
地統計學是以具有空間分布特點的區域化變量理論為基礎,研究自然現象的空間變異與空間結構的一門學科。它針對像礦産、資源、生物群落、地貌等有着特定的地域分布特征而發展的統計學,由于最先在地學領應用,故稱為地統計學。
  • 中文名:地統計學
  • 外文名:
  • 類别:
  • 主管部門:
  • 内容:研究自然現象的空間變異與空間結構
  • 基礎:空間分布特點的區域化變量理論
  • 範圍:礦産、資源、生物群落、地貌

定義

自然現象存在空間變異性和空間自相關性。地統計學作為研究變量空間分布規律的理論與方法,成為定量分析自然現象空間特征的有效手段,并逐漸引入生态學研究中。

地統計學的主要理論是法統計學家G.Matheron創立的,經過不斷完善和改進,目前已成為具有堅實理論基礎和實用價值的數學工具。地統計學的應用範圍十分廣泛,不僅可以研究空間分布數據的結構性和随機性、空間相關性和依賴性、空間格局與變異,還可以對空間數據進行最優無偏内插,以及模拟空間數據的離散性及波動性。

地統計學由分析空間變異與結構的變異函數及其參數和空間局部估計的Kriging插值法兩個主要部分組成,目前已在地球物理、地質、生态、土壤等領域應用。氣象領域的應用目前還不多見,主要使用Kriging法進行降水、溫度等要素的最優内插的研究及氣候對農業影響方面的研究。

區域化變量理論

地統計學處理的對象為區域化變量,即在空間分布的變量。通常一個區域化變量具有兩個性質:

①在局部的某一點,區域化變量的取值是随機的;

②對整個區域而言,存在一個總體或平均的結構,相鄰區域化變量的取值具有該結構所表達的相關關系。區域化變量的兩大特點是随機性和結構性。基于此,地統計學引入随機函數及其概率分布模型為理論基礎,對區域化變量加以研究。區域化變量可以看作是随機變量的一個現實(realization)。對于随機變量而言,必須在已知多個現實的前提下,才可以總結出其随機函數的概率分布。

而對地學數據來講,往往我們隻有一些采樣點,它們可以看作随機變量的一個現實,所以也沒有辦法來推斷整個概率分布情況。為此,必須制定一些假設,即平穩性假設,假定在某個局部範圍内空間分布是均勻的。

理論核心

地統計學的主要用途,是研究對象空間自相關結構(或空間變異結構)的探測以及變量值的估計和模拟。不管哪一種用途,地統計學分析的核心是根據樣本點來确定研究對象(某一變量)随空間位置而變化的規律,以此去推算未知點的屬性值。這個規律,就是變異函數。

通常,利用采樣點及變異函數的計算公式得出樣本點的實驗變異函數(experimental variogram),拟合後的曲線為經驗變異函數。觀察該變異函數的分布圖像,尋找地統計學提供的某一種理論模型或者多個理論模型(basic model)的線性組合進行拟合。常見的理論模型有:線性模型、球狀模型、指數模型、高斯模型、幂指數模型等。

分析步驟

運用地統計學進行空間分析基本包括以下幾個步驟,即數據探索性分析,空間連續性的量化模型,未知點屬性值的估計,對未知點局部及空間整體不确定性的預測。用戶可根據自己的需要截止到中間某一項。數據探索性分析,主要是通過頻率分布圖、散點圖、位置圖等對數據的統計分布特征做一個初步的考察。這個過程最容易發現的問題就是數據的集聚,以及異常點極值的出現。通常,可利用适當的變換,如對數變換來解決。

研究方法

地統計學的研究方法包括局部估值、不确定性預測、随機模拟及多點地統計學四部分。

估值

地統計學最初應用是在礦産部門,作為礦産儲量計算的基本方法取得了相當豐碩的成果。在地統計學領域,克裡格(Kriging)是大家公認的估計方法的總稱。實際上,它也是一種廣義的最小二乘回歸算法,而其最優目标定義為誤差的期望值為0,方差達到最小。包括簡單克裡格(Simple Kriging)、普通克裡格(Ordinary Kriging)、趨勢克裡格(Kriging with a trend model)、因子克裡格(Factorial Kriging)、協同克裡格(Co Kriging)、塊狀克裡格(Block Krigin-g)等等。

局部不确定性預測

地統計學的估計功能主要是求得一個無偏的最優估值,同時給出每個估值的誤差方差,用以表示其不确定性。

這種方法的優點是比較簡單,隻需要主變量之間的關聯關系。但其缺點是:

①認為誤差的分布是對稱的,但在實際情況中,低值區往往被高估,而高值區往往被低估。

②認為誤差的方差隻依賴于真實值的形狀,而不考慮具體每個值的影響,即所謂的同方差性。

但實際上被一個大值和小值包圍的點,其估值的誤差一般要比被兩個同規模小值包圍估值點的誤差要大。所以,應确實考慮到所估計點周圍樣本點本身值的影響,即利用條件概率模型來推斷不确定性。通常有兩種方法:參數法(衆高斯方法)及非參數方法(指示克裡格方法)。

衆高斯方法(MultiGaussianapproach):到目前為止,這是應用最廣泛的參數化方法。它假定所研究區域的概率分布可以用一個統一的公式表達,最終的概率依賴于相關參數。對應于衆高斯方法,即是均值和方差。我們利用克裡格方法來估計這兩個參數,同時利用光滑樣本點頻率分布圖方式來平滑、增加其概率分布函數。

由于衆高斯方法要求多點分布必須是标準正态的,且沒有考慮極大值與極小值間的關聯關系。對于樣本點的指示變異函數不支持雙高斯分布,或者作為關鍵的輔助信息與主變量之間不滿足衆高斯分布,這時需采用指示克裡格方法。

指示克裡格(IndicatorKriging):利用指示克裡格方法估計未知點的不确定性,首要的一步是将各種來源的信息進行指示編碼。即利用不同的阈值将原數據分為合适大小的間隔,考慮該間隔内點的關聯關系及其不同的關聯之間的關系。這樣,就有效地解決了衆高斯方法的缺點。

随機模拟

克裡格方法完成了空間格局的認知,但沒能使其再現。通過克裡格方法,可以獲得唯一的估計結果,而且極值點都被光滑下去。根據随機變量的定義,每個變量可以有多個現實,也就是說每個未知點的估值可以有多種情況,但前提是總體趨勢的正确性,這種方法就是随機模拟。

随機模拟可以利用各種不同類型數據(如“硬”的采樣點數據,“軟”的地震數據)再現已知的空間格局。“硬數據”指在采樣點精确測量的變量值。“軟數據”指關于該變量各種類型的間接測量值。随機模拟可以生成衆多的現實,每一個現實展現同一種格局,但不同的表現方式。在單變量分布模型中,通過随機變量的系列結果來統計其不确定性,與此類似,一系列随機産生的現實,作為模型的輸入也可以表達輸出結果的不确定性。這些随機現實是等概率的,即沒有哪一個現實是最好的。

多點地

多點地統計學的發展主要得益于地統計學在石油領域的應用。早期,地統計學多用于煤炭問題,通過塊狀估值得出可開采儲量。但在對石油儲區的研究中,人們發現單純的某個點的滲透性是沒有意義的,而應該以流的觀點來看待滲透性問題。這就使得對滲透性的連通性或其空間格局的量化比得到某局部點的精确值更為重要,而不是光滑的估計。

傳統的地統計學借助于煤炭科學的思想,利用變異函數來量化空間格局。但變異函數隻能度量空間上兩個點之間的關聯,所以表現空間格局有很大的局限性。對于關聯性很強的情況,或所研究對象具備較為明顯的曲線特征,這時要想量化其空間格局需要包含多個空間點。在圖像分析中,通過多點模闆或者窗口來量化其格局。意識到變異函數在表達地質連續性上的局限性後,地統計學家将圖像分析中的思路借鑒過來,一個新的領域在地統計學中升起:多點地統計學。

原本地統計學模拟包括認知和再現兩部分。認知通過變異函數來完成,而再現通過序列高斯模拟的多個現實來完成。多點地統計學進一步改善了認知部分,即通過多個點的訓練圖像來取代變異函數,更有效地反映了研究目标的空間分布結構。而對于圖像分析而言,它隻注重認知部分,但沒有再現功能。

多點地統計學的核心是訓練圖像。由于在地統計學中也出現過多點信息,但從未被量化過,而一般是将信息隐含的應用到具體問題模型中去。但如通過圖像的方式,可全面量化原數據各階的信息,因此我們可采用非條件的布爾方法得到訓練圖像再進行分析。這種方法主要是在由于石油領域的問題引出,因此也主要應用在這個領域。包括理論本身,還有待于進一步完善。

GIS

GIS是對空間數據進行搜集、存儲、檢索、轉換、顯示及分析的一門技術。它可以将具有地理坐标的數據信息作為一個專題層,或地圖文檔來進行管理。作為一個強大的數據庫系統,它可以存儲具有同樣空間範圍的多種專題信息。編輯、操作這些空間數據,對于現有的GIS軟件已不成問題,但對空間數據分布格局進行建模,抽取其特征還很欠缺。

這就需要像地質統計(geostatistics)這類空間分析的統計軟件包。地統計學近年來在國際上發展迅猛,特别是GIS的發展,對空間分析功能提出了一個新的要求,使得地統計學成為多個學科重視的焦點。但到目前為止,二者之間的結合還很少,或非常欠缺。如大型軟件ArcGis,從8版本以後加入了擴展模塊,其中即有地統計學。

但内容僅限于克裡格系列方法,而對于模拟方法還是一片空白。所以,未來将兩者結合起來将是一種必然的趨勢。一種比較快捷的方式是利用組件式思想,将地統計學軟件内嵌到GIS軟件内部。這種結合方式要考慮到兩個原本不同系統的融合,所以稍顯繁瑣,且二者關系較為松散。但針對目前強大的需求,這無疑是一種多快好省的方法。

相關詞條

相關搜索

其它詞條