GIS數(shù)據(jù)庫中的數(shù)據(jù)挖掘
摘 要:首先探討了DM在GIS中應(yīng)用的必要性和可能性,然后討論了GIS數(shù)據(jù)庫中的DM可以發(fā)現(xiàn)的知識(shí)類型、可以使用的方法,可以采用的DM系統(tǒng)原型,最后簡單介紹了DM對(duì)GIS的貢獻(xiàn)。
關(guān)鍵詞:數(shù)據(jù)挖掘(DM) 地理信息系統(tǒng)(GIS) 專家系統(tǒng)(ES)
1 引言
DM(Data Mining數(shù)據(jù)挖掘)是指把人工智能、機(jī)器學(xué)習(xí)與數(shù)據(jù)庫等技術(shù)結(jié)合起來,由計(jì)算機(jī)自動(dòng)地從數(shù)據(jù)庫或數(shù)據(jù)倉庫中的大量數(shù)據(jù)中揭示出隱含的、先前未知的并具有潛在價(jià)值的信息或模式,以解決數(shù)據(jù)量大而知識(shí)貧乏這一困擾專家系統(tǒng)(ES)的知識(shí)瓶頸問題的非平凡過程。這一概念一經(jīng)提出,立即引起了學(xué)者、軟件開發(fā)商和用戶的極大興趣,國外紛紛建立了許多專門研究知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的公司或部門,從數(shù)據(jù)挖掘的基本概念和原理開始,直到挖掘方法、算法以及軟件工具,進(jìn)行了廣泛深入的研究。到目前為止,已經(jīng)形成了比較完整的數(shù)據(jù)挖掘理論和方法體系,并且出現(xiàn)了許多實(shí)用的數(shù)據(jù)挖掘工具,廣泛應(yīng)用于商業(yè)、金融、保險(xiǎn)、醫(yī)療、化工、制造業(yè)、工程和科學(xué)等領(lǐng)域,產(chǎn)生了巨大的效益。
GIS(Geographic Information System地理信息系統(tǒng))是以采集、存儲(chǔ)、描述、分析和應(yīng)用與空間地理分布有關(guān)的數(shù)據(jù)的計(jì)算機(jī)系統(tǒng)。作為數(shù)據(jù)庫管理技術(shù)、計(jì)算機(jī)圖形學(xué)以及空間分析方法的共同產(chǎn)物,它已在社會(huì)、軍事、經(jīng)濟(jì)和管理部門得到了長足的發(fā)展和廣泛的應(yīng)用。目前,它正逐步與遙感(RS)和全球定位系統(tǒng)(GPS)技術(shù)相結(jié)合,向集成化、自動(dòng)化及智能化邁進(jìn)。專家系統(tǒng)技術(shù)在遙感影像解釋、地形數(shù)據(jù)的表達(dá)及語義和非語義信息的提取等方面的應(yīng)用,正是為了提高這種高集成度的地理信息系統(tǒng)的自動(dòng)化和可靠性。然而,盡管專家系統(tǒng)中的知識(shí)表達(dá)和知識(shí)應(yīng)用的研究取得了不少的進(jìn)展和成果,其知識(shí)獲取仍然主要依賴于專家和知識(shí)工程師,離知識(shí)自動(dòng)生成還有相當(dāng)大的差距。因此,知識(shí)獲取問題成了專家系統(tǒng)發(fā)展的瓶頸,也成了建立智能化遙感與地理信息系統(tǒng)的瓶頸。事實(shí)上,GIS數(shù)據(jù)庫中含有豐富的數(shù)據(jù)和信息,是自然界和人類活動(dòng)的共同產(chǎn)物,專家系統(tǒng)所需的許多知識(shí)就隱含在這些數(shù)據(jù)和信息之中。所以,如果能將計(jì)算機(jī)科學(xué)的DM技術(shù)用于GIS,從GIS數(shù)據(jù)庫中自動(dòng)生成專家系統(tǒng)所需的知識(shí),無疑將會(huì)給知識(shí)獲取問題的解決帶來無限生機(jī)。
基于上述分析,該文旨在討論MD技術(shù)在GIS中的應(yīng)用。文章下面部分分別就DM在GIS中應(yīng)用的必要性和可能性、GIS數(shù)據(jù)庫中的DM可以發(fā)現(xiàn)的知識(shí)類型、可以使用的方法、可以采用的DM系統(tǒng)原型以及DM對(duì)GIS的貢獻(xiàn)展開詳細(xì)的論述。
2 DM在GIS中應(yīng)用的必要性和可能性
大千世界中,許多事物之間都存在著千絲萬縷的聯(lián)系,在描述客觀世界的數(shù)據(jù)中必然存在其內(nèi)部的相互依賴性。Tobler的第一地理規(guī)則就描述了這樣一種空間依賴性:“所有的事物都是有聯(lián)系的,一個(gè)地方發(fā)生的事件總是與它附近發(fā)生的事件有關(guān)聯(lián),并且相距近的事物之間的聯(lián)系一般比相距遠(yuǎn)的事物之間的聯(lián)系要緊密。”如果能從這些數(shù)據(jù)中找出其規(guī)律性或相互聯(lián)系,就可以反過來推斷客觀世界的情況。GIS是一個(gè)對(duì)地球表面及空間物體描述,的信息系統(tǒng),其數(shù)據(jù)庫中豐富的數(shù)據(jù)和信息本身就是大自然和人類社會(huì)活動(dòng)的雙重產(chǎn)物,專家系統(tǒng)中所需要的許多知識(shí)就可能隱藏在GIS數(shù)據(jù)庫中。若能利用DM技術(shù),從GIS的空間和屬性數(shù)據(jù)中得出有關(guān)自然界與人類活動(dòng)的內(nèi)在規(guī)律,就必將為專家系統(tǒng)在GIS中的應(yīng)用和發(fā)展提供新的手段和方法,也將為GIS自身的發(fā)展提供更廣闊的前景。一方面,GIS的應(yīng)用需要DM技術(shù)的幫助,這種需要使得GIS必將成為DM的一個(gè)極好的應(yīng)用領(lǐng)域。因?yàn)棰貵IS數(shù)據(jù)庫中不僅包含了大量的屬性數(shù)據(jù),而且還包含了大量的空間數(shù)據(jù)。②社會(huì)上許多行業(yè)需要GIS作決策支持和規(guī)劃管理,而且各應(yīng)用領(lǐng)域的特點(diǎn)互不相同,都存在著許多顯著的但又不充分的領(lǐng)域知識(shí)。另一方面,DM在GIS中的應(yīng)用必將促進(jìn)DM自身的發(fā)展。因?yàn)镚IS數(shù)據(jù)庫中含有的大量的空間數(shù)據(jù)比DM已有的應(yīng)用領(lǐng)域中的數(shù)據(jù)類型更加豐富和復(fù)雜。
3 數(shù)據(jù)庫中的DM可以發(fā)現(xiàn)的知識(shí)類型
3.1 有關(guān)目標(biāo)的幾何信息知識(shí)
從GIS的圖形數(shù)據(jù)庫中,可以很方便地得到關(guān)于某一類目標(biāo)的位置、形狀、大小及結(jié)構(gòu)等幾何特征,通過歸納與演繹的方法就可得出關(guān)于該類地物目標(biāo)(如飛機(jī)場、運(yùn)動(dòng)場、果園等)的一般性(或規(guī)律性)的幾何信息知識(shí)。
3.2 目標(biāo)與目標(biāo)之間的相連、相鄰與共生關(guān)系的知識(shí) 從GIS的圖形和屬性數(shù)據(jù)庫中,不難發(fā)現(xiàn)目標(biāo)間的相連(如火車站與鐵路相連)、相鄰(房屋與道路相鄰)及共生關(guān)系(如蒙古包與草場的關(guān)系)。
3.3 目標(biāo)的幾何性質(zhì)與屬性之間的關(guān)系的知識(shí)
將GIS中的空間數(shù)據(jù)與屬性數(shù)據(jù)對(duì)應(yīng)起來,可發(fā)現(xiàn)目標(biāo)的幾何與屬性之間的對(duì)應(yīng)關(guān)系。如山區(qū)植被的垂直地帶性,在不同的高度和坡度生長著不同的植被。在郊區(qū)以植被為主,以建筑物為輔;在城市以建筑物為主,以植被為輔。在北方以旱季作物為主,在南方以水稻為主。這些知識(shí)對(duì)遙感影像的判讀是十分有效的。
3.4 面向?qū)ο蟮闹R(shí)
若GIS中采用了面向?qū)ο蟮臄?shù)據(jù)模型,則可以很方便地提供超類—類—子類目標(biāo)之間的知識(shí)繼承、傳播和集成。因此,只要借助于GIS中有效的空間分析工具、面向?qū)ο蟮臄?shù)據(jù)模型和DM技術(shù),便可以從GIS中提取對(duì)GIS分析、應(yīng)用、更新等方面所需要的知識(shí)。
4 GIS數(shù)據(jù)庫中的DM可以使用的方法
盡管有不少的文獻(xiàn)和研究者探討過DM的方法,但關(guān)于GIS數(shù)據(jù)庫中的DM的方法的研究寥寥無幾。筆者認(rèn)為,在現(xiàn)階段,至少有以下方法適用于GIS數(shù)據(jù)庫中的DM。
4.1 歸納與演繹的方法
這是一種邏輯方法,是從數(shù)據(jù)庫中獲取知識(shí)的最基本的方法,即從多個(gè)已存在的事實(shí)中歸納出規(guī)則。在GIS中,無論是屬性數(shù)據(jù)還是空間拓?fù)潢P(guān)系,若進(jìn)行抽象和概括時(shí),均可用到此方法。如在對(duì)游牧民族地區(qū)草資源調(diào)查中,通過相鄰分析,便可歸納出只要有蒙古包,其周圍都有草地,且附近必有淡水湖泊。這樣的規(guī)則完全可以從GIS數(shù)據(jù)庫中發(fā)現(xiàn),并用于以后的遙感調(diào)查和建立新的GIS。
4.2 統(tǒng)計(jì)的方法
統(tǒng)計(jì)的方法一直是DM中最主要的方法,在AI領(lǐng)域的關(guān)系數(shù)據(jù)庫中它已經(jīng)得到了充分的利用,它還可以用于GIS中的屬性和空間數(shù)據(jù)庫中。如在遙感影像分析中,對(duì)影像進(jìn)行監(jiān)督分類和非監(jiān)督分類,都是利用統(tǒng)計(jì)的方法得出影像模式后,再按此模式對(duì)影像分類。實(shí)際上,遙感影像的計(jì)算機(jī)自動(dòng)分類也可算是較簡單的DM過程,只是其數(shù)據(jù)為一些以柵格方式存儲(chǔ)的影像數(shù)據(jù),而不是像關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)那樣以關(guān)系元組的方式存儲(chǔ)。因此,完全可以說在GIS中早就有了DM的思想。
4.3 空間分析的方法
空間分析是指一組技術(shù),其結(jié)果取決于被分析對(duì)象的位置。這些技術(shù)不僅需要獲取對(duì)象的位置,還需要知道對(duì)象的屬性。GIS數(shù)據(jù)庫中的空間數(shù)據(jù)提供了空間分析所需要的位置,非空間數(shù)據(jù)提供了對(duì)象的屬性數(shù)據(jù),因此GIS數(shù)據(jù)庫提供了空間分析所需要的各種數(shù)據(jù),利用GIS數(shù)據(jù)庫中的數(shù)據(jù)可以進(jìn)行空間分析?臻g分析的主要目的是從空間關(guān)系中開發(fā)數(shù)據(jù),以得到空間的內(nèi)部關(guān)系并加以理解。例如空間分析中的探測(cè)性空間分析方法不僅可以揭示空間數(shù)據(jù)庫中許多非直觀的內(nèi)容,如空間異常點(diǎn)、層次關(guān)系、時(shí)域變化及空間交互模型,還可以揭示用傳統(tǒng)的地圖不能辨明的數(shù)據(jù)模式和趨勢(shì)。為了達(dá)到此目的,空間分析應(yīng)利用和開發(fā)GIS及其數(shù)字環(huán)境。在這種數(shù)字環(huán)境中,數(shù)據(jù)的比例尺寸能夠很方便地改變,能放下層次間的不連續(xù)性,還能將不同的數(shù)據(jù)媒介如文字、聲音、圖形和影像聯(lián)結(jié)在一起。此外,數(shù)字環(huán)境要能提供物體間更廣泛的聯(lián)系,因?yàn)榈貓D上只是表明了物體空間上的接近及鄰近關(guān)系,而不能提供物體間的相互作用,以及文化、貿(mào)易和社會(huì)網(wǎng)絡(luò)的聯(lián)系。在面向?qū)ο蟮沫h(huán)境中,屬性和空間數(shù)據(jù)統(tǒng)一在一個(gè)對(duì)象中存儲(chǔ)和管理,以上這些想法相對(duì)而言更易于實(shí)現(xiàn)。從現(xiàn)實(shí)來看,地理位置與地形、土壤、植被及氣候等要素是緊密相關(guān)的,相互制約的。所以說屬性與空間數(shù)據(jù)是一對(duì)矛盾統(tǒng)一體,如果能找到屬性形成與空間分布的對(duì)應(yīng)關(guān)系,那么若已知某一對(duì)象的屬性則可知道其相應(yīng)的空間分布,若已知其空間分布情況,則也可以根據(jù)其對(duì)應(yīng)關(guān)系知道其相應(yīng)的屬性。
4.4 Rough集方法
Rough集理論(Rough Set Theory)是波蘭華沙大學(xué)Z.Pawlak教授在1982年提出的一種智能數(shù)據(jù)決策分析工具,被廣泛研究并應(yīng)用于不精確、不確定、不完全的信息的分類分析和知識(shí)獲取。Rough集理論為GIS的屬性分析和知識(shí)發(fā)現(xiàn)開辟了一條新途徑,可用于GIS數(shù)據(jù)庫屬性表的一致性分析、屬性的重要性、屬性依賴、屬性表簡化、最小決策和分類算法生成等。Rough集方法與其它知識(shí)發(fā)現(xiàn)方法相結(jié)合,可以在GIS數(shù)據(jù)庫中數(shù)據(jù)不確定情況下獲取多種知識(shí)。例如,在經(jīng)過統(tǒng)計(jì)和歸納從原始數(shù)據(jù)得到普遍化數(shù)據(jù)的基礎(chǔ)上,Rough集用于普遍化數(shù)據(jù)的進(jìn)一步簡化和最小決策算法生成,使得在保持普遍化數(shù)據(jù)內(nèi)涵的前提下最大限度地精練知識(shí)。
當(dāng)然,除了以上介紹的4種主要的方法外,還有其它的一些方法也可以用于GIS數(shù)據(jù)庫中的DM,比如神經(jīng)元網(wǎng)絡(luò)的方法、決策樹的方法等。
5 GIS數(shù)據(jù)庫中的DM可以采用的DM系統(tǒng)原型
加拿大Simon大學(xué)計(jì)算機(jī)科學(xué)系,在關(guān)系數(shù)據(jù)庫挖掘系統(tǒng)DBMiner的基礎(chǔ)上,增加空間數(shù)據(jù)挖掘功能,開發(fā)出了一種空間數(shù)據(jù)挖掘系統(tǒng)原型GeoMiner。該系統(tǒng)能夠在地理信息數(shù)據(jù)庫中挖掘特征規(guī)則、判別規(guī)則和關(guān)聯(lián)規(guī)則,擴(kuò)充后還包括分類規(guī)則和數(shù)據(jù)聚類。系統(tǒng)除了用SAND體系結(jié)構(gòu)建立空間數(shù)據(jù)庫模型外,還有空間數(shù)據(jù)立方構(gòu)造、空間OLAP等功能模塊。此外,該系統(tǒng)還設(shè)計(jì)和實(shí)現(xiàn)了空間數(shù)據(jù)挖掘語言GMQL,以及用戶接口和空間知識(shí)的可視化工具。因此,這一空間數(shù)據(jù)挖掘系統(tǒng)原型GeoMiner是可以采用的DM系統(tǒng)原型。
5.1 GeoMiner的系統(tǒng)結(jié)構(gòu)
它包含有三大模塊:空間數(shù)據(jù)立方體構(gòu)建模塊、空間聯(lián)機(jī)分析處理(OLAP)模塊和空間數(shù)據(jù)挖掘模塊,采用的空間數(shù)據(jù)挖掘語言是GMQL。目前已能挖掘3種類型的規(guī)則:特征規(guī)則、判別規(guī)則和關(guān)聯(lián)規(guī)則。GeoMiner的體系結(jié)構(gòu)如圖1所示,包含4個(gè)部分:(1)圖形用戶界面,用于進(jìn)行交互式地挖掘并顯示挖掘結(jié)果;(2)發(fā)現(xiàn)模塊集合,含有上述3個(gè)已實(shí)現(xiàn)的知識(shí)發(fā)現(xiàn)模塊以及. 個(gè)計(jì)劃實(shí)現(xiàn)的模塊(分別以實(shí)線框和虛線框表示);(3)空間數(shù)據(jù)庫服務(wù)器,包括MapInfo,ESRI/Oracle,SDE,Informix-Illustra以及其它空間數(shù)據(jù)庫引擎;(4)存儲(chǔ)非空間數(shù)據(jù)、空間數(shù)據(jù)和概念層次的數(shù)據(jù)庫和知識(shí)庫。
5.2 的數(shù)據(jù)挖掘語言
Han等人為了挖掘地理空間數(shù)據(jù)庫設(shè)計(jì)了一種地理數(shù)據(jù)挖掘查詢語言GMQL(Geo-Mining Query Language),它是對(duì)空間SQL的擴(kuò)展,并成功地應(yīng)用于空間數(shù)據(jù)挖掘系統(tǒng)原型GeoMiner中。它用于描述和執(zhí)行空間數(shù)據(jù)庫中的數(shù)據(jù)挖掘。下面為一個(gè)用GMQL語言描述的挖掘空間互聯(lián)規(guī)則的例子。
例:找出某省pro-a范圍內(nèi)大城鎮(zhèn)的空間互聯(lián)規(guī)則
Mine spatial associatins
As "大城鎮(zhèn)"
In relevance to water.name, states.area-name
From towns, water, state, provinces
Where towns.population>25000 and towns.geo inside province.geo
and province.area-name = "pro-a" and g-close-to (towns.geo,
water.geo, 75, "km") and state.area-name = "USA"
6 DM對(duì)GIS的貢獻(xiàn)
DM用于GIS,可使GIS 在以下幾個(gè)方面得到較大的進(jìn)展或突破:
(1)使有限數(shù)據(jù)的GIS 成為具有無限知識(shí)的GIS。盡管GIS中存儲(chǔ)了大量的數(shù)據(jù),但其容量總是有限的,總是對(duì)客觀世界的不完全描述。而DM利用機(jī)器學(xué)習(xí)技術(shù),能從這些有限的數(shù)據(jù)庫發(fā)現(xiàn)新的知識(shí),將這些知識(shí)反作用于已有的數(shù)據(jù),就可得到更新的數(shù)據(jù)和知識(shí),這樣循環(huán)下去,GIS 不僅是一個(gè)信息系統(tǒng),而且是一個(gè)數(shù)據(jù)源和知識(shí)源,也就使有限的GIS 變成了無限的GIS,也使靜態(tài)的數(shù)據(jù)變成了動(dòng)態(tài)的數(shù)據(jù)和知識(shí)。
(2)可用于GIS的數(shù)據(jù)精練,F(xiàn)有的GIS數(shù)據(jù)庫中存儲(chǔ)了大量的數(shù)據(jù),其中有些數(shù)據(jù)是必需的,有些數(shù)據(jù)是冗余的,有些數(shù)據(jù)是最基本的,有些數(shù)據(jù)是可導(dǎo)出的。利用DM,可以尋找出數(shù)據(jù)間的相互依賴性,得到數(shù)據(jù)間的層次和層次間的相互關(guān)系。因而,數(shù)據(jù)庫中就可只存儲(chǔ)那些必需的數(shù)據(jù)和關(guān)系,而不必存儲(chǔ)其它的數(shù)據(jù),就可將GIS 數(shù)據(jù)庫進(jìn)行精練。這樣不僅可以節(jié)省存儲(chǔ)空間,而且可以提高數(shù)據(jù)庫的管理效率和整個(gè)系統(tǒng)的運(yùn)行速度。
(3)可用于GIS的數(shù)據(jù)更新。現(xiàn)有的GIS數(shù)據(jù)庫中存儲(chǔ)了描述客觀世界的大量數(shù)據(jù),而客觀世界在人類活動(dòng)的影響下是時(shí)刻變化的,如何將這些變化在GIS中進(jìn)行快速地更新,也是一個(gè)十分棘手的問題。GIS數(shù)據(jù)庫的更新通常是利用新的航空或航天遙感數(shù)據(jù),但這時(shí)需要解決的問題是哪些數(shù)據(jù)需要更新,如何自動(dòng)地從遙感影像中獲取更新數(shù)據(jù)。用DM中的空間分析方法可以解決此問題,它通過對(duì)不同時(shí)域的數(shù)據(jù)進(jìn)行比較,得到事物隨時(shí)間變化的規(guī)律,并找到影響此變化的主要因子。這樣,在以后的分析中,只要檢查這些主要的因子是否變化,若有變化,就進(jìn)行數(shù)據(jù)更新,否則就不予考慮。
(4)使GIS成為真正的“智能”空間信息系統(tǒng)。在GIS中引入專家系統(tǒng)技術(shù),使GIS具有了一定的自動(dòng)性和智能性,但它遠(yuǎn)不能稱為一個(gè)真正的“智能”系統(tǒng)。因?yàn)樗痪邆渥詣?dòng)學(xué)習(xí)的功能,只能利用已有的知識(shí)進(jìn)行推導(dǎo)?蒁M技術(shù)的引入,使得GIS 系統(tǒng)能自動(dòng)地獲取知識(shí)而可能成為真正的“智能”系統(tǒng)。完全可以說,專家系統(tǒng)與GIS 的結(jié)合,使GIS 成為了一個(gè)空間咨詢和決策支持系統(tǒng),而:* 與GIS 的結(jié)合,可使GIS 成為真正的智能空間信息系統(tǒng),進(jìn)而促進(jìn)GPS、DPS、RS、GIS與ES的完整結(jié)合。
聲明①:文章部分內(nèi)容來源互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系刪除,郵箱 cehui8@qq.com
聲明②:中測(cè)網(wǎng)登載此文出于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其描述,文章內(nèi)容僅供參考。