科學(xué)數(shù)據(jù)的積累、開放、共享,是世界科技發(fā)展的重要資源和推動力,但數(shù)據(jù)“孤島”頻現(xiàn),讓不同領(lǐng)域大量科學(xué)數(shù)據(jù)處于沉睡狀態(tài)。我國積極推動地球大數(shù)據(jù)實現(xiàn)從被動共享到主動共享轉(zhuǎn)變,通過建立數(shù)據(jù)、計算與服務(wù)一體化的數(shù)據(jù)共享系統(tǒng),推動形成地球科學(xué)數(shù)據(jù)共享新模式。
如何讓黃河三角洲40年間的變化像過電影一樣地展現(xiàn)在人們眼前?如何在一張圖內(nèi)看到全世界風(fēng)云變幻?如何在一個網(wǎng)站搜索到所有需要的數(shù)據(jù)……
新年伊始,中國科學(xué)院發(fā)布的A類戰(zhàn)略性科技先導(dǎo)專項——“地球大數(shù)據(jù)科學(xué)工程”給出了答案。
打破數(shù)據(jù)“孤島”
地球大數(shù)據(jù)有何用?“地球大數(shù)據(jù)科學(xué)工程”專項負責(zé)人、中國科學(xué)院院士郭華東舉了個例子:如果把我國430個人口超過30萬的城市遙感數(shù)據(jù)和人口數(shù)據(jù)等結(jié)合研究,就能了解土地使用率與人口增長率之間的比率。比如1990年至2000年,大數(shù)據(jù)顯示,安徽省的城市人口增長率在增加,但土地消耗率在降低,總體上人口城市化大于土地城市化;2000年以后,大數(shù)據(jù)又顯示,安徽省人口增長率持續(xù)降低,土地消耗率卻明顯提升,土地消耗率與人口增長率比率持續(xù)增加,這表明安徽省的土地城市化遠遠大于人口城市化。
大數(shù)據(jù)時代,科技創(chuàng)新越來越依賴于科學(xué)數(shù)據(jù)綜合分析。“大數(shù)據(jù)是財富,也是資源,作為大數(shù)據(jù)的重要組成部分,地球大數(shù)據(jù)正催生人們用全新的思維方式去了解地球。”郭華東說。
但是,我國的數(shù)據(jù)共享一直是個難題:很多單位和機構(gòu)都有自己的數(shù)據(jù)資源,都認為數(shù)據(jù)應(yīng)該共享,可真正實現(xiàn)共享很困難。
一位科學(xué)家曾對這種“各自為戰(zhàn)”的狀況深有感觸。他到國外參加學(xué)術(shù)會議,在會上才知道與他同一系統(tǒng)的另一個研究單位也在做同樣的研究,而且其中有很多是重復(fù)性的。
數(shù)據(jù)“孤島”頻現(xiàn),讓不同領(lǐng)域大量科學(xué)數(shù)據(jù)處于沉睡狀態(tài)?!翱茖W(xué)數(shù)據(jù)的積累、開放、共享已經(jīng)成為世界科技發(fā)展的重要資源和推動力?!痹谥袊茖W(xué)院副院長張亞平看來,致力于推動地球大數(shù)據(jù)實現(xiàn)從被動共享到主動共享轉(zhuǎn)變,在科學(xué)數(shù)據(jù)共享及其體制機制若干關(guān)鍵問題上取得實質(zhì)性突破,為中科院乃至國家層面形成良好的數(shù)據(jù)共享新生態(tài),中科院理應(yīng)先行先試。
為了喚醒沉睡的科學(xué)數(shù)據(jù),2018年1月1日,中國科學(xué)院A類戰(zhàn)略性先導(dǎo)科技專項“地球大數(shù)據(jù)科學(xué)工程”正式啟動實施,執(zhí)行期5年。作為2018年度的重要成果,地球大數(shù)據(jù)共享服務(wù)平臺近日正式發(fā)布。
“平臺以共享方式為全球用戶提供系統(tǒng)、多元、動態(tài)、連續(xù)并具有全球唯一標(biāo)識規(guī)范化的地球大數(shù)據(jù),通過建立數(shù)據(jù)、計算與服務(wù)一體化的數(shù)據(jù)共享系統(tǒng),推動形成地球科學(xué)數(shù)據(jù)共享新模式?!惫A東表示。
服務(wù)全球用戶
地球大數(shù)據(jù)共享服務(wù)平臺的“體量”有多大?
根據(jù)郭華東提供的數(shù)據(jù),平臺目前提供的共享數(shù)據(jù)總量約5PB(1PB=1024TB)。其中,對地觀測數(shù)據(jù)1.8PB,生物生態(tài)數(shù)據(jù)2.6PB,大氣海洋數(shù)據(jù)0.4PB,基礎(chǔ)地理數(shù)據(jù)及地面觀測數(shù)據(jù)0.2PB;地層學(xué)與古生物數(shù)據(jù)庫49萬條、中國生物物種名錄360萬條、微生物資源數(shù)據(jù)庫42萬條數(shù)據(jù)記錄,組學(xué)數(shù)據(jù)目前在線10億條。
“目前用戶能夠在線檢索到40%數(shù)據(jù),隨著硬件條件不斷完善,平臺數(shù)據(jù)將陸續(xù)上線,并且每年將以3PB的數(shù)據(jù)量更新?!惫A東說。
數(shù)據(jù)共享服務(wù)系統(tǒng)和CASEarth Databank系統(tǒng),以及區(qū)域系統(tǒng)——數(shù)字絲路地球大數(shù)據(jù)系統(tǒng),這是地球大數(shù)據(jù)共享服務(wù)平臺的3個核心系統(tǒng)。
正如阿里巴巴創(chuàng)造的淘寶模式一樣,數(shù)據(jù)共享服務(wù)系統(tǒng)提供的是一個快捷精準(zhǔn)的地球科學(xué)數(shù)據(jù)。該系統(tǒng)基于專項數(shù)據(jù)特點,可提供項目分類、關(guān)鍵詞檢索、標(biāo)簽云過濾、數(shù)據(jù)關(guān)聯(lián)推薦等多種數(shù)據(jù)發(fā)現(xiàn)模式,同時提供在線下載、應(yīng)用程序編程接口訪問等多種數(shù)據(jù)獲取模式,支持可定制的多格式數(shù)據(jù)在線查看、預(yù)覽和查詢,并能應(yīng)對各種個性化需求,進行統(tǒng)計、收藏、推薦、下載和評價服務(wù)。用戶可以利用這個系統(tǒng),根據(jù)數(shù)據(jù)共享權(quán)限進行共享服務(wù)。
數(shù)字絲路地球大數(shù)據(jù)系統(tǒng)包括“一帶一路”區(qū)域資源、環(huán)境、氣候、災(zāi)害、遺產(chǎn)等專題數(shù)據(jù)集94套、自主知識產(chǎn)權(quán)數(shù)據(jù)產(chǎn)品57類、共享數(shù)據(jù)超過120萬億字節(jié)。目前,該系統(tǒng)已具備千萬億字節(jié)級的軟硬件環(huán)境,在國際上率先研發(fā)了通用大數(shù)據(jù)平臺下地球大數(shù)據(jù)提取、轉(zhuǎn)換與加載工具集,實現(xiàn)了6大類數(shù)據(jù)的檢索、共享、產(chǎn)品可視化展現(xiàn),并通過中、英、法3種語言版本在國際上實施共享。
利用CASEarth Databank系統(tǒng),你可以像看電影一樣觀看目標(biāo)地點數(shù)十年的滄桑巨變。此系統(tǒng)提供長時序的多源對地觀測數(shù)據(jù)即得即用產(chǎn)品集,包括1986年中國遙感衛(wèi)星地面站建設(shè)以來20萬景(每景12種產(chǎn)品,共計240萬個衛(wèi)星數(shù)據(jù)產(chǎn)品)的長時序陸地衛(wèi)星數(shù)據(jù)產(chǎn)品等。
有了它能干啥?比如在重要會議前,我們可以清楚地透過顏色變化,了解從江蘇到山東滸苔的變化趨勢,在一分鐘內(nèi)就可以將過去滸苔在該地區(qū)間的移動了然于胸,不用再大費周折實地考察。同時,該系統(tǒng)還引入人工智能等先進技術(shù),面向一般用戶、行業(yè)用戶和科學(xué)家用戶,提供不同層次的對地觀測數(shù)據(jù)分析與信息挖掘服務(wù),為你“量身定制”所需內(nèi)容。
“未來,用戶不僅可以利用其數(shù)據(jù)、計算和技術(shù)來實現(xiàn)應(yīng)用,也可以上載多源數(shù)據(jù),嵌入算法模型,并結(jié)合系統(tǒng)資源來完成特定的專題信息挖掘、知識發(fā)現(xiàn)和決策支持?!惫A東說。
面向科學(xué)發(fā)現(xiàn)
根據(jù)郭華東的研究,一個國家擁有大數(shù)據(jù)的“體量”與國家的GDP發(fā)展成正比,“誰擁有了大數(shù)據(jù),誰就擁有了未來”。
不過,僅僅擁有還不夠,科學(xué)數(shù)據(jù)的價值在于使用。對于有些科學(xué)家對自己的數(shù)據(jù)“總愿意鎖在自己的抽屜里”,不愿意共享的情況,郭華東表示:“該系統(tǒng)可以解決科學(xué)家數(shù)據(jù)共享的后顧之憂,你的數(shù)據(jù)上線了,進入到這個系統(tǒng),會擁有自己的版權(quán),在這個平臺上,數(shù)據(jù)可以實現(xiàn)全球定位并且擁有自己的專屬‘身份證’?!?/span>
談及與同為資源數(shù)據(jù)共享平臺的谷歌大數(shù)據(jù)的區(qū)別,郭華東表示,主要有4點不同:首先,數(shù)據(jù)資源不同,谷歌大數(shù)據(jù)是基于大量的衛(wèi)星數(shù)據(jù),以遙感衛(wèi)星數(shù)據(jù)為主,而地球大數(shù)據(jù)平臺是在充分重視衛(wèi)星數(shù)據(jù)基礎(chǔ)之上,同時采用大量大氣、海洋、陸地等數(shù)據(jù),在資源環(huán)境、生態(tài)生物方面都是高度集成的;其次,系統(tǒng)功能不同,谷歌更多地做一些展示和空間分析系統(tǒng),而他們則更多地加入了計算系統(tǒng),促進數(shù)據(jù)、計算、服務(wù)一體化;第三,應(yīng)用服務(wù)不同,谷歌更多地做大眾化的系統(tǒng),而他們的技術(shù)則更多面向科學(xué)發(fā)現(xiàn),例如對區(qū)域地質(zhì)演化規(guī)律的理解,對生物學(xué)發(fā)現(xiàn)和古生物研究等方面;最后,谷歌的目標(biāo)是面向市場,但他們的系統(tǒng)更多地服務(wù)于政策、決策,科學(xué)家可以利用地球大數(shù)據(jù)平臺進行更多科學(xué)發(fā)現(xiàn)。
正如張亞平所說,如果我們不跨越數(shù)據(jù)共享這座高山,就永遠不可能到達大數(shù)據(jù)勝利的彼岸。構(gòu)建地球大數(shù)據(jù)共享服務(wù)平臺,中科院走出了成功的第一步,也是堅實的一步。(記者 沈 慧 實習(xí)生 楊詩云)
(原標(biāo)題:中國科學(xué)院發(fā)布地球大數(shù)據(jù)共享服務(wù)平臺 科學(xué)數(shù)據(jù)帶你領(lǐng)略世界風(fēng)云)