當前位置:首頁 > 熱點關注 > 百家爭鳴 > 正文

Nature:中國的科學進步仰賴于數據公開

 

大數據時代,生物信息學數據庫的發展、數據共享,以及技術資源的易于訪問等特點已經顯現。直至最近,這股開放性科學研究的趨勢正在幫助中國的科學家們走上國際競爭舞臺。然而在整個中國社會,對于公共數據獲取和分享的限制正愈演愈烈。如果這個問題不被解決,將會拖慢科學研究與創新。

中國科學家要想獲取高質量國內數據正變得越來越困難。大部分的公共數據由政府部門掌握,增強了其壟斷地位,使得研究者們獲取信息變得更為困難。這對人文社科領域的研究者影響尤甚,同時由于一些數據涉及政治敏感性,也對環境科學、公共健康等領域的研究造成了影響。在會議上,我聽到許多同事的抱怨,例如從權威部門獲取空氣污染數據是如何如何的困難。


即使數據被發布出來,一些數據也很可能因為采集方式上的問題而質量底下。最顯著的例子莫過于在國內生產總值(GDP)上的爭議。官方的全國性的GDP估值,與將31個省級區域的地方值相加的總和相比,存在極大的差異。北京的國家統計局承認,不同省采用不同的數據采集方式導致了這一結果,而他們正在試圖協調這個問題。但至今,進展不容樂觀。

公共數據分享已經變成了一種盈利模式。例如,如果采集分析道路車輛對于污染的影響的數據,將會是非常有價值的。然而要完成這一工作,必須能夠得到每種型號車輛的牌照數量、道路擁擠情況、發動機參數、燃油標準等詳細的數據記錄。對于研究機構來說,想要從官方獲取最基本的車輛持有輛的信息都十分困難,所以只能退而求其次地使用來自汽車制造商的銷售數據,而這樣的數據經常是被夸大的、帶有誤導性的。諷刺的是,財大氣粗的汽車制造商們卻可以以一定的價格,通過政府相關渠道購買到他們競爭對手的客觀可靠的銷售數據,這對于科研機構和科學家們來說是負擔不起的。

 

 

在這樣的環境下,中國的一些研究團隊不愿意公開他們自己的研究數據也就不奇怪了。掌握數據意味著在學術領域擁有了無形的資本和競爭優勢。我自己的研究團隊就收到過許多索取海事數據的請求,例如我們所編集的口岸統計數據和船隊信息,但我們并不情愿分享這些信息。尋找并將信息分類整理成可用的數據是一個耗費巨大的過程。如果我們獨享這些數據,就可以用它開發出自己的研究成果。但要是從其他渠道能獲得高質量的數據,我們也會樂意分享我們自己的數據。


開放公共數據,提高數據質量可以促進政府透明。盡管進展緩慢,還是存在公開透明化裨益中國社會的正面例子的。其中最矚目莫過于2014年環保局迫于公眾壓力而全面公開披露空氣污染數據的例子。在此之前,這類數據只是粗略地每天公布一次。而現在,數據每小時都更新一次并且在國內政府機構之間廣泛分享。這些數據使衛生局能夠對公眾發布警告信息;使教育局可以決定是否因霧霾天停課;使交通運輸局能夠調整汽車限行政策。或許,全面公開污染信息最大的影響是提高了公眾對于日益惡化的污染的危機意識。不幸的是,對于其他科學家所渴求的數據,公眾并不一定都能像對空氣污染數據那樣感興趣。實現公共數據的全面透明公開還是有很長的路要走。
這樣的限制不僅僅存在于中國國內的數據。國外學術資源有時也難以獲取。一些信息管理部門為了過濾疑似有害信息,人為設置了數字屏障。


我作為一名中國科學家的生活已經受到了影響。可靠的學術文獻搜索幾乎不可能。沒有了谷歌學術搜索引擎(相對于別的學術搜索引擎我更喜歡谷歌,因為可以同時搜索書籍、論文、專利和技術報告),我只好一個個地去搜索出版商運營的數據庫,至少目前它們還是可以訪問的。
網絡安全對國家安全是很重要的,但好的數據是科學進步和經濟發展的支柱。資源共享信息的開放可以鞏固經濟和社會幸福。在中國,解決這些矛盾需要全面性的研究,以便我們建立起一套能夠利于多方的高效合理的數據管理機制。更迫切的是,研究者們應當被給予更大的權限,特別是對于公共數據和學術搜索引擎。

閱讀次數:  

發表評論

吉林时时开奖直播