在剛剛結束的“2012年中國計算機大會”上,“大數據”是出現頻率最高的一個詞,幾乎每個主講者、每場論壇都涉及這幾個字。同時,中國計算機學會也在大會舉行期間,正式成立了大數據專家委員會,中國工程院院士李國杰擔任主任。
什么是大數據?按照維基百科的說法,大數據指在一定時間內無法用常規軟件對其內容進行抓取、管理和處理的數據集合。
2011年,《自然》雜志(Nature)出版??赋?,倘若能夠更有效地組織和使用大數據,人類將得到更多的機會發揮科學技術對社會發展的巨大推動作用。
美國政府把大數據看成是“未來的新石油”。2012年3月,美國奧巴馬政府公布了“大數據研發計劃”,旨在提高和改進人們從海量和復雜的數據中獲取知識的能力,進而加速美國在科學與工程領域發明的步伐,增強國家安全。這是美國1993年宣布“信息高速公路”之后的又一重大科技發展部署。美國國家科學基金會、國防部、能源部等6個政府部門和機構宣布投資兩億美元。
其實,大數據早就在我們身邊。我們每天通過互聯網上傳或者下載大量視頻、圖片、文字,都在產生大量數據,各種購物、社交網站更是大數據的集中之地。國際數據公司(IDC)的研究表明,全世界的社交網絡每天有2.5億張照片上傳。
2011年,全球數據總量為1.8ZB(10的21次方字節),其中75%來自個人。有人形象地計算了一下,這些數據如果用9GB的DVD光盤保存,疊起來的厚度是26萬公里,大約是地球到月球距離的三分之二。
不過,企業應用還是大數據的主要推動者。生物、醫學、天文、環境、物理、工程、經濟、互聯網等諸多領域涉及大數據的處理和應用。李國杰院士對IBM、甲骨文、微軟、谷歌、亞馬遜、Facebook等企業進行了分析。他發現,自2005年以來,IBM投資160億美元進行了30次與大數據有關的收購,促使其業績穩定高速增長。2012年,IBM股價突破200美元大關,3年之內翻了3倍。華爾街早就開始招聘精通數據分析的天文學家和理論數學家來設計金融產品。IBM現在是全球數學博士的最大雇主,數學家正在將其數據分析的才能應用于石油勘探、醫療健康等各個領域。eBay通過數據挖掘可以精確計算出廣告中的每一個關鍵字為公司帶來的回報。
大數據應用也早已在商業領域大顯身手。金蝶國際軟件集團首席科學家張良杰介紹,他們參與搭建的全國中小企業信息平臺,匯集了4000萬家企業,通過對這些企業海量數據的挖掘和分析,能夠對經濟運行狀況作出準確的預警,有助于國家相關部門作出應對決策。
此外,張良杰還舉例說,在微觀經濟領域,“大數據”的作用也越發凸顯。“美國一家公司把天氣預報的信息和數據在亞馬遜的云平臺上進行處理,可以幫助農業的種植者在特定季節中避免遭受氣象災害,很好地保障他們的收益。在企業管理上,大數據可以為企業管理創新帶來活力。對前一段時間的業績情況分析,來決策下一步的投資、戰略部署、產品研發。”
國內的淘寶、騰迅QQ、新浪微博既是大數據的產生者、應用者,也是研究者。正是由于這些應用,李國杰認為:“大數據的工程技術研究已經走在了科學前面。”
但是當技術解決不了的問題越來越多時,就需要科學家找出共性的問題。可是科學家并不了解每個領域的特點和問題,目前各個領域中“數據界”的共性還不太清楚,所以李國杰提出來:“我覺得我們搞科學,要放下身段、甘當配角。在條件還不成熟的時候,計算機科學家應虛心地當一段時期的‘助手’。”
在科學家如何與企業界相結合、共同解決大數據問題上,香港中文大學教授華云生認為:“現在情況復雜,不像以前,一個方案可以解決許多問題。大數據的研究要結合實際用戶問題,把問題、數據、平臺集中起來解決。但現在還是不清晰、不明確。”