|
大數據和數據挖掘在科研領域的發(fā)展 |
作者:佚名 來源:網絡 |
大數據在看著你嗎? 除了安全和商業(yè),大數據和數據挖掘在科研領域也正在風起云涌。越來越多的設備帶著更加精密的傳感器,傳回愈發(fā)難以駕馭的數據流,于是人們需要日益強大的分析能力。在氣象學、石油勘探和天文學等領域,數據量的井噴式增長對更高層次的分析和洞察提供了支持,甚至提出了要求。 2005年6月至2007年12月海洋表面洋流示意圖。數據源:海面高度數據來自美國航空航天局 (NASA)的Topex/Poseidon衛(wèi)星、Jason-1衛(wèi)星,以及海形圖任務/Jason-2衛(wèi)星測高儀;重力數據來自NASA/德國航空航天中心的重力恢復及氣候實驗任務;表面風壓數據來自NASA的 QuikScat任務;海平面溫度數據來自NASA/日本宇宙航空研究開發(fā)機構的先進微波掃描輻射計——地球觀測系統;海冰濃度和速度數據來自被動微波輻射計;溫度和咸度分布來自船載、系泊式測量儀器,以及國際Argo海洋觀測系統。 這幅2005年6月至2007年12月海洋表面洋流的示意圖集成了帶有數值模型的衛(wèi)星數據。漩渦和窄洋流在海洋中傳送熱量和碳。海洋環(huán)流和氣候評估項目提供了所有深度的洋流,但這里僅僅使用了表層洋流。這些示意圖用來測量海洋在全球碳循環(huán)中的作用,并監(jiān)測地球系統的不同部分內部及之間的熱量、水和化學交換。 在醫(yī)學領域,2003年算是大數據涌現過程中的一個里程碑。那一年第一例人類基因組完成了測序。那次突破性的進展之后,數以千計人類、靈長類、老鼠和細菌的基因組擴充著人們所掌握的數據。每個基因組上有幾十億個“字母”,計算時出現紕漏的危險,催生了生物信息學。這一學科借助軟件、硬件以及復雜算法之力,支撐著新的科學類型。 精神障礙通常是具體病例具體分析,但是一項對150萬名病人病例的研究表明,相當多的病人患有超過同一種疾病。芝加哥大學的西爾維奧·康特中心利用數據挖掘理解神經精神障礙的成因以及之間的關系!昂脦讉(研究)團隊都在致力于這個問題的解決!敝行闹魅伟驳铝摇げ袼够ˋndrey Rzhetsky)說,“我們正試圖把它們全部納入模型,統一分析那些數據類型……尋找可能的環(huán)境因素。” 另一例生物信息學的應用來自美國國家癌癥研究所。該所的蘇珊·霍爾貝克(Susan Holbeck)在60種細胞系上測試了5000對美國食品和藥品管理局批準的抗癌藥品。經過30萬次試驗之后,霍爾貝克說:“我們知道每種細胞系里面每 一條基因的RNA表達水平。我們掌握了序列數據、蛋白質數據,以及微觀RNA表達的數據。我們可以取用所有這些數據進行數據挖掘,看一看為什么一種細胞系對混合藥劑有良好的反應,而另一種沒有。我們可以抽取一對觀察結果,開發(fā)出合適的靶向藥品,并在臨床測試。” 互聯網上的火眼金睛 當醫(yī)學家忙于應對癌癥、細菌和病毒之時,互聯網上的政治言論已呈燎原之勢。整個推特圈上每天要出現超過5億條推文,其政治影響力與日俱增,使廉潔政府團體面臨著數據挖掘技術帶來的巨大挑戰(zhàn)。 印第安納大學Truthy(意:可信)項目的目標是從這種每日的信息泛濫中發(fā)掘出深層意義,博士后研究員埃米利奧·費拉拉(Emilio Ferrara)說!癟ruthy是一種能讓研究者研究推特上信息擴散的工具。通過識別關鍵詞以及追蹤在線用戶的活動,我們研究正在進行的討論! Truthy是由印第安納研究者菲爾·孟澤(Fil Menczer)和亞力桑德羅·弗拉米尼(Alessandro Flammini)開發(fā)的。每一天,該項目的計算機過濾多達5千萬條推文,試圖找出其中蘊含的模式。 大數據盯著“#bigdata”(意為大數據)。這些是在推特上發(fā)布過“bigdata”的用戶之間的連接,用戶圖標的尺寸代表了其粉絲數多寡。藍線表示一次回復或者提及,綠線表示一個用戶是另一個的粉絲。 一個主要的興趣點是“水軍”,費拉拉說:協調一致的造勢運動本應來自草根階層,但實際上是由“熱衷傳播虛假信息的個人和組織”發(fā)起的。 2012年美國大選期間,一系列推文聲稱共和黨總統候選人米特·羅姆尼(Mitt Romney)在臉譜網上獲得了可疑的大批粉絲!罢{查者發(fā)現共和黨人和民主黨人皆與此事無關!辟M拉拉說,“幕后另有主使。這是一次旨在令人們相信羅姆尼在買粉從而抹黑他的造勢運動! 水軍的造勢運動通常很有特點,費拉拉說。“要想發(fā)起一場大規(guī)模的抹黑運動,你需要很多推特賬號,”包括由程序自動運行、反復發(fā)布選定信息的假賬號。“我們通過分析推文的特征,能夠辨別出這種自動行為! 推文的數量年復一年地倍增,有什么能夠保證線上政治的透明呢?“我們這個項目的目的是讓技術掌握一點這樣的信息!辟M拉拉說,“找到一切是不可能的,但哪怕我們能夠發(fā)現一點,也比沒有強!..
|
|