世界對數據湖(hú)的興趣依然在不斷增長(cháng),但如果說對數據湖(hú)的宣傳都是煙霧彈的話,這就貶低了數據湖(hú)真正的能(néng)力。“數據倉庫”和“大數據”等概念都逐漸深入人心,但“數據湖(hú)”仍然是讓IT和業務(wù)相關者頭疼的一件事情。
随着人們對于數據湖(hú)的清晰定義、使用(yòng)案例、最佳實踐等信息的需求不斷增長(cháng),IT專業人士需要一則明确的數據湖(hú)指南,回答(dá)以下問題:數據湖(hú)是什麽?我們應該如何利用(yòng)它?數據湖(hú)又(yòu)将如何改變大數據呢(ne)?
1.定義及觀點
數據湖(hú)成為(wèi)了核心數據架構中(zhōng)發展得很(hěn)快的一環,但IT專業人士常有(yǒu)疑惑,數據湖(hú)究竟是一個架構策略還是架構的目标呢(ne)?實際上并沒有(yǒu)清晰的界限,但仍然有(yǒu)方法來解決定義的問題。數據湖(hú)是一個中(zhōng)央儲存庫,為(wèi)多(duō)種數據工(gōng)作(zuò)負載儲存企業數據;通過數據湖(hú),終端架構可(kě)以得到解決,同時數據結構相關的決策也是建立數據湖(hú)時的關鍵。 數據湖(hú)被越來越多(duō)的采用(yòng),而它的實施分(fēn)為(wèi)四個關鍵的階段:
技(jì )術評估。通過進行大數據實驗項目,關注幾個特定的業務(wù)目标和成果,數據湖(hú)的使用(yòng)者可(kě)以對這項技(jì )術進行測試,并熟悉Apache Hadoop環境的管理(lǐ)。
做出反應。在這個階段,各公(gōng)司開始利用(yòng)Hadoop來解決現有(yǒu)架構的低效率問題,确立清晰可(kě)測的業務(wù)機會。此外,這個采納過程對于IT效率的提高也是非常關鍵的。
主動利用(yòng)。通過為(wèi)分(fēn)析項目合并數據以及利用(yòng)Hadoop獲得經濟的可(kě)拓展性這兩種手段,各公(gōng)司可(kě)以在一個單一的中(zhōng)央存儲中(zhōng)管理(lǐ)大量新(xīn)出現的數據源,例如物(wù)聯網、社交媒體(tǐ)和非結構化的數據。
建立核心競争力。随着大數據成為(wèi)IT戰略的核心組成部分(fēn),各公(gōng)司最終能(néng)夠達到發展的高峰,消除所有(yǒu)業務(wù)應用(yòng)和分(fēn)析應用(yòng)之間的隔閡,重新(xīn)建立一個單一的企業平台。
2.數據湖(hú)的組織
得益于Hadoop的靈活性和可(kě)拓展性,我們今天能(néng)夠保存、分(fēn)類、探索并利用(yòng)的數據類型比以往任何時候都要多(duō)。但避免數據湖(hú)成為(wèi)數據沼澤的關鍵在于數據治理(lǐ),數據的組織和安(ān)全性也是決定數據探索成敗的關鍵。一個清晰而有(yǒu)條理(lǐ)的數據組織(通常是按類目或者按數據用(yòng)法劃分(fēn))能(néng)夠幫助Hadoop工(gōng)程師建立更加完善的技(jì )術決策,幫助分(fēn)析師和數據科(kē)學(xué)家從數據中(zhōng)獲取真正的洞察。
3、統一數據探索、數據科(kē)學(xué)和商(shāng)務(wù)智能(néng)
對于企業BI需求、數據探索和數據科(kē)學(xué)的支持是推動數據湖(hú)部署的主要因素,這三項技(jì )術能(néng)将原始數據用(yòng)于機器學(xué)習算法和統計功能(néng)。因為(wèi)敏捷方法學(xué)為(wèi)企業級 BI提供了自适應途徑,數據湖(hú)就能(néng)夠落實更多(duō)具(jù)體(tǐ)的企業業務(wù)、性能(néng)指标和度量權值,同時可(kě)用(yòng)于儲存曆史數據。 充滿競争的商(shāng)業環境讓人目不暇接,各公(gōng)司必須認識到探索技(jì )術的關鍵作(zuò)用(yòng),并認識到解答(dá)未知的重要性。這刺激了我們的需要,要把數據直接用(yòng)于分(fēn)析技(jì )術,産(chǎn)生意義重大的洞察、為(wèi)企業創造附加價值。
要幫助企業從他(tā)們的數據湖(hú)中(zhōng)實現最大化效益,就必須要考慮以下幾個要素:
從長(cháng)遠(yuǎn)角度考慮數據。在開始一個數據項目時,必須仔細考慮數據在今後其他(tā)應用(yòng)中(zhōng)的可(kě)重用(yòng)性。要明白未來新(xīn)産(chǎn)生的數據需求往往是不可(kě)預知的,了解這一點後公(gōng)司就可(kě)以更好地相應準備并利用(yòng)起他(tā)們的數據。
先确立數據治理(lǐ)結構。數據治理(lǐ)被應用(yòng)在了整個企業的數據和信息政策當中(zhōng),所以在考慮數據湖(hú)時也不應該例外。數據治理(lǐ)規範了企業中(zhōng)的每個人對數據湖(hú)的使用(yòng),并最小(xiǎo)化了發生錯誤和不當數據管理(lǐ)的可(kě)能(néng)性。
預先解決安(ān)全問題。以數據為(wèi)中(zhōng)心的安(ān)全保護提供了從整個數據的生命周期來看數據的宏大視角,此處的關鍵要素就是從第一天開始就正視安(ān)全問題,确立好哪些數據可(kě)以引入數據湖(hú),并為(wèi)數據湖(hú)中(zhōng)的各類數據制定使用(yòng)權限
盡管數據湖(hú)在大數據領域還是一個比較新(xīn)的詞彙,但它已經成為(wèi)了企業級IT架構和整體(tǐ)數據戰略的重要部分(fēn)。數據湖(hú)戰略擁有(yǒu)合理(lǐ)的架構,能(néng)夠和數據科(kē)學(xué)以及成本低廉、擁有(yǒu)商(shāng)業基礎的機器學(xué)習分(fēn)析完美結合。對于數據湖(hú)核心概念的了解能(néng)夠幫助企業更好地利用(yòng)并保護自己的數據,同時提高通過數據進行探索的能(néng)力。