行業動态

數據湖(hú)惡化成了數據沼澤?你一定沒有(yǒu)注意這3點

2017/4/13 17:00:09

多(duō)年來,在Apache Hadoop等技(jì )術的支持下,組織一直在尋求構建數據湖(hú)——企業範圍的數據管理(lǐ)平台,允許以原生格式存儲所有(yǒu)數據。數據湖(hú)可(kě)通過提供給一個單一的數據存儲庫來打破信息孤島問題,整個組織都可(kě)以使用(yòng)從業務(wù)分(fēn)析到數據挖掘的所有(yǒu)東西。原始和不受約束,數據湖(hú)被認為(wèi)是一個包羅萬象的大數據。

但是,商(shāng)業智能(néng)(BI)軟件專家,金字塔分(fēn)析公(gōng)司的首席技(jì )術官Avi Perez說,他(tā)看到許多(duō)客戶的數據湖(hú)正在惡化為(wèi)數據沼澤——完全無法接近終端用(yòng)戶的大量數據存儲庫。

“數據庫真的很(hěn)貴。”Perez說,“數據湖(hú)從根本上解決了這個問題。數據湖(hú)以及所有(yǒu)大數據方案,都來自于市場壓力,其次,現實世界的數據生成器會吐出大量的數據,你需要找到一個方法去存儲它們。”

但是,盡管許多(duō)世界上最好的公(gōng)司都在他(tā)們的數據湖(hú)周圍建立了業務(wù)(谷歌就是一個很(hěn)好的例子),但很(hěn)多(duō)公(gōng)司在收集了數據之後卻沒有(yǒu)任何清晰的辦(bàn)法來獲取價值。

“他(tā)們更像是在收集灰塵。”Perez說,“也可(kě)以說在收集垃圾,一些最終都會被抛棄的垃圾。最後,你為(wèi)那些東西增加了預算,卻什麽都不做。”

這并不是說數據湖(hú)背後的想法是糟糕的。Perez确信,所有(yǒu)的公(gōng)司最終都需要一個數據湖(hú)。但是如何創建一個數據湖(hú),讓終端用(yòng)戶真正從中(zhōng)受益,這是需要深思熟慮的。

為(wèi)了避免在自己的數據湖(hú)中(zhōng)溺水,Perez建議采用(yòng)以下三條原則:


一、隻收集少量的數據,至少在一開始的時候。


Perez表示,組織所犯的最大的錯誤之一就是收集太多(duō)的數據,而其中(zhōng)原因僅僅是他(tā)們有(yǒu)這個能(néng)力。很(hěn)多(duō)時候,個人也是這樣。細想一下,你手機裏存了成百上千張圖片,有(yǒu)都少是自己真正想保存的?很(hěn)多(duō)人沒有(yǒu)删掉多(duō)餘的圖片,隻是因為(wèi)手機容量夠大。

“你的手機上有(yǒu)10億張照片,其中(zhōng)99%就可(kě)能(néng)是垃圾,而且在删除它們的時候還可(kě)能(néng)會有(yǒu)點兒舍不得。”他(tā)說,“用(yòng)手機拍照很(hěn)容易,基本上是免費的。你可(kě)能(néng)回想,‘有(yǒu)一天我會去清理(lǐ)它’,但隻要存儲容量仍然充足,就很(hěn)少有(yǒu)人會這樣做。這就叫做收集了大量的信息,卻沒辦(bàn)法有(yǒu)效使用(yòng)它們。”

當你想要給某人看一張很(hěn)有(yǒu)意思的照片時,就不可(kě)避免地需要往後翻閱很(hěn)多(duō)張無關的照片。

Perez說,同樣的事情也發生在數據湖(hú)上。在Hadoop中(zhōng)存儲數據并不昂貴,甚至常會被認為(wèi)是免費的。但是,大量累積的數據會讓你很(hěn)難真正地訪問數據,來為(wèi)自己提供有(yǒu)價值的信息。

“我認為(wèi),避免這種情況的方法實際上是把水龍頭給關掉。”Perez說,“基于這樣一種假設,僅僅是收集數據的成本很(hěn)低,并不會讓使用(yòng)數據變得更便宜。這可(kě)能(néng)真的很(hěn)貴。所以,不要總想着無休止地收集信息。把它放在一個數據集中(zhōng),制定一個具(jù)體(tǐ)的計劃,弄清楚自己該如何去挖掘它。”


二、 采用(yòng)機器學(xué)習戰略



即使有(yǒu)了一個集中(zhōng)的數據集,從大規模的數據中(zhōng)獲得有(yǒu)價值見解也需要自動化。

“你需要一個自動化的系統來清洗數據。”Perez說,“人工(gōng)智能(néng)、機器學(xué)習、深度學(xué)習,無論你想使用(yòng)哪一種,都會是一個非常神奇的解決辦(bàn)法。我認為(wèi),從你巨大的數據湖(hú)中(zhōng)獲取價值的最簡單的辦(bàn)法就是,擁抱這一項新(xīn)技(jì )術。”

Perez說,首先選擇一個數據集,然後通過一項機器學(xué)習技(jì )術來完成它。當然,新(xīn)的技(jì )術意味着新(xīn)的技(jì )能(néng)、人才需求,你可(kě)以對現有(yǒu)員工(gōng)進行培訓,也可(kě)以聘請一些專業人士。

“機器學(xué)習是一門黑色藝術。”他(tā)說,“這并不容易做到,需要非常細分(fēn)的技(jì )能(néng)。”


三、 确定你想解決的商(shāng)業問題


所有(yǒu)的事情都應該是完整的:你需要從一個清晰的視角來開始你想要解決的商(shāng)業問題。有(yǒu)了一個客觀的目标,相對會更容易把你需要收集的數據和最好的機器學(xué)習技(jì )術應用(yòng)起來。

例如,Perez說,可(kě)以将自己想象成一個大賣場,你決定去了解什麽樣的顧客會進入你的商(shāng)店(diàn)。你可(kě)以捕捉顧客進入商(shāng)店(diàn)的圖片,然後使用(yòng)一個複雜的神經網絡(CNN)——一種擅長(cháng)于計算機視覺問題的深度學(xué)習神經網絡——來處理(lǐ)圖像。CNN可(kě)以通過一個人的形象确定是男性還是女性,是孩子還是成年人,是年輕人還是老年人等等。

“一旦你完成了所有(yǒu)工(gōng)作(zuò),就可(kě)以把它與一個商(shāng)業計劃聯系起來,并把它交給你的業務(wù)用(yòng)戶。”Perez說,“這可(kě)以幫助你做出決策——‘我們需要更多(duō)地向男性市場推銷,因為(wèi)我們沒有(yǒu)足夠多(duō)的男性客戶’。你真的需要事先有(yǒu)一個明确的戰略,如果不這樣做,僅僅是對事物(wù)的收集就會對整個過程産(chǎn)生巨大的負面影響。”

一旦你在頭腦中(zhōng)建立了一個業務(wù)計劃,通常就可(kě)以叠代該功能(néng),從而為(wèi)業務(wù)提供更有(yǒu)針對性的解決方案。例如,一旦你确定是誰走進了你的商(shāng)店(diàn),你就可(kě)以用(yòng)同樣的能(néng)力來确定誰會走過你的化妝品櫃台。


9627e717fa1f799145fb535d1be7d440.jpg



上一篇:物(wù)聯網時代,智能(néng)硬件将如何影響我們的生活 下一篇:淺析數據中(zhōng)心成本與機房等級的關系