互聯(lián)網(wǎng)的發(fā)展帶來了海量的廉價(jià)數(shù)據(jù),也引發(fā)了關(guān)于大數(shù)據(jù)未來商業(yè)應(yīng)用前景的熱烈討論。然而,對(duì)于大數(shù)據(jù)的討論很多都流于概念的炒作,并沒有深入到數(shù)據(jù)的本質(zhì),基于大數(shù)據(jù)的互聯(lián)網(wǎng)營(yíng)銷與品牌管理,也遠(yuǎn)不像人們想象的那么容易。
隨著科技和互聯(lián)網(wǎng)的發(fā)展,我們現(xiàn)在擁有越來越多的數(shù)據(jù)?;ヂ?lián)網(wǎng)是個(gè)低成本的連接,大家可以在互聯(lián)網(wǎng)上自發(fā)的產(chǎn)生內(nèi)容、展開互動(dòng),所以互聯(lián)網(wǎng)上的數(shù)據(jù)流動(dòng)性非常強(qiáng)。
當(dāng)我們看數(shù)據(jù)的時(shí)候,不僅要考慮數(shù)據(jù)量的豐富程度,同時(shí)也要考慮數(shù)據(jù)的流動(dòng)性和新穎程度。
互聯(lián)網(wǎng)是個(gè)交互的載體,所以我們通過數(shù)據(jù)可以發(fā)現(xiàn)很多可能的商業(yè)應(yīng)用前景。現(xiàn)在對(duì)于大數(shù)據(jù)的討論有很多,但是我想說的一點(diǎn)是,很多有關(guān)大數(shù)據(jù)的討論僅是概念的炒作,并沒有真正深入到數(shù)據(jù)的本質(zhì)。
所以在開始之前,我想先舉幾個(gè)反例,而這幾個(gè)例子在很多書籍里面是作為經(jīng)典的開篇案例來被論述的。
從幾個(gè)“經(jīng)典”案例談起
谷歌在2009年推出了一款預(yù)測(cè)流感爆發(fā)的數(shù)據(jù)產(chǎn)品,原理是如果某個(gè)地方對(duì)流感相關(guān)的關(guān)鍵詞的搜索量如果突然增加,那么這里就可能爆發(fā)流感。2014年,一些科學(xué)家檢索了過去5年的預(yù)測(cè)結(jié)果,發(fā)現(xiàn)其中92%都是錯(cuò)的,而且很多大的流感并沒有預(yù)測(cè)到。
為什么會(huì)出現(xiàn)這樣高的錯(cuò)誤率?
因?yàn)榱鞲械谋l(fā)是很復(fù)雜的事,與人口密度、人口流動(dòng)、氣溫、飲食、衛(wèi)生條件等很多因素相關(guān),而關(guān)鍵詞的搜索頻率提供的信息極其有限,用來預(yù)測(cè)很有可能出錯(cuò)。
還有一個(gè)案例很多人聽過,啤酒與尿布的故事,說美國(guó)的爸爸給小孩買尿布的時(shí)候會(huì)順便給自己買啤酒。但是,本人實(shí)際分析多套美國(guó)超市銷售數(shù)據(jù)后從未發(fā)現(xiàn)這兩個(gè)品類間有顯著的相關(guān)性。所以這也只是一個(gè)噱頭。
還有很多類似的討論或者炒作,因此希望大家可以更理性的去看。
中國(guó)的大數(shù)據(jù)產(chǎn)業(yè)
再回頭看國(guó)內(nèi)的數(shù)據(jù)產(chǎn)業(yè)。
雖然大數(shù)據(jù)話題已經(jīng)被討論了好幾年,但實(shí)際上基于數(shù)據(jù)的變現(xiàn)面還是比較狹窄的,遠(yuǎn)遠(yuǎn)沒有我們想象當(dāng)中的那么美好。
真正能用數(shù)據(jù)變現(xiàn)、賺錢的,大都集中在程序化廣告、精準(zhǔn)營(yíng)銷、用戶畫像領(lǐng)域。其它的領(lǐng)域還是停留在概念階段,比如我們討論很多的消費(fèi)金融、大數(shù)據(jù)征信,實(shí)現(xiàn)的難度很大。
主要原因還是因?yàn)槿狈?shù)據(jù)——很難有一家公司、一個(gè)機(jī)構(gòu),能把一個(gè)消費(fèi)者在生活各方面的消費(fèi)信息都收到,例如支付寶上的芝麻信用收集到的是你用支付寶時(shí)的交易記錄,而沒有財(cái)付通或者現(xiàn)金的交易信息。
所以說,在普遍缺數(shù)據(jù)的背景下,我們應(yīng)該理性的回歸到數(shù)據(jù)問題本身。這其中一個(gè)很重要的原因是,數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)模化非常難。
一套數(shù)據(jù)對(duì)一個(gè)人可能值10塊錢,對(duì)另外一個(gè)人就可能值10萬,因?yàn)閮蓚€(gè)人所處的角度不同,對(duì)數(shù)據(jù)的分析挖掘能力不同,提取價(jià)值的能力不同,有各種原因?qū)е聰?shù)據(jù)很難被標(biāo)準(zhǔn)化。缺乏標(biāo)準(zhǔn)就難以交易,缺乏交易就能成規(guī)模。
正確認(rèn)識(shí)數(shù)據(jù)的價(jià)值
在我看來,數(shù)據(jù)沒有直接的價(jià)值,數(shù)據(jù)不等于價(jià)值,數(shù)據(jù)到價(jià)值之前還有很長(zhǎng)的一條路要走。
“大”數(shù)據(jù)本身是個(gè)非常模糊的命題。而且,數(shù)據(jù)本身是個(gè)科技范疇內(nèi)的東西,但在很多時(shí)候卻被當(dāng)成概念進(jìn)行炒作。
大數(shù)據(jù)的起點(diǎn)是業(yè)務(wù)數(shù)據(jù)化,終點(diǎn)是數(shù)據(jù)業(yè)務(wù)化,也就是說,最后能通過已有的數(shù)據(jù)產(chǎn)生新的業(yè)務(wù)點(diǎn)、現(xiàn)金流、利潤(rùn)。這個(gè)過程不是一蹴而就的,大數(shù)據(jù)不是黑和白、零和一的過程。這是一個(gè)需要循序漸進(jìn)、逐漸積累內(nèi)功修煉的過程。
我們可以以一個(gè)金字塔的方式形容它。
首先是數(shù)據(jù)源,解決數(shù)據(jù)收集機(jī)制的問題。不同公司有不同渠道收集數(shù)據(jù)。數(shù)據(jù)收集這個(gè)事情想象空間非常大,絕對(duì)不僅限于那種比較傳統(tǒng)的財(cái)務(wù)數(shù)據(jù)、收銀臺(tái)的流水?dāng)?shù)據(jù),或者GPS定位的數(shù)據(jù),實(shí)際上可收集的數(shù)據(jù)有很多,我們應(yīng)該用發(fā)散性思維去想一想,到底怎么樣收集數(shù)據(jù)。
當(dāng)然最關(guān)鍵的還是要建立一套長(zhǎng)效、低成本的數(shù)據(jù)收集機(jī)制。很多行業(yè)現(xiàn)在缺數(shù)據(jù),為什么?關(guān)鍵在于沒有機(jī)制,或者說沒有跟終端市場(chǎng)互動(dòng)的機(jī)制。如果銷售都交給渠道,那自然沒有有效的數(shù)據(jù)收集。
數(shù)據(jù)有了,還要有效的管理起來?,F(xiàn)在有很多云計(jì)算、云服務(wù)的平臺(tái),就是要幫你解決管理問題。但是我們需要明白一點(diǎn),他們只負(fù)責(zé)你數(shù)據(jù)的存儲(chǔ)、計(jì)算等,不負(fù)責(zé)給你收集數(shù)據(jù),也不負(fù)責(zé)給你分析數(shù)據(jù)、挖掘數(shù)據(jù)。他們負(fù)責(zé)的是基礎(chǔ)設(shè)施,那之上的數(shù)據(jù)業(yè)務(wù)還得公司自己打造。
數(shù)據(jù)分析能力:大數(shù)據(jù)的核心競(jìng)爭(zhēng)力
很多時(shí)候數(shù)據(jù)的用處是完全靠你自己分析出來的,這套數(shù)據(jù)有沒有用很大情況下取決于你分析的能力怎么樣。所以,分析能力、挖掘能力、建模能力,是一個(gè)核心競(jìng)爭(zhēng)力。
那具體來講,我們?yōu)槭裁匆治鰯?shù)據(jù)?
第一,大數(shù)據(jù)時(shí)代實(shí)際上是一個(gè)大噪音時(shí)代。
大家不要把大數(shù)據(jù)想得太美好,特別是當(dāng)你真要去做數(shù)據(jù)工作的時(shí)候。小數(shù)據(jù)時(shí)代,數(shù)據(jù)不多,能看出有趨勢(shì)就有趨勢(shì),沒趨勢(shì)就沒趨勢(shì)。但是,數(shù)據(jù)量非常大的時(shí)候,當(dāng)你打開一套數(shù)據(jù)的時(shí)候,迎面而來的可能全是噪音。
數(shù)據(jù)越大,噪音越大,也越考驗(yàn)?zāi)愕臄?shù)據(jù)挖掘和分析能力。這個(gè)能力既是你的技術(shù)能力,同時(shí)也是你對(duì)市場(chǎng)的理解能力。要把兩者有效地結(jié)合起來,才有可能分析得好,預(yù)測(cè)得好。
第二,大數(shù)據(jù)不等于全部數(shù)據(jù)。
前幾年剛剛開始有大數(shù)據(jù)這個(gè)概念的時(shí)候,市場(chǎng)上有一個(gè)非常錯(cuò)誤的觀點(diǎn),就是大數(shù)據(jù)時(shí)代我們不需要考慮抽樣了。這是非常錯(cuò)誤的。因?yàn)樵俅蟮臄?shù)據(jù)也還是一個(gè)樣本,所以你一定需要懂抽樣理論,了解在當(dāng)前的觀察樣本情況下,會(huì)對(duì)你的業(yè)務(wù)結(jié)果產(chǎn)生什么樣的影響。
第三,數(shù)據(jù)的外生性和內(nèi)生性。
數(shù)據(jù)本身并不一定能表達(dá)因果關(guān)系,很多時(shí)候它只是個(gè)相關(guān)性。相關(guān)性不影響預(yù)測(cè),但影響決策。二者之間的關(guān)系需要謹(jǐn)慎把握。
案例:美高梅賭場(chǎng)的精準(zhǔn)營(yíng)銷
舉一個(gè)賭場(chǎng)的例子。有一個(gè)大型的博彩集團(tuán)叫做美高梅集團(tuán),在澳門、拉斯維加斯都有。
做賭場(chǎng)生意,關(guān)鍵是什么?人流,因?yàn)橘r率相對(duì)比較穩(wěn)定,只要有足夠的人流量,賭場(chǎng)賺錢。所以這個(gè)生意跟零售業(yè)很像,沃爾瑪做的也是人流量的生意。
對(duì)于賭場(chǎng)來講,他們的數(shù)據(jù)分析里面非常關(guān)鍵的一點(diǎn)就是引流和降低流失率,盡量提高客戶留存率。
賭博行業(yè)是一個(gè)市場(chǎng)競(jìng)爭(zhēng)非常激烈的行業(yè)。開賭場(chǎng)的人太多了,像拉斯維加斯那條大街上面,很多家賭場(chǎng),大大小小、金碧輝煌,賭場(chǎng)為了能夠更好地留住客戶,一般都不只是有賭場(chǎng),還有餐飲、酒店、演出、購物等一站式服務(wù)。當(dāng)然其中肯定是賭博的利潤(rùn)最大了,所以為了爭(zhēng)取客戶、留存客戶,精準(zhǔn)營(yíng)銷是非常重要的。
賭場(chǎng)關(guān)注精準(zhǔn)營(yíng)銷這么多年,他們現(xiàn)在要做的一個(gè)工作是,把原有的精準(zhǔn)營(yíng)銷模型更進(jìn)一步地去優(yōu)化。其中很重要的一點(diǎn)是,我需要去量化我的促銷力度跟賭博總消費(fèi)之間的關(guān)系。
這個(gè)問題其實(shí)很復(fù)雜。原因有:
第一,數(shù)據(jù)很多很雜很亂。
第二,促銷的結(jié)果有時(shí)候因果是模糊的。
第三,賭客來賭場(chǎng)消費(fèi),他的決策過程是很復(fù)雜的。我選擇你家賭場(chǎng),可能不是因?yàn)槟慵屹€場(chǎng)有多好,可能是因?yàn)槟慵业娘埡贸?,可能是因?yàn)槟慵业木频旰米。赡苁且驗(yàn)槟慵业难莩龊每础?
還有一個(gè)非常復(fù)雜的問題是,新賭客越來越多,歷史上他們沒有出現(xiàn)過,怎么給他們做精準(zhǔn)營(yíng)銷?
賭場(chǎng)使用的模型是很經(jīng)典的針對(duì)人流量生意的數(shù)據(jù)模型,叫RFM模型(Recency-Frequency-Monetary)。
Recency就是最近一次消費(fèi)的時(shí)間,時(shí)間越近你的價(jià)值越高;Frequency也就是消費(fèi)頻率;Monetary就是你花的錢。但是你也可以看出,這樣也有一個(gè)問題,就是你沒有辦法區(qū)分天性豪賭和促銷敏感的人。
所以,他們的新模型就要解決這些類似的問題。那具體怎么解決?
剛才我們說到內(nèi)生性,實(shí)際上它就需要采取一種所謂的“差別中的差別”(difference in differences)的方法。
就是說,我需要在RFM分?jǐn)?shù)類似的這些人里面再去看你們之間的差別。因?yàn)橹挥蠷FM分?jǐn)?shù)相同的人,才有比較性。同時(shí)使用協(xié)同過濾等技術(shù)來解決新顧客問題,等等。
現(xiàn)在,我們有一個(gè)新的模型,但是萬一最后用起來不好呢?
這個(gè)時(shí)候要去做隨機(jī)實(shí)驗(yàn),將部分顧客隨機(jī)分三組,分別使用新模型、老模型、無模型進(jìn)行精準(zhǔn)營(yíng)銷。然后對(duì)比一下,哪個(gè)組的ROI(轉(zhuǎn)化率)更高,才能驗(yàn)證新模型到底好不好。
最后發(fā)現(xiàn),的確是新模型更好,所以在2015年加上了一個(gè)新模型以后,他營(yíng)銷的ROI提高了58%。
我們講數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)建模,實(shí)際上我們目的最終不是數(shù)據(jù),而是希望通過數(shù)據(jù)理解背后產(chǎn)生數(shù)據(jù)的東西。
是什么產(chǎn)生了數(shù)據(jù)?人產(chǎn)生了數(shù)據(jù)。
我們總是希望通過數(shù)據(jù),找一下背后人的行為和特征,然后基于這些去做數(shù)據(jù)的變現(xiàn)。
所以,數(shù)據(jù)分析的邏輯不是以數(shù)據(jù)預(yù)測(cè)數(shù)據(jù),而是通過數(shù)據(jù)預(yù)測(cè)人,人再來產(chǎn)生新數(shù)據(jù)。我們必須關(guān)注產(chǎn)生數(shù)據(jù)的人,這才是數(shù)據(jù)分析的本質(zhì)。
任何的數(shù)據(jù)模型,都應(yīng)該考慮具體的業(yè)務(wù)場(chǎng)景和消費(fèi)者的微觀行為。好的大數(shù)據(jù)模型,一定是有好的技術(shù),同時(shí)里面融入非常好的商業(yè)邏輯和經(jīng)驗(yàn),這絕對(duì)不是個(gè)IT程序員能簡(jiǎn)單解決的。
案例:社交網(wǎng)絡(luò)的大數(shù)據(jù)征信
最后討論一個(gè)金融消費(fèi)品的數(shù)據(jù)模型:社交網(wǎng)絡(luò)的大數(shù)據(jù)征信。
就是你希望通過在社交網(wǎng)絡(luò)上給一個(gè)人的信用打個(gè)分?jǐn)?shù)。這個(gè)很重要,因?yàn)楝F(xiàn)在要講消費(fèi)信貸、普惠金融,必須要對(duì)一個(gè)人的信用情況做一個(gè)判斷,做個(gè)人風(fēng)控,但是中國(guó)之前的個(gè)人信用評(píng)價(jià)系統(tǒng)相對(duì)比較簡(jiǎn)單和落后。
現(xiàn)在我們希望跳出傳統(tǒng)的金融數(shù)據(jù),拿到一些其它的數(shù)據(jù)。這個(gè)人的人際關(guān)系、朋友圈、心理狀態(tài)、生活狀態(tài),可能對(duì)他的信用都是個(gè)很好的反映。那這些東西從哪來呢?現(xiàn)在是社交網(wǎng)絡(luò)時(shí)代,很有可能都是從社交網(wǎng)絡(luò)而來。所以,現(xiàn)在就有個(gè)很熱門的話題——社交網(wǎng)絡(luò)的征信。
這必然會(huì)涉及到社交網(wǎng)絡(luò)的征信模型。這里我們更多的不是要分析行業(yè),而是怎么樣去社交網(wǎng)絡(luò)上進(jìn)行建立征信的數(shù)據(jù)模型。
社交網(wǎng)絡(luò)是特別復(fù)雜的,所以說,你要去社交網(wǎng)絡(luò)上給人的信用建立一個(gè)數(shù)學(xué)模型,首先得給社交網(wǎng)絡(luò)建立一個(gè)模型。
首先,你必須要能夠處理社交網(wǎng)絡(luò)的噪聲,社交網(wǎng)絡(luò)的噪聲是非常大的。
另外,假設(shè)有一天大規(guī)模實(shí)現(xiàn)了社交網(wǎng)絡(luò)征信,大家交朋友的方式也會(huì)隨之改變,這是內(nèi)生變化。我們也得把這個(gè)可能的內(nèi)生變化加入到數(shù)據(jù)模型里面去,讓整個(gè)過程自動(dòng)化。
要給社交網(wǎng)絡(luò)建立一個(gè)模型,我們就要想,人為什么要建立關(guān)系?人跟人之間為什么會(huì)形成社交關(guān)系?因?yàn)槿撕腿酥g的相似性。
我們用特定的統(tǒng)計(jì)模型模擬人和人的相似性。先有了這個(gè)社交網(wǎng)絡(luò)的模型,我們?cè)偃ソㄕ餍诺哪P?課上有詳細(xì)討論,此處省略)。我們要考慮你的信用到底怎么樣?以及我對(duì)你的信用的判斷,準(zhǔn)確率怎么樣?比如說我判斷你信用非常好,但是我知道這個(gè)判斷的結(jié)果的誤差很大,那這樣的結(jié)果可能用處也不大,我需要的是一個(gè)誤差比較小的判斷。
如果我們采取了大規(guī)模的社交征信,實(shí)際上是放大了人跟人之間的差異。原先我可能跟這個(gè)人會(huì)成為朋友的,但現(xiàn)在因?yàn)橐餍帕耍业弥?jǐn)慎了,所以我就不跟他成為朋友了。在放大了人跟人之間的差異的情況下,我們?cè)偃タ醋詈蟮恼餍沤Y(jié)果就會(huì)發(fā)現(xiàn),這其實(shí)是個(gè)正循環(huán)(課上有詳細(xì)討論,此處省略)。一旦人交友更謹(jǐn)慎了,實(shí)際上數(shù)據(jù)質(zhì)量是更高了。
社交媒體數(shù)據(jù)征信建模在美國(guó)已經(jīng)實(shí)施,他們用的模型就是按這樣的思路來的。首先寫一個(gè)社交網(wǎng)絡(luò)的模型,然后再寫一個(gè)征信的模型,同時(shí)要考慮到產(chǎn)生征信以后,對(duì)社交結(jié)構(gòu)產(chǎn)生的影響。
你至少要把這三點(diǎn)寫進(jìn)去,才完成了一個(gè)基礎(chǔ)性的數(shù)據(jù)工作,這里面當(dāng)然還有很多問題我們可以去建立模型,比如弄虛作假、違約率、借款利息等等,所以這里面還有更多的拓展可以做。
最終我們想強(qiáng)調(diào)的一點(diǎn)是,數(shù)據(jù)的挖掘、建模與分析,是大數(shù)據(jù)營(yíng)銷過程中的核心競(jìng)爭(zhēng)力。這里面牽涉到非常高深的技術(shù),而且也不能缺少對(duì)商業(yè)的洞察。這一切最后都落在既懂?dāng)?shù)據(jù),又懂業(yè)務(wù)的數(shù)據(jù)數(shù)據(jù)BI科學(xué)家肩上。而當(dāng)下的中國(guó)很欠缺這方面的人才。
更多資訊請(qǐng)關(guān)注微信公眾號(hào)mbadegree!