BiddingX | 大数据：利用相关性的营销

　　大数据首先不是抽样，它获得的数据是全体样本数据，其次它不是在让用户回答问题，而是实打实地去获取用户的“行为”。用户声称对某活动会有兴趣和用户是否参加了某活动，显然后者更能说明问题。最重要的一点，大数据分析和抽样分析的核心区别在于：前者是动态的，后者是静态的。

　　随机抽样方法是成本很高的，故而它很难每天都去做一次——事实上，为某个特定的问题一个月乃至一个季度做一次随机抽样，都很难实施。于是，一个随机抽样所形成的结论，其实是静态的，它只能说明在做那次调研时的一些相关性。当有新的用户（样本）加入时，很难再说明过去的相关性是否能够成立——除非，你能找到真正的排除了各种隐形变量后的因果关系。
　　如果试图减少成本去做非随机抽样，那么，它的结论就更没有推广意义（学术一点称之为外部效度性，非随机抽样外部无效度）。当新用户加入后，非随机抽样的结论基本不能适用。但大数据的分析却是动态的，每秒都有可能产生一个新的结论。让我们用最常见的亚马逊页面上的“购买此商品的顾客也同时购买”来举例。
　　这个部分里的商品是活动的，由于新购买的产生，会导致这个模块里的商品可能会产生变化。不过，这个模块也有可能是导致商品集中化购买的重要原因：用户看到了这个模块里推荐的商品而产生购买的可能是很大的（也许ta本来就没有任何购买的念头，甚至连这个商品都不晓得）。但对于大数据来说，原因是什么一点也不重要，它要做的——至少在电子商务领域——无非是提高客单价罢了。买了A书和买了B书之间的因果研究，那是学者们的事，不是商人关心的事。
　　大数据处理的方式不是探幽细究型的，挖空心思去想究竟原因为何没有这个必要，不过拿出一些结论来演绎也是会闹笑话的：比如吃海参有助于提高智商。大数据其实不需要做什么演绎，它的任务只是让你在某一时刻能做到提升成功率的事，哪怕只有1%。量一大，1%都是极其可观的。
　　在某一个时点，跑了一下数据，大致能看到一些相关性，于是我们开始设计某种活动，并有针对性地让一定的用户知道，这次获得的参与度和转发率，比毫无数据支撑背景下的胡乱策划，成功率应该会高一点。同样的人力投入，得到了相对而言的较高效果，这就是数据分析的好处。
　　过了三个月后，又有需要策划的活动，注意，这一次依然需要再跑一次数据。因为样本可能不是只有10万了，也许15万，也许运气不好有2万微博用户已经“死亡”，只剩8万。另外一个可能是有某些新的外部变量加入，比如出来一种新的商品让很多人趋之若鹜高度关注。这个时候拿上一次的数据来指导策划，又是盲人骑瞎马，夜半临深渊了。
　　不同的时点，或者目标不同的活动，都需要再次跑数据，这可能是大数据分析的麻烦之处。不过，计算机的长处就是计算，花上一两个小时设计几个公式或模型，相对于过去动不动要搞随机抽样，便利性提高很多倍，值得尝试。
　　更宏大一点的就是真正意义上的“大数据”了。今年年头互联网圈阿里要并购新浪微博，从商业逻辑上讲，一个是中国最大的消费平台，一个是中国最大的碎片化言论平台，两者数据的合并，是颇能挖出更多的相关性来。
　　当你发表一条微博时，忽然配套出来了一条广告。是的，你很烦，感觉又被骚扰了。但从商业角度而言，如果你过去的烦是一万次广告推送才会有一次点击，现在变成九千次一次点击，都是了不得的进步。一万次为什么会变成九千次？因为一个人的言论和ta的消费倾向，的确是存在一定相关性的。
　　广告圈里一句名言：我知道我的广告浪费了一半，但我不知道浪费了哪一半。一些营销业者鼓吹说他们可以让你不浪费那一半。不要相信他们。对于广告来说，从浪费50%到浪费49%，都是很值得去投入的事。建立在相关性而非因果上的大数据营销，不可能让广告主从此不再浪费广告，它只能做到：浪费得少一点。

转自数据小兵博客

也欢迎关注我们的微博：
http://weibo.com/biddingx