关于数据和分析,有很多炒作和宣传。企业们不断被劝诫说,要制定收集和分析大数据的策略,并被警告不这样做会有什么潜在的负面后果。《华尔街日报》最近发现,那些坐拥大量客户数据的公司,绝大多数情况下却不知道如何使用这些数据。我们采访了那些试图从 PB 级数据中寻找可用洞察的公司,并找出了管理者们在数据方面常犯的四个错误。
- 错误1:不理解数据整合的重要性
第一个限制企业从大数据中获得价值的挑战,就是兼容性和整合。大数据的关键特征之一,就是数据来自于各种各样的数据源。然而,如果这些数据不是本身就很合适,或者,不是很易于整合,那么数据源的多样性,可能会使企业实际上难以为客户省钱或创造价值。
比如,我们与一家公司合作项目,他们拥有很棒的客户购买数据和忠诚度数据,另外还有一个在线浏览行为的数据库,但是,他们没办法将这两个数据来源对比参照,因此也无法知道是否浏览网站的行为可以当做销售的预测。这家公司可以通过创建“数据湖”、拥有大量的非结构化数据,来应对这种挑战。然而,事实上,现在企业拥有的大量数据都是非结构化的,比如以文本字符串为形式的数据,这意味着非常难以将数据用二进制数据的方式来结构化储存。而这,就会使它非常难以被整合到各个渠道中。
- 错误2:没有意识到非结构化数据的限制
使大数据难以产生价值的第二个挑战是其非结构性。文本数据挖掘取得了专业化的进展,人们可以通过上下文和技术得到与结构化数据类似的见解,但其他形式的数据,如视频数据,仍然不容易分析。有一个例子,尽管使用最先进的面部识别软件,当局还是无法从众多的视频数据中识别出波士顿马拉松恐怖袭击的两名爆炸嫌疑犯,因为软件难以识别从各种不同角度拍摄的人脸照片。
考虑到难以从非结构化数据获得见解,企业最成功的举措是,初步使用它来增加现有数据分析的速度和准确性。 例如,在石油和天然气勘探中,大数据就被用于加强地震钻探相关的操作与数据分析。尽管他们使用的数据可能在速度(velocity)、多样性(variety)和体积(volume)上都有所增加,但最终它仍然被用于相同的目的。一般来说,只有当公司“练习”并获得了使用非结构化数据来增强现有问题解决方案的专业知识后,他们才有可能使用非结构化数据来激发新的假设。
- 错误3:以为相关性代表了因果性
在我们看来,限制企业从大数据中获得价值的第三个挑战,也是最重要原因,是难以在大量重复交叉的数据海洋中建立因果关系。非常大的数据集通常包含一些非常相似或几乎相同的观察结果,这可能导致虚假的相关性,从而误导管理人员决策。《经济学人》最近指出,“在一个大数据世界中,相关性几乎是自己显现出来的”,《MIT斯隆管理评论》的博客文章强调,尽管许多公司都能获得大量数据,但这些数据并不是“客观”的,因为他们很难从中提取出“真实”可行的洞察。同样,用于分析大数据的经典机器学习算法,识别出的相关性不一定能给出有效的因果关系,因此也无法得到可行的管理洞察。换句话说,使大数据有价值的技能,是能够从单纯的观察式相关性,转变成,正确识别那些具有因果关系的相关性,这就可以为战略举措打好基础。要做到这点,往往需要用超越大数据的眼光来看问题。
关于大数据,一个众所周知的例子就是 Google Trends,它使用的是 Google 整合的搜索查询记录的数据。然而,这也是一个典型的案例,仅仅看相关性,会限制数据可用性。最初,研究人员认为这些数据可用于预测流感的传播。然而,后来研究人员发现,由于数据是滞后的,所以使用搜索引擎数据也只比以前简单的模型表现稍微好了一点点。
举个更具体的例子,假设一家鞋类零售商,他向那些曾经访问过官网的的消费者发布广告。原始数据分析可能表明,看到这些广告的客户会更有可能购买鞋子。然而以前访问过该网站的消费者,即使在查看广告之前,也已经对这个零售商表现出了兴趣,因此当然会比一般消费者更有可能购买。
那么,广告是否有效?难说。从这里的大数据,我们看不到任何关于营销传播效率的因果推论。为了了解这样的广告是否有效,零售商需要进行一个随机测试或实验,让一部分随机消费者看不到广告。通过比较看到广告的消费者和未看到广告的消费者的购买概率,零售商就可以确定是否让消费者看到广告会使他们更有可能购买。这种情况下,价值不是主要通过获取数据产生的,而是通过设计、实施和解释有意义的实验产生的。
是实验,而不是大型观察数据集,帮助企业了解一个关系是简单的相关性,还是反应了潜在因果的可靠预测因素。虽然,就算分析一千亿字节客户行为观察数据,对管理者来说可能也很难提高盈利能力,但将看到营销活动的客户行为与没有看到营销活动的客户行为进行比较——实验的结果——可以帮助营销人员确定,这个活动是否成功。
执行田野实验、得出正确的结论,并采取适当行动并不总是很容易。但成功的公司,已经有了设计、实施、评估,并根据有意义的实地实验结果制定决策的能力。正是这种“测试和学习”的环境、根据洞察力采取行动、以及理解结果是否被简单概括化的能力,使得大数据具有价值。
例如,Google 报告称,他们通常随机抽样可用数据的 0.1% 进行分析。事实上,最近的一篇文章表明,大数据的大小可能是有破坏性的,因为“数据越大,你就越容易获得任何假设的支持证明”。换句话说,因为大数据通常提供重叠的洞察, 从整个数据集的 1/1000 中和从全部完整的数据中,你可以获得类似的洞察。
- 错误4:低估所需的劳动技能
实验不是公司可从大数据中获得有价值见解的唯一方法。另一个公司可用来处理大数据的技能,就是开发建立更好的算法。这种算法的一个例子就是推荐系统。推荐系统依赖于对相关数据进行学习的算法,向客户推荐最相关的产品。然而,它并非基于数据的大小,而是识别最能预测客户喜好的关键信息。实际上,通常,决定结果质量的,不是数据的大小,而是机器学习的算法。虽然预测能力可能随着可用数据的大小而增加,但在许多情况下,随着数据集大小的增加,数据规模对预测效果提高的影响就慢慢变小。不过,建立更好的算法,就需要更好的数据科学家。因此,那些以为光靠大量数据就可以得到洞察力,而不雇用员工去跟踪因果关系的公司,最终一定会大失所望。
大数据本身其实价值不大。只有当结合了管理、工程和分析技能去确定实验或算法,并将其应用于数据,才能让数据对企业产生价值。关于这一点,当你比较数据的价格和数据处理技能的价格时,你就懂了。相比起获取处理数据的人才所花的成本,数据就要便宜许多,就这表明,处理技能比数据本身对企业来说更有价值。
数据 | 智能 | 商业