[ 导读 ] 数据科学的应用范围不断扩大,为各个行业创造了巨大的价值。
股融易注:企业能否对来源多样、海量杂乱的数据进行有效分析和利用,推动产品创新,成为衡量企业竞争力的新标尺。
近年来,互联网产品月活跃用户人数破亿已经不再是什么大新闻,而且用户破亿所花的时间也越来越短。2013年iTunes花了100个月,而游戏《Pokemon Go》只用了短短几天。用户交互数据的激增,让很多人看到了通过挖掘数据可以获得行业洞见,从而构建伟大产品的可能。在这个过程中,数据科学家将发挥更大的作用,数据科学家们正在影响企业的关键产品策略,并通过改进算法来优化决策方式。
这是《手把手教你建立数据型公司系列》的第二篇。在上一篇文章中,我们讨论了建立数据型公司必须关注数据的影响力和建设企业的数据型文化。在今天的文章中,我们将重点介绍为何数据科学如此重要、数据科学家的职责,以及数据科学的发展前景。本文研究成果来自红杉美国数据科学团队。
数据科学到底是什么?数据科学是一门求真的学科,它利用数据提取知识,获得行业洞见。数据科学的应用范围不断扩大,为各个行业创造了巨大的价值。但和其他尚在发展的领域一样,数据科学仍处在起步阶段。最重要的是为这一学科留下发展的空间,而不是纠结于它的分类——是数据驱动型(Data-driven),还是数据知情型(Data-imformed)。
今天,由于互联互通程度的加深、云储存和计算成本的下降,创建一个科技公司的难度也随之降低。因此,产品月活跃用户人数破亿所需的时间也大大缩短。2013年,iTunes的月活跃用户人数破亿花了100个月,而游戏《Pokemon Go》只用了短短几天。下图中包含了一些典型的案例,其中手机是月活跃用户人数最早破亿的产品。
互联网产品数量的增多和人们在线时间的延长,使得用户交互数据激增。通过挖掘这类数据发现行业洞见,从而构建伟大产品,激发了人们极大的兴趣。企业能否对来源多样、海量杂乱的数据进行有效分析和利用,推动产品创新,成为衡量企业竞争力的新标尺。
对于数据型公司的产品团队来说,数据分析的关键作用集中在以下四点:
▨ 评估健康程度
对企业产品或企业本身进行健康分析和评估,是数据分析的重要作用之一。确立了产品成功的标准后,接下来就是对相应标准进行监督,确保方向正确和目标达成。
▨ 打造正确的产品和功能
数据分析的另一个重要作用就是确保打造出正确的产品和功能。通常,数据科学家会帮忙设计实验,提出假设,借助数据信息,指导产品团队不断优化产品。
▨ 预测结果,为产品系统赋能
数据科学家可以借助人工智能或机器学习来构建产品原型/模型,为产品系统赋能,比如,通过对某一机器学习模型进行训练,来预测前景和趋势。
▨ 为产品制定流程和策略
对用户轨迹和某些现象的深入分析,能够带来关键的行业洞见,帮助公司制定产品流程和策略,这也是世界级产品分析团队最重要的作用。
数据科学家本身涵盖了多个角色,在不同的公司、行业,具体的角色也天差地别,但一般可以分为以下两类:
▨ 产品分析师
产品分析师的职责是交付数据知情型内容,用于产品或策略的改进。
▨ 算法开发员
算法开发员的职责是将数据驱动型功能融入到产品中,例如,优化推荐内容或搜索结果。
产品分析师侧重于制定目标,提供产品流程和策略。他们的主要工作通常是给产品团队提供一份文件,其中有可量化的问题、已识别的机会,以及基于数据的建议和解决方案。
算法开发员的主要工作是利用数据来优化产品性能。他们为工程团队提供原型代码和资源文件,并与工程团队进行紧密合作,将这些方案应用到生产中。
这两种数据科学家的能力相似,都要能够进行分析预测和数据量化。但算法开发员需要拥有更多复杂的技术知识(如机器学习、人工智能),而产品分析师则需要有更多解决问题的能力,包括能与相关管理者有效沟通。
一般来说,产品分析师属于数据知情型,而算法开发员属于数据驱动型。
并不是所有企业都需要算法开发员,但所有企业(尤其是那些用户基础雄厚的企业)都需要产品分析师,因为他们可以解决产品的问题,提高产品竞争力,帮助企业更好地应对战略上的挑战。
试想这样一个世界,机器知道你喜欢的事物,了解你的选择偏好,不用具体询问就知道该为你购买哪些东西,可以帮助你做很多决定,包括帮助你规划人生。
这样的世界在短期内可能还无法实现,它存在于人工智能成为我们的“生活大管家”的未来,那时可能大部分事务由AI负责。为了朝着这一梦想迈进,我们需要在数据驱动上更进一步。
在一个机器拥有完备信息的世界中,AI清楚地知道你行为背后的原因,以及各种原因之间的相互作用机制,这需要数据驱动与数据知情的结合。
在纯粹使用数据驱动方式决策时,数据是唯一的重要因素。而使用数据知情方式决策时,数据是一个重要因素,但不是唯一的。
当未来越来越多的流程实现自动化,相比于数据知情,世界将更偏向于数据驱动。然而,在近几十年,数据知情还将持续占据十分重要的地位,而数据驱动的发展进步则要靠数据知情型人才来推动。
下列例子最能说明数据知情和数据驱动在决策方式上的区别。
▨ 设定目标
目标的确定和追踪将日益向数据驱动的方向靠拢。例如,Facebook对活跃用户的追踪可能是一个全自动化的过程,是纯粹的数据驱动。但在制定恰当的季度和年度活跃用户数量目标和收益目标时,可能就不再是全自动化了,其中掺杂了数据知情型的方法。
▨ 确立流程和战略
流程和战略的制定是难以量化的,因此需要采用数据知情的方法。一个好的流程路线图会考虑到相关目标、这些目标的驱动因素、产品团队手中的杠杆,以及可行的行动方案。
▨ 结果预测
结果预测主要为数据驱动型。例如,要确定是否要推送某个内容,需要考虑用户点击或阅读该内容的概率等多种因素。在进行结果预测时,企业通常会进行模型开发,并不断对模型进行迭代。
▨ 为产品系统赋能
对于PayPal这类公司来说,对每笔交易都进行诈骗活动的人工审核,成本高昂。因此,它们多依靠机器学习来增强产品系统的能力,实现审核的自动化和概率评估的自动化。然而,对于那些概率评估置信水平较低的领域,决策方式就可能更偏向数据知情型。