产品思维之:统计学思维

偶然在诚品书店翻到这本台版《统计学,最强的商业武器》,秉承着日本人写书精细实用的原则加上作者本身曾学习生物统计学,将复杂的统计学的历史及在商业上的应用写的相对浅显易懂,将我脑子里许多关于统计和数据分析的碎片知识给串联了起来,并且把很多只知道用法不知道原因的概念给找到的根源。

为什么要溯源

因为在今天来看,每个学科都无比庞杂且各学科之间相互引用,以至于入门时不知道从何下手。但每个学科刚兴起的时候一定是由某些相对单纯的原因促成,这时候作为一个新兴学科,还没有特别的复杂,会更容易理解。另外,最好再辅以该学科演化的简史,找到关键的变量,去针对性的研读,这样既能对学科的发展有个宏观的概念,又能集中精力找到最大变量去研究。所以回想起自己自学生以来,反而是年过三十才对数学感兴趣,也是因为看了更多相关的学科背景,激发了对数学的兴趣,一边学其历史一边学其思想,反而能坚持下来。

如果要理解《塞尔达·荒野之息》的设计原点,最好的也不是去直接看成品(右图),因为变量且交互也更复杂。最好是去玩制作组内部测试的2D版本(左图),因为基本上只有最简单但最重要的核心功能

对于统计学来说,下面这个例子是个很经典的案例,其引发了科学实验的方法、A/B 测试的思路、流行病学的起源:

1854年,伦敦爆发霍乱,10天内夺去了500多人的生命。根据当时流行的观点,霍乱是经空气传播的。但是约翰·斯诺(John Snow)医师并不相信这种说法,于是他做了以下看似单纯的事情:

  • 到死者家中拜访,口头询问并观察附近环境
  • 比较同类情况,感染和未感染霍乱者的差别
  • 做出假设后,进行大规模资料收集,进行验证差异点的可信度

结果从统计结果来看,影响最大的居然是当时给伦敦市供水的某一家自来水公司的住户更容易发病。而当时的伦敦并不是现在城市这种根据片区划分提供自来水的,所以即使是邻居也有可能用的是两家不同的自来水公司。

于是在还不知道霍乱传染原因的情况下,停止饮用其中患病率高的那家自来水厂,就有效的抑制了霍乱的传播。

这也便是流行病学的开端事件,也是统计学在医学中的最早应用之一,更是现代循证医学的思想的萌芽 —— 所谓的循证医学,便是以合理的方式去的统计数据,以及分析该数据之后得到的结果。

这本书的前两章就是着重于介绍统计学的历史及其现状,其中很多案例又和《女士品茶》《这才是心理学》相互呼应,有兴趣的可以三本书对照着看。

无意义的图表

作者西内启有一种银河护卫队里面「火箭」的吐槽感。但他的吐槽不无道理,其中最引发我的共鸣的便是关于无意义的图表。

例如上面这种用户对我们产品的感觉分析图表(喜欢还是不喜欢),这种图表看起来似乎蕴藏了巨大的信息量,但是最终我们所有人大概只能得到「哦」的感慨吧。

其实这在 WonderDesign 的 Persona 课题中,关于用户画像的定义误区中提到的错误如出一辙,因为这些图表呈现是一个客观事实的数据,即使我们知道了客观事实并不能做出任何有价值的行动,比如即使我们知道许多人非常不喜欢我们,我们又能做什么呢?他们在什么情况下回答这个问题的?他们的背景是什么?他们除了购买我们的产品还购买谁的产品?所以我们常说,用户永远不会直接告诉你真实答案 —— 尤其是在问卷里面。

西内启为此提供了三个问题作为商业分析前的准备工作:

  1. 哪个因素的变化能提高收益?
  2. 采取了引发这种变化的行动,可行么?
  3. 若是引发该变化的行动可行,成本会高于所增加的收益么?

其实核心思想便是丰田所谓的「五个为什么」,如果得出一个「哦」的结论的时候,多问问自己这些数据背后意味着什么,便能找到更进一步的答案。

毕竟,分析本身并无任何价值,其价值是从分析结果所采取的行动,到底可以带来多少价值而已。

搞错因果关系的分析

昨天正好看到百雀羚的分析广告爆棚,基本上用来吐槽的都是「惨败,180万头部自媒体投放,销售转化不足8000元」作为标题吸引眼球。但这样的分析真的有意义么?虽然作者看起来很用心的在扒百雀羚淘宝店的销量,并认真的计算单价和整体金额等客观数据。只是有个大前提我想我们都不清楚:百雀羚的母公司,投放的目的是什么?是为了直接转化么?

之前我在「产品沉思录」中推荐过一篇关于 Vivo 品牌广告投放思路,如果按照其中的算法来看,可能这次反而是一个成功的案例。

品牌怎么起来的?是全球性头部媒体全面占领。vivo内部的广告投放KPI不是最重要的参考标准,只有一个要求,占领全世界的头部媒体,包括不限于网络广告、机场高铁广告、电视广告、各种强势IP植入、全世界最火的明星的代言(除了韩国欧巴,他们还找了史蒂芬库里)。其实这原理很简单,花5个亿赞助一档节目,这档节目能在一季时间内影响到中国10亿人,那么一个人被轰炸的成本只有5毛钱(这叫传播成本,不是转化成本)。大多数情况下,影响10亿人花不了5个亿。

举个例子,就上海虹桥高铁站出站口的OV广告,放一年,大概能影响1.4亿人次(虹桥站2016年吞吐量),这广告就算一年1.4亿,一个人次的传播成本也才一块钱。

所以覆盖了将近3000万的曝光才180万,传播成本算是非常划算的。如果不知道这个案例的原因是什么,就算获取了再多数据,得到的结论也无法让人信服吧。

 其实这个世界上充斥着无没有考虑因果关系的统计分析,那么到底该分析什么样的数据呢?这本书给出的思路是:

  1. 确定商业上的明确目标 —— 已达成目标者(或理想用户)和未达成目标者的差异
  2. 这个指标与获利有任何直接相关么?

统计学的大杀器:随机对照实验

熟悉 A/B 测试的同学应该都知道至少要保证测试组与对照组在样本数量足够的情况下,每次只测试一个变量,其他的变量尽量保持一致。这个在今天看起来习以为常的问题,却在当时动摇了科学的哲学观和极大的拓展了科学能处理的目标对象范围。

这个实验的方法论,是费雪在1935年的《实验设计》中提出了一个看似很无聊的问题:完美的红茶是应该先倒茶,还是先倒奶。当时传统的观念是因为化学元素是一样的,所以混合出来的口感应该没有差别,但是当时现场有一位女士表示她能分别出这两种泡法的差异。但费雪就在思考,如何能通过测试检验这位女士的假设是否成立呢?费雪在书里详细记录了他的思考过程,「随机化」这个重要概念便是在此推导而出。

为什么说这个概念动摇了科学的哲学根基,是因为在此之前科学家都是在期刊发表结果,并没有附上精确的实验过程,并且人们都认为「实验」是如牛顿力学一样精确的,有明显因果关系的,对于这种有误差的科学思路,却是从未思考过。

Sir Ronald Aylmer Fisher

为什么说这种实验扩大了科学的处理目标对象范围呢?因为在此之前,人们做实验更多的是充满了明确因果关系,比如证明血液是由心脏供给的实验(William Harvey 1628),而面对复杂变量的实验,比如什么因素影响小麦生长这种问题都无法回答, 那么遑论复杂的人类社会呢?依靠随机化,我们便能将复杂的变量随机分配,只去比较最突出的其中一个(或者几个),便能在充满不确定性的世界中找到答案。

适合产品汪的统计学

在看这本书之前隐约觉得不同情况下的统计思路是不同的,比如调查目标用户满意度时,和发布成功率下跌的原因,运用的思路截然不同。这本书最后的章节给了一个比较好的解答,目前常见的统计学有以下六大领域,根据个人认知拓展了一些使用场景。不过整体来说,产品设计的过程中往往需要综合运用这些方法,知道这些分类之后更有利于我们有的放矢的去研究相关领域的知识。

社会调查法:

  • 目的:掌握实际情况
  • 方法:随机抽样,持续研究如何避免误差,并以最有效率的方式获得符合误差范围的推估值
  • 应用场景:如准备拓展新的城市,或者新的目标人群,或潜在客户的消费力等相对宏观的问题

流行病学及生物统计学:

  • 目的:合理判断
  • 方法:随机对照或回归分析,只要能作出判断便可,比如得出吸烟影响健康即可,但每个人具体的影响是什么不必深究。
  • 应用场景:功能使用率的变化,某些因素是正面还是负面的影响等

心理统计学:

  • 目的:测量抽象概念
  • 方法:将模糊的概念抽象为相关且可测量的因素,如「智利」无法直接测量,需要拆分为反应速度,语言能力,计算能力和记忆力。
  • 应用场景:招聘一个「好」人,用户忠诚度,用户满意度等

数据挖掘(BI):

  • 目的:机械式分类,找到相关性
  • 方法:聚类分析
  • 应用场景:电商中的相关推荐,预测用户某些可能行为

文字勘探:

  • 目的:处理自然语言
  • 方法:形态分析
  • 应用场景:用户评价中的关键因素,机器翻译,微信机器人
Mail Weekly

Vol.20200411:Connect the dots

2020-4-11 13:59:00

Mail Weekly

Vol.20200816:把自己作为方法

2020-8-16 18:25:30

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
有新私信 私信列表
有新消息 消息中心
搜索