一、数据分析四个阶段:
- 数据发生了什么?
- 为什么发生?
- 什么将会发生?
- 怎么样达到最好的商业决策?
二、不同阶段产品数据的定位
产品生命周期有以下四种:
一、初创期:初创、Mvp验证
二、成长期:跑马圈地、大幅扩张
三、成熟期:高度竞争、扩大收入
四、衰退期:衰退
一、初创期
1、验证产品的核心价值
2、关键数据:目标用户画像、留存率
- 用户画像:设备、用户属性、广告兴趣、商业兴趣
- 留存率:次日、7日、双周、30日等。设计类、内容类一般选择7日留存;工具类产品分析实际情况。依据产品特征来选择,若产品本身满足的是小众低频需求,留存率宜选择双周甚至是30日。
二、快速成长期
1、用户生命周期管理;
2、用户自增长(病毒性);
3、留存率;
4、用户质量/用户渠道;
- AARRR模型
- 病毒传播分类:原生病毒性、口碑病毒性、人工病毒性
三、成熟期(获取营收,流失用户唤醒,延长用户生命周期)
1、转化率
2、购物车
3、订阅量
4、用户终生价值
5、ARPU、ROI
6、每日净变化(Net Change)=新增用户+回流用户-流失用户
四、衰退期
1、延长衰退时间(规模化、生态化)
2、开发新产品,把用户导入新产品
三、EOI框架
- Empower: 助力 核心任务
- Optimize:优化 战略性任务
- Innovate:创新 风险任务
四、数据分析8种方法
1、数字和趋势:看数据及当下的趋势
2、维度分解:按不同维度拆分对比数据
3、用户分群:根据不同条件(地区、年龄)给用户分群,关注某一类人数据;
4、转化漏斗:从开始到结尾,整体的转化效率是多少?每一步的转化率是多少?哪一步流失最多,原因在什么地方?流失的用户符合哪些特征?
5、行为轨迹:跟踪用户的操作行为发现问题
6、留存分析:
7、ABtest:
8、数据建模:
五、数据分析工具包
领域 | 工具 |
---|---|
数据采集 | Python、Java、Google Analytics、GrowingIO |
数据清理 | Hadoop、Hive、SQL、Excel |
数据可视化 | Tableau、Echat、Excel、PPT |
统计分析 | R、Python、SAS、SPSS、Matlab、Excel |
网站流量分析 | Google Analytics、百度统计 |
用户行为分析 | GrowingIO、Mixpanel、Kissmetrics |
六、数据可视化
1、常见的数据图表:
- 趋势:折线图(DAU)
- 复合趋势:条形图
- 份额:饼图
- 多维比较:雷达图
2、技巧和注意事项
- 内容大于形式
- 颜色不宜太花
七、撰写数据分析报告
1、从数据中发现了××问题;
2、问题的根本原因是哪几点?
3、改进措施有哪些?上线后预期目标?
八、数据清洗
数据清洗(Data cleaning):对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误并提供数据一致性。
抓取的原始数据大概率是“脏数据”,需要清洗后才能使用。
1、理解数据集:
- 数据集有多少数据?
- 包含了什么字段?字段格式是什么?
- 字段分别代表什么意义?
- 字段之间的关系是什么?可以用做什么分析?或者说能否满足了对分析的要求?
- 与没有缺失值?若有,缺失值多不多?
- 现有数据里面有没有脏数据?
- 尤其需要注意人工输入的数据,经常会出现名称写错,多输入空格等情况;
2、数据清洗的步骤:
- 调整数据类型:开始用str导入,后期若更换格式需要调整数据类型;
- 修改列名:若数据的名称不易于理解,需要修改列名;
- 选择部分子集:因为有部分列在数据分析中不需要用到;
- 可能存在逻辑问题需要筛选:比如Unit Price为负;
- 格式一致化:可能会存在有标点符合掺杂/大小写不一致/空格重复出现等问题;
- 消灭空值:有NaN值需要去掉;
3、消灭空值技巧:
1、用默认值填充
2、用相邻的值进行填充
3、以不同指标的计算结果填充缺失值