airbnb数据分析报告
数据集来源:https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings/data
一、airbnb背景与分析
1.1 airbnb背景介绍
Airbnb(AirBed and Breakfast),爱彼迎,是一家联系旅游人士和家有空房出租房主的服务性网站,它可以为用户提供多样的住宿信息.Airbnb成立于2008年8月,总部在美国加州旧金山市,airbnb是一个旅行房屋租赁社区,用户可以通过网络或手机应用程序发布、搜索度假房屋租赁信息并完成在线预定程序。
1.2 提出分析问题
听起来爱彼迎是对酒店业务的颠覆,能将空闲的资源利用起来,但是人们对于这种资源利用是否赞同并愿意参与,在这个人与人之间逐渐缺乏信任的时代,如何让两个陌生人完成配对或者让两个群体建立信任关系,是推进爱彼迎产品的关键,对应到用户周期模型AARRR就是第一个A(用户获取Acquisition),提高新用户获取的数量和质量是不断监测并优化的工作,哪些渠道获取用户的效果更好,企业就要及时调整和增加此渠道的投入,对于较差的渠道方案,就要查找原因并改正解决。
另外转化漏斗分析也是数据分析环节的重要指标,可以从宏观角度了解整个产品业务转换情况,企业针对流失率较高的漏斗环节进行改进,可以有效促进业务发展。
通过分析的目的,提出以下三个问题:
1.airbnb的目标用户群体具有什么样的特征?
2.air当前的推广渠道有哪些是优质的,有哪些是做的不够好的且需要改进的?
3.当前转化率和流失率中哪里哪一个环节存在问题,或者有较大的改进空间?
二、分析维度
2.1 根据问题设立分析思维和分析指标
数据分析指标: 用户画像分析、推广渠道分析、转化漏斗分析
1、用户画像分析
什么是用户画像?简单地说就是了解用户,比如三大电商品牌:淘宝、京东、拼多多他们最主要的用户群体是不一样的,他们的年龄、性别、城市、收入、购物类型等等都是不一样的,那么怎么针对这些不同用户去营销产品生产产品?一句经典的话说:你要生产能卖得出去的产品,而不是卖能生产的产品,只有了解了用户需求,才能有的放矢。
在真正的工作中, 用户画像分析是一个重要的数据分析手段去帮助产品功能迭代, 帮助产品运营做用户增长。总的来说, 用户画像分析就是基于大量的数据, 建立用户的属性标签体系, 同时利用这种属性标签体系去描述用户。
a、用户性别的分布特征;
b、用户年龄的分布特征;
c、用户地区的分布分布;
d、中国地区去国外预定的地区占比;
2、推广渠道分析
不同的推广渠道会产生不同的效果,好的推广渠道当然是有利于用户增长和业务增长的。
渠道分析主要包括:每月新增用户、每月不同用户端的注册量以及注册方式、不同推广渠道的注册量、不同营销内容的注册量、不同推广渠道的转化率、不同营销内容的转化率
3、转化漏斗分析
漏斗分析是一套流程式数据分析,它能够反映用户行为状态以及从起点到终点各阶段用户转化率的重要分析模型。漏斗分析已经广泛应用于网站用户行为分析和APP用户行为分析的流量监控、产品目标转化等日常数据运营和数据分析的工作中。
漏斗分析最常用的是转化率和流失率两个互补型指标。
转化漏斗分析包括:注册用户占比、活跃用户(非僵尸用户)占比、下单用户占比、实际支付用户占比、复购用户占比
三、数据清洗
3.1 数据表的结构
本文主要利用的是train_users_2.csv和sessions.csv两个表,首先看看这两个表的结构:
train_users_2.csv
id:用户id
date_account_created:帐户创建日期
timestamp_first_active:timestamp of the first activity, note that it can be earlier than date_account_created or date_first_booking because a user can search before signing up 第一次活动的时间戳,它可能比创建账户时间更早,因为第一次一个用户在注册之前会搜索
date_first_booking:首次预订的日期
gender:性别
age:年龄
signup_method:注册方式
signup_flow:the page a user came to signup up from 用户注册的页面
language:语言偏好
affiliate_channel:what kind of paid marketing 营销方式
affiliate_provider:where the marketing is e.g. google, craigslist, other 营销来源,例如 google,craigslist,其他
first_affiliate_tracked:whats the first marketing the user interacted with before the signing up 在注册之前,用户与之交互的第一个营销广告是什么
signup_app:注册来源
first_device_type:注册时设备的类型
first_browser:注册时使用的浏览器名称
country_destination: this is the target variable you are to predict 目的地国家(需要预测的!)
sessions.csv
user_id:与users表中的“id”列连接
action:操作名称
action_type:操作事件的类型
action_detail:操作事件的描述
device_type:此次会话所使用的设备
secs_elapsed: 猜测是会话持续时间
还有另外几张表:
countries.csv – summary statistics of destination countries in this dataset and their locations目标城市和他们的地点
age_gender_bkts.csv – summary statistics of users’ age group, gender, country of destination 用户的年龄组、性别、城市和目的地
sample_submission.csv – correct format for submitting your predictions 提交预测的格式。
3.2 数据预处理
1. 重复值处理
对于train_users_2表,其主键应该是用户id,需要确保其没有重复值,通过查询,确实没有重复值。
select id,count(id) as count_id
from train_users_2
group by id
having count_id>=2;
对于用户会话sessions表,用户id可以有重复值,故不作处理。
2. 缺失值处理
对于train_users_2表,分别对每一列来查看是否存在缺失值以及缺失值的数量
#首先是整个表的行数
select count(*) from train_users_2;
# 213451
#查看第一次预定的时间存在缺失
select count(*) from train_users_2
where date_first_booking is null;
# 124543
除此之外,年龄存在87990项缺失、first_affiliate_tracked第一次接触的时间存在6065项缺失,其他的属性均没有缺失。
对于sessions表:
一共有200851行数据,
79626项action为空值,1126204项action_type为空值,device_type没有缺失值 136031项secs_elapsed为空值。相对于这么大的数据集来说,为空值的只是很小的一部分,大概是没有检测到这些操作。
缺失值原因推测: 在用户表中,第一次预定时间存在大量缺失,推测可能是很多用户在需要查看资源时注册了个人信息,但最终没有选择airbnb。年龄的缺失或许是用户未填写,第一次接触时间存在缺失应该是网站平台没有检测到。
缺失值处理: 缺失值不能随意填补,只能用where筛选排除。
3.异常值检测与处理
对于train_users_2表,通过查看每一列的最大值、最小值等方法来确定异常值,并猜测异常值出现的原因。
性别:除了male和female,还存在other
select gender from train_users_2
group by gender;
年龄:存在大量100岁以上包括2014这样的数值,最大值是2014,最小值是1,猜测有些人是出于隐私的考虑随便填写的,在统计数据时应该排除这些异常年龄值。
select age
from train_users_2
group by age
order by age desc;
数据中存在创建账户的时间晚于第一次预定的时间,但是从筛选的结果中可以看出第一次活跃时间date(timestamp_first_active)是早于第一次预定的时间,这个要怎么解释呢?
select * from train_users_2
where date_account_created > date_first_booking;
#第一次活跃的时间早于预定时间和创建账户时间
select *
from train_users_2
where date(timestamp_first_active) > date_account_created or date(timestamp_first_active)>date_first_booking;
其他属性的异常值都不明显,有些填写的是other。
对于sessions表,action有10 11 12这样的数据操作,不知道是干嘛的。
对于数据的探测分析到此为止,后面将根据需要进行具体数值统计的分析。
四、用户画像分析
1、性别分析
select gender,count(gender)
from train_users_2
group by gender;
从图上可以看出,平台上的男女比例相差不大,女性用户稍稍高于男性。
2.年龄分布
select age ,count(age) from train_users_2
where age >=15 and age <=120
group by age
order by age;
统计时主要筛选出的是15-120岁的用户,从图上可以看出,用户最多的是31-40区间的,其次是21-30岁的用户,这两部分均占据了三分之一以上,这与实际是相符的,21-40这部分用户相对15-20的人群来说有更好的经济基础和时间来旅游,而相对老年人来说更能接受新型的居住方式。至于91-120区间也占比1.41%这是存在很多脏数据的,故不做分析。
3.用户地区分布
用户的地区特点是依靠使用语言来分析的。
select language, count(language)
from train_users_2
group by language
order by count(language);
从统计结果上看绝大部分用户使用的是英语,所以绝大部分用户是欧美的西方国家。
4.用户旅游目的地分布
下面统计不同用户旅游的目的地:
select country_destination,count(country_destination)
from train_users_2
group by country_destination
order by count(country_destination) desc;
目的地最多的是NDF,但是我不知道这个NDF是哪个国家啊(令人头秃!),其次是美国,大概也有很多美国本土旅游的。
用户画像总结: 以上便是对airbnb用户的分析,从统计结果上看,女性用户略多于男性,年龄以中青年为主,用户分布更多的地区是欧美,旅游目的地较多的是NDF和美国。
五、流量渠道分析
5.1每月新增用户
select date_account_created,count(date_account_created)
from train_users_2
group by date_account_created
order by date_account_created;
从图还是那个可以看出,账户创建数在2010年5月-2012年7月是相对平稳的增长,在2012年11月之后增长相对较快,这种较快的增长除了受季节的影响,也可以说明某种推广渠道是有效的。在每年的7月或者9月之后用户增长数会下降,推测是受天气的影响。
5.2 每月新增用户活跃数
select date(timestamp_first_active),count(date(timestamp_first_active))
from train_users_2
group by date(timestamp_first_active)
order by date(timestamp_first_active);
用户第一次活跃时间的增长趋势图和每月新增用户创建的趋势图是保持一致的。
5.3 每月新增注册用户所采用的注册方式
select date_account_created, signup_method,count(signup_method)
from train_users_2
group by date_account_created,signup_method
order by date_account_created;
basic方式一直占主导地位,后期随着互联网的发展,facebook和google的账户注册方式逐渐增多。
5.4 用户注册使用设备
网页一直是主要注册来源。
5.5 第一次使用的设备
在2013年以及以前,第一次使用设备为windows desktop和mac是较多的,而到了2014年iPhone的使用是在逐渐增多的,整体上来说桌面的使用是一直占比较大,这说明很多用户都是在电脑上浏览到相关页面。
5.6不同推广渠道的注册量
select affiliate_channel,affiliate_provider,count(id)
from train_users_2
group by affiliate_channel,affiliate_provider
order by count(affiliate_channel) desc;
先按照营销渠道进行了分类和排序,每一类中又包含了不同的提供途径如不同的浏览器。其中占比最多的是direct,难道是没有看到广告自行选择的吗?不太明白呢
5.7 用户在注册前第一次交互的营销内容
select first_affiliate_tracked,count(id)
from train_users_2
group by first_affiliate_tracked
order by count(id);
占比最多的确是没有追踪到的,这显示出产品的追踪异常。
5.8 不同营销内容的转化率
select first_affiliate_tracked,count(date_first_booking)/count(id) as cha_ratio
from train_users_2
group by first_affiliate_tracked
order by cha_ratio desc;
这个展示的是用户在第一次通过不同渠道接触到airbnb的营销内容之后,预定了airbnb的比例,转化率最高的是marketing,其次是没有检测到的untracked。整体上来说转化率都正常,转化率最低的是local ops。
可以根据转化率调整不同营销方式的投入。
流量渠道总结: 1、每年的用户新增呈现季节性,在11月-2月会出现较大的增长
2、在2012年11月之后增长相对较快,在不同的注册方式等统计中可以发现,有很多是通过basic注册的,注册的app大多是web,第一次使用的设备也多是desktop,这说明可以加大电脑网页这些方面的推广投入。
3、推广渠道的注册量上,有极大部分是通过direct直接注册的,其次是通过sem-band的不同浏览器注册。注册量最低的是remarketing。
4、从营销内容上看,用户注册前第一次交互的营销内容以及有较好的转化率的营销内容没有追踪到,这反映了数据追踪的问题。marketing和linked的营销内容转化率表现较好,而local ops的转化率较低。
六、转化漏斗分析
根据用户周期模型,一个用户从新用户到注册到下单到再次下单,这个过程中用户是会不断流失的,那就需要找出用户流失的原因,用户在哪一个环节流失的最大。
sessions中的不同用户数量(总人数)135484。
1、活跃用户占比(从action的统计上看,很多用户的action次数为 0 1 2,最大的数量为2721,将action次数大于5的定义为活跃用户,活跃人数为122903),活跃用户占比 = 活跃用户总数/用户总人数 = 90.71%
2、注册用户占比
select count(*)
from (select distinct user_id
from sessions) as new_sessions
inner join train_users_2 as train on train.id = new_sessions.user_id;
注册用户数73815
注册用户占比 = 注册用户总人数/用户总数量 = 54.48%
3、下单用户占比
select count(*) from (
select user_id, count(*)
from sessions
where action_detail = 'reservations'
group by user_id) as t1;
有10367人在airbnb上完成下单,有人是多次下单。
下单用户占比 = 下单用户数量/用户总人数 = 7.65%
4、实际支付用户占比
select count(*) from (
select user_id, count(*)
from sessions
where action_detail = 'payment_instruments'
group by user_id) as t1;
有9019人完成实际支付
付款用户占比 = 实际支付用户总人数/用户总人数量 = 6.66%
5、复购用户占比
select count(*) from (
select user_id, count(*) as t
from sessions
where action_detail = 'payment_instruments'
group by user_id
having t>1) as t1;
复购用户人数:4154
复购用户占比 = 复购用户总人数/用户总人数 = 3.066%
根据以上的数据得到下图:
从图上可以看出,从注册用户到下单用户数量出现了骤减,是用户流失率最高的环节,其他部分均表现正常可接受。
七、业务和产品的建议
1、用户画像
建议以20-40的中青年为新用户发展对象
2、推广渠道
11月-2月是每年旅游的旺季,可以考虑在前期加大营销力度
大多数获取到airbnb是通过网页,可加大网页上的广告投放与营销,另外对于追踪数据需要改进加强,这有利于进一步分析用户。
3、转化漏斗分析
注册用户到下单用户是用户流失率最高的环节,可根据注册用户情况精准推送优质房源,提高下单率。
还有很多需要进一步分析,没有业务经验没有构建分析思维,分析的很随便且口语化。