爬取链家二手房武汉地区的成交数据,共23292条记录,利用Excel、MySQL、Power BI等工具对影响武汉二手房交易价格的因素进行了分析
分析思路
分析目的
- 武汉哪个区的二手房交易最多?
- 哪种户型的房子最受欢迎?
- 武汉各个区二手房交易的平均价格
- 影响二手房交易价格的因素
- 售价最高和最低的二手房分别是哪套?
数据集概述
1.数据采集
数据来源:武汉链家二手房
采集工具:后羿采集器
2. 数据描述
链家二手房武汉地区的成交数据,共23292条记录,15个字段,分别为:小区名称、户型、建筑面积、朝向、装修情况、成交时间、楼层、有无电梯、建成时间、建筑类型、售价、成交周期、经纪人名字、所在区域、其他信息。
数据清洗及处理
1. 删除重复值
为了保证每条记录的唯一性,避免重复出现的记录影响分析结果,需要检验数据是否有重复行并将重复行删除。通过Excel的删除重复项功能可以快速定位重复数据。
2. 字段处理
由于网页房屋信息中是将多个描述内容作为一条信息,在爬取数据的过程中不可避免的会出现一个字段包含了多条信息的现象,比如在house Information和position Information字段中就包含了诸多信息内容。
为了分析方便,还是需要将其拆分为多个字段并重新命名。利用Excel的分列功能,通过设置分隔符号可以达到拆分行的效果。要注意默认分列后新产生的列会覆盖选定列右侧的列,所以要提前预留空白列位置,防止其他数据被覆盖。
拆分position information列时出现了一个问题,有的房屋信息上并没有写建成年份,在分列的过程中,建筑类型信息被错分到建成年份信息中了,而原本应该是建筑类型的位置成了空值。
可以利用IF函数来处理这个问题
可以看到新生成列中为完整的建筑类型数据,将它保存为文本格式,删除原来不完整的建筑类型列。再用查找替换功能,将建成年份列中混杂的建筑类型数据删除,就能得到完好拆分成多列的数据了。
替换后的数据如下所示:
为了后续数据分析方便,建筑面积、成交时间、售价、成交周期等信息,只保留数值。
处理完成后的数据如下图:(截取部分)
处理后的字段名称和含义如下:
3. 缺失值处理
数据的缺失值可能会对后续数据分析过程产生不良影响。引起缺失值的可能原因有很多种,如数据本来就没有填写、爬虫过程中没有全部抓取、数据不存在等。
处理缺失值的常见方法有:
(1) 直接删除对应记录。通过减少数据来换取完整的信息,通常用于样本数据量大且缺失值不多的情况,若样本量本身不大且缺失数据比例较大时,可能导致分析结果偏离实际。
(2) 手动填补缺失值。如果缺失值是因为录入数据时遗漏的,可以补全。
(3) 用平均值或模型预测值填补缺失值。
Excel可以通过选取列,在右下方查看计数来判断有无数据缺失。
本次数据缺失值较少,主要存在于elevator、build_up_year、agent_name、metro这几个字段中,其中metro字段的缺失值较多,这是因为网站交易数据中,将“近地铁”作为房屋的一个标签,如果在地铁沿线则有这个标签,否则就没有,所以存在很多没有该项标签的记录,这里可以直接将它们视为“附近无地铁”来处理,便于后面进行分析。
对户型数据建立数据透视表
可以看到有一类名为“车位室厅”的记录,通过查找定位到对应记录发现都是车位的成交记录,由于此次分析的主要目的是对武汉二手房的交易数据进行分析,车位的交易信息在这次分析中是干扰项,故选择直接删除车位对应的数据。删去车位数据之后再对户型数据建立数据透视表,如上图所示。虽然还有一些如6室0厅、9室0厅等看起来很奇葩的户型,但通过网站查询发现,几乎都是别墅或年数较长的自建房,这里就不删除这些记录了。
数据分析
1. 武汉哪个区的二手房交易最多?
SELECT area, COUNT(*) AS count_houseFROM data.houseGROUP BY areaORDER BY count_house DESC;
可以看到东湖高新区、汉阳、洪山、江岸、武昌、江汉、东西湖的二手房交易数量都比较大,其中,交易数量最大的是东湖高新区,而江夏、黄陂、屯口开发区、蔡甸、青山、新洲、硚口的二手房交易数量明显少得多。
结合武汉的行政区划图可以看出,越在武汉中心区的地方,二手房交易越多,而远离中心区的地方二手房交易则少得多。这也符合人们买房的心理,不管是二手房还是新房,买房还是要尽量靠近城市中心区,方便工作生活。
2. 哪种户型的房子最受欢迎?
之前通过数据透视表发现,户型的种类简直五花八门,有一些明显不常见的个别户型数据。为了使数据分析有意义,设置了记录数大于等于5的筛选条件。
SELECT house_type, COUNT(*) AS count_house_typeFROM data.houseGROUP BY house_typeHAVING count_house_type>=5ORDER BY count_house_type DESC;
3. 各个区二手房单位面积平均价格
(1) 武汉市二手房交易单位面积均价的整体情况
SELECT AVG(price/building_area) AS avg_priceFROM data.house;
武汉二手房成交平均价格约为1.9万元/平方米。
(2) 各个区二手房交易单位面积均价
SELECT area,AVG(price/building_area) AS avg_priceFROM data.houseGROUP BY areaORDER BY avg_price DESC;
可以看到,房价最贵的是武昌区,最便宜的是新洲,价格差异还是很大的,基本上越靠近武汉市中心,越繁华的地方,房价越贵。
SELECT house_type,AVG(price/building_area) AS avg_priceFROM data.houseGROUP BY house_typeHAVING COUNT(*)>=100ORDER BY avg_price DESC;
计算不同户型对应的二手房单位面积均价,由于交易数量少的户型价格参考意义不大,且一般人买房不会考虑特别的户型,所以这里将成交数量小于100的户型过滤掉了。
结果如上图,单位面积均价最高的户型是五室两厅,均价约为2.1万元/平方米。最低的是一室零厅,均价约为1.8万元/平方米。
(2) 建成时间与价格
SELECT build_up_year,AVG(price/building_area) AS avg_priceFROM data.houseGROUP BY build_up_yearHAVING COUNT(*)>=100ORDER BY avg_price DESC;
总体上以2010-2018年建成的房子单位面积均价较高,2000-2010年建成的房子单位面积均价稍低,而2010年前建成的房子在二手房交易市场并不是很受欢迎,成交数量不大。
(3) 装修程度与价格
SELECT decoration,AVG(price/building_area) AS avg_priceFROM data.houseGROUP BY decoration
ORDER BY avg_price DESC;
(4) 交通便利程度与价格
SELECT metro,AVG(price/building_area) AS avg_priceFROM data.houseGROUP BY metroORDER BY avg_price DESC;
从是否靠近地铁来看,近地铁的报房子价格要稍高一些,但价格差距并没有很大。当然,公共交通不只有地铁一种,这里的数据也仅仅是链家上的,结果不一定准确。
5. 售价最高和最低的二手房分别是哪套?
SELECT *FROM data.houseWHERE price=(SELECT MAX(price)FROM data.house);
售价最高的房子是洪山区纯水岸东湖天樾二期的一套别墅
SELECT *FROM data.houseWHERE price=(SELECT MIN(price)FROM data.house);
售价最低的两套房子分别位于江岸区安居苑B区、东湖高新区卧龙剑桥春天,看起来可能是地下室或铺面。
结论
1.武汉东湖高新区、汉阳、洪山、江岸、武昌、江汉、东西湖、的二手房交易数量都比较大,其中东湖高新区的二手房交易最多
2.最受欢迎的户型是三室两厅,其次是两室两厅
3.武汉二手房成交平均价格约为2.5万元/平方米,房价最贵的是武昌区,最便宜的是新洲
4.单位面积均价最高的户型是五室两厅
2010-2018年建成的房子单位面积均价较高
装修程度按单位面积均价排序为:精装>毛坯>简装
5. 售价最高的房子是洪山区纯水岸东湖天樾二期的一套别墅,成交价3800万,售价最低的两套房子分别位于江岸区安居苑B区、东湖高新区卧龙剑桥春天,成交价5万