1. 概述
本文利用搜狗搜索日志的500w条数据,对搜索日志进行了一系列的分析。主要分为两个阶段,第一阶段是数据准备、数据预处理和数据加载阶段,第二阶段为分析阶段。
第一阶段首先下载数据,并在自己电脑上安装好实验所需的环境,然后通过数据扩展和数据过滤对原数据进行预处理,得到含有单独年、月、日、小时等字段且关键词和UID不为空的数据,最后将数据加载到HDFS上,并在Hive上创建数据库和数据表,将过滤后的数据灌入Hive中对应的表中,因而后续便可以通过在Hive中执行SQL语句对日志数据进行查询分析。
第二阶段为分析阶段,也分为两部分,一部分是单维度的数据描述性分析,另一部分时多维度的用户行为分析。在单维度的数据描述行分析中,分别针对总的条数、时间、关键词、UID、URL、RANK等单个的字段进行描述统计,例如对每个时间段的查询条数、关键词搜索排行榜、UID搜索排行榜、URL搜索排行榜等进行了查询统计,从而对数据有了一个大概的全局的把握;在多维度的用户行为分析中,以查询最多的用户、点击最多的网址、指定的关键词等为切入点进行深入的用户行为分析,例如在对查询最多的用户的用户行为分析中,通过其搜索的关键词及其频次,得到其目前的兴趣点等,通过其在每个时段的搜索次数,得到其大致的时间行为规律,这对于理解用户行为,描述用户画像,从而定向地针对性地进行广告推荐都是有一定的意义的。
2. 数据准备
2.1 实验环境
Cloudera QuickStart VM将包含所需的所有内容,例如CDH,Cloudera Manager,Cloudera Impala和Cloudera Search等,还包括教程,示例数据和入门脚本。Cloudera QuickStart虚拟机(单节点集群)可以轻松快速地进行CDH实验,以便进行测试,演示和自学,并包括Cloudera Manager以管理您的集群。
本文的使用的Cloudera QuickStart VM的版本是:
Cloudera-quickstart-vm-5.5.0-0-virtualbox
操作系统:Red Hat (64 bit)
内存大小:4096MB
处理器:2
所使用的virtualbox的版本是:VirtualBox-4.3.12-93733-Win
Cloudera QuickStart VM开启后的截图如下:
Hive查询操作页面截图如下:
2.2 数据描述
本文选取搜狗实验室提供的搜狗搜索日志数据,共计五百万条,每一行为一条记录,每条记录基本上含有ts、uid、rank、order、url等字段,字段的具体意义如表1所示。
表1 搜索日志中的内容
名称 |
内容 |
ts |
用户点击发生时的日期时间 |
uid |
由系统自动分配的用户识别号 |
rank |
该URL在返回结果中的排名 |
order |
用户点击的顺序号 |
url |
用户点击的URL |
其中,UID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户识别号。
3. 数据预处理
3.1 数据扩展
将原数据中包含时间的字段拆分并拼接,添加年、月、日、小时字段,以便后续在HDFS中进行分块存储。分割时间字段的shell脚本sogou-log-extend.sh的具体代码如下:
#!/bin/bash
infile=$1
outfile=$2
awk -F ‘ ‘ ‘{print $0″ “substr($1,0,4)” “substr($1,4,2)” “
substr($1,6,2)” “substr($1,8,2)}’ $infile > $outfile
在终端执行此shell脚本:
[cloudera@quickstart ~]$ bash /home/cloudera/sogou-log-extend.sh /home
/cloudera/500w/sogou.500w.utf8 /home/cloudera/500w/sogou.500w.utf8.ext
则sogou.500w.utf8.ext文件即为在原数据的基础上添加年、月、日、小时字段的文件。
3.2 数据过滤
完成数据扩展后,然后过滤UID和keyword字段为空的记录。数据过滤的shell脚本sogou-log-filter.sh的具体代码如下:
#!/bin/bash
infile=$1
outfile=$2
awk -F ” ” ‘{if($2 != “” && $3 != “” && $2 != ” ” && $3 != ” “) print $0}’ $infile > $outfile
在终端执行此shell脚本:
[cloudera@quickstart ~]$ bash /home/cloudera/sogou-log-filter.sh /home
/cloudera/500w/sogou.500w.utf8.ext /home/cloudera/500w/sogou.500w.utf8.
flt
则sogou.500w.utf8.flt即为过滤后的数据文件。
3.3 数据加载
将原数据文件sogou.500w.utf8和过滤后的数据文件sogou.500w.utf8.flt加载到HDFS上。在系统终端执行如下代码:
hadoop fs -mkdir -p /sogou/20111230
hadoop fs -put ./sogou.500w.utf8 /sogou/20111230
hadoop fs -mkdir -p /sogou_ext/20111230
hadoop fs -put ./sogou.500w.utf8.flt /sogou_ext/20111230
由此,已将数据加载到HDFS系统中,然后在Hive上创建日志数据的数据表。
首先在终端启动hive,在hive环境下创建数据库sogou:
hive> create database sogou;
hive> use sogou;
然后,创建扩展4个字段(year, month, day, hour)数据的外部表:
hive> CREATE EXTERNAL TABLE sogou.sogou_ext_20111230(
> ts STRING,
> uid STRING,
> keyword STRING,
> rank INT,
> order INT,
> url STRING,
> year INT,
> month INT,
> day INT,
> hour INT
> )
> COMMENT ‘This is the sogou search data of extend data’
> ROW FORMAT DELIMITED
> FIELDS TERMINATED BY ‘ ‘
> STORED AS TEXTFILE
> LOCATION ‘/sogou_ext/20111230’;
创建带分区的表:
hive> CREATE EXTERNAL TABLE sogou.sogou_partition(
> ts STRING,
> uid STRING,
> keyword STRING,
> rank INT,
> order INT,
> url STRING
> )
> COMMENT ‘This is the sogou search data by partition’
> partitioned by (
> year INT,
> month INT,
> day INT,
> hour INT
> )
> ROW FORMAT DELIMITED
> FIELDS TERMINATED BY ‘ ‘
> STORED AS TEXTFILE;
最后,把HDFS中的数据灌入到刚刚创建的表中:
hive> set hive.exec.dynamic.partition.mode=nonstrict;
hive> INSERT OVERWRITE TABLE sogou.sogou_partition PARTITION(year,month,
day,hour) select * from sogou.sogou_ext_20111230;
到现在为止,已把经过预处理的数据加载到hive中,后续便可以在hive中执行SQL语句进行查询分析。
4. 单维度数据描述性分析
4.1 条数统计
查看前10条数据:
hive> select * from sogou.sogou_ext_20111230 limit 10;
前10条数据的具体信息如下:
查询数据的总条数:
hive> select count(*) from sogou.sogou_ext_20111230;
查询非空查询条数:
hive> select count(*) from sogou.sogou_ext_20111230 where keyword is not null and keyword !=”;
查询无重复总条数(根据ts、uid、keyword、url)
hive> select count(*) from (select ts,uid,keyword,url,count(*) as cnt from sogou.sogou_ext_20111230 group by ts,uid,keyword,url) a where a.cnt==1;
查询UID唯一的条数:
hive> select count(distinct(uid)) from sogou.sogou_ext_20111230;
可知,(a) 本数据文件中共包含500万条数据;
(b) 非空查询条数为5000000条,即所有的数据的keyword都不为空;
(c) 以ts、uid、keyword、url字段作为判断记录是否重复的标准,得到的无重复总条数为4998321条;
(d) UID唯一的条数共有1352664条,即在此段时间内共有1352664个用户进行来搜狗搜索。
4.2 时间分析
查询每个时间段查询的条数:
hive> select year,month,day,hour,count(*) as cnt from
sogou.sogou_ext_20111230 group by year,month,day,hour order by
year,month,day,hour;
得到的结果如下:
time |
cnt |
time |
cnt |
2011123000 |
90752 |
2011123017 |
289648 |
2011123001 |
65702 |
2011123018 |
295207 |
2011123002 |
45880 |
2011123019 |
340115 |
2011123003 |
34242 |
2011123020 |
353099 |
2011123004 |
27922 |
2011123021 |
328949 |
2011123005 |
28213 |
2011123022 |
270842 |
2011123006 |
32988 |
2011123023 |
194554 |
2011123007 |
52832 |
2011123100 |
64 |
2011123008 |
165616 |
2011123101 |
5 |
2011123009 |
279104 |
2011123102 |
1 |
2011123010 |
315973 |
2011123103 |
2 |
2011123011 |
276103 |
2011123104 |
2 |
2011123012 |
274234 |
2011123106 |
3 |
2011123013 |
295936 |
2011123109 |
1 |
2011123014 |
306242 |
2011123116 |
2 |
2011123015 |
318645 |
2011123120 |
2 |
2011123016 |
317120 |
根据上面的得到的数据,绘制2011年12月30日这一天各时间段的查询条数的条形图如下:
可知,(a) 2011年12月30日这一天中共有4999918条,而2011年12月31日仅有82条,可能本数据集中采集的12月31日的数据不全;
(b) 在2011年12月30日这一天中,0-4时的的查询次数逐渐减少,到4时达到最低,然后慢慢上升,特别在7-9时的增加特别显著,到9-10时逐渐趋于稳定,每个小时大概有300000次查询,到21时后查询次数开始减少。基本符合人们的作息时间;
(c) 在查询次数稳定的时间段内,即9-21时,中间有两次低谷,分别在11-12、17-18,这可能是因为此时间段是人们的中饭、晚饭时间,所以表现出查询次数的略微减少。
4.3 关键词分析
查询关键词的长度指的是用户提交的查询中包含几个词语或字(用空格隔开的)。
查询关键词的平均长度:
hive> select avg(a.cnt) from (select size(split(keyword,’\s+’)) as cnt from sogou. sogou_ext_20111230) a;
可知查询关键词的平均长度为1.0869984,这说明用户输入的查询通常比较短,这也意味着中文搜索引擎得到的用户需求信息更少,需要对用户需求有更多的分析和经验,才能更加准确地返回用户需求的信息。
查询关键词各长度的条数:
hive> select a.cnt,count(*) as total from( select uid,size(split(keyword,
‘\s+’)) as cnt from sogou.sogou_ext_20111230) a group by a.cnt order by a.cnt;
得到的结果如下:
a.cnt |
total |
a.cnt |
total |
a.cnt |
total |
1 |
4672047 |
11 |
175 |
21 |
10 |
2 |
260746 |
12 |
125 |
22 |
6 |
3 |
48424 |
13 |
82 |
23 |
11 |
4 |
11359 |
14 |
50 |
26 |
14 |
5 |
3288 |
15 |
38 |
27 |
3 |
6 |
1522 |
16 |
33 |
31 |
6 |
7 |
859 |
17 |
24 |
32 |
3 |
8 |
506 |
18 |
41 |
36 |
1 |
9 |
328 |
19 |
8 |
45 |
1 |
10 |
263 |
20 |
27 |
|
|
图表表示如下:
可知,(a) 查询关键词的长度最短为1个词,最长为45个词;
(b) 关键词长度为1的条数为4672047条,关键词长度为2的条数为260746,关键词长度为3的条数为48424,关键词长度为4的条数为11359条,关键词长度为5的条数为3288,关键词长度为6的条数为1522,而关键词长度大于6的条数低于1000条,关键词长度大于12的条数低于100条,关键词长度为36、45的条数仅为1条;
(c) 查询关键词长度为1的条数占总查询条数的93.44%,查询关键词长度为2的条数占5.21%,即查询关键词的长度小于等于2的条数为98.65%,几乎占据了所有的查询条数,这也再次说明了用户的查询关键词长度一般为1-2个词,与上面得到的查询关键词平均长度为1.087相符;
(d) 从图中也可以看出,关键词长度为1的条数远大于关键词长度为2的条数,可知,大多数查询还是只用一个关键词。
查询查询频度最高的前1000词:
hive> select keyword,count(*) as cnt from sogou.sogou_ext_20111230 group by keyword order by cnt desc limit 1000;
得到的部分结果如下(截取前50):
keyword |
cnt |
keyword |
cnt |
百度 |
38441 |
龙门飞甲 |
3917 |
baidu |
18312 |
qq个性签名 |
3880 |
人体艺术 |
14475 |
张去死 |
3848 |
4399小游戏 |
11438 |
cf官网 |
3729 |
qq空间 |
10317 |
凰图腾 |
3632 |
优酷 |
10158 |
快播 |
3423 |
新亮剑 |
9654 |
金陵十三钗 |
3349 |
馆陶县县长闫宁的父亲 |
9127 |
吞噬星空 |
3330 |
公安卖萌 |
8192 |
dnf官网 |
3303 |
百度一下 你就知道 |
7505 |
武动乾坤 |
3232 |
百度一下 |
7104 |
新亮剑全集 |
3210 |
4399 |
7041 |
电影 |
3155 |
魏特琳 |
6665 |
优酷网 |
3115 |
qq网名 |
6149 |
两次才处决美女罪犯 |
3106 |
7k7k小游戏 |
5985 |
电影天堂 |
3028 |
黑狐 |
5610 |
土豆网 |
2969 |
儿子与母亲不正当关系 |
5496 |
qq分组 |
2940 |
新浪微博 |
5369 |
全国各省最低工资标准 |
2872 |
李宇春体 |
5310 |
清代姚明 |
2784 |
新疆暴徒被击毙图片 |
4997 |
youku |
2783 |
hao123 |
4834 |
争产案 |
2755 |
123 |
4829 |
dnf |
2686 |
4399洛克王国 |
4112 |
12306 |
2682 |
qq头像 |
4085 |
身份证号码大全 |
2680 |
nba |
4027 |
火影忍者 |
2604 |
将查询频度最高的前1000词用词云可视化如下:
可知,(a) 用户搜索百度时最常用的关键词时“百度”,共有38441条,其他的还有“baidu”、“百度一下”、“百度一下 你就知道”也比较常用,其中“百度一下”和“百度一下 你就知道”用作关键词的频次差不多。这几种关键词加起来共有71362条,说明百度时人们搜索东西时的首选的搜索引擎;
(b) 从关键词前50来看,4399游戏分别以“4399小游戏”关键词出现了11438条、“4399” 关键词出现了7041条、“4399 洛克王国” 关键词出现了4112条,可见,目前4399是比较受欢迎的小游戏网站,特别是“洛克王国”这个小游戏更是受欢迎;
(c) 从关键词前50来看,优酷网站分别以“优酷”关键词出现了10158条,“优酷网”关键词出现了3115次,“youku”关键词出现了2783次,可见,目前优酷时比较受欢迎的视频网站;
(d) 从关键词前50来看,目前大众比较关注的新闻热点时“馆陶县县长闫宁的父亲”、“新疆暴徒被击毙图片”等;
(e) 从关键词前50来看,目前大众比较关注的电视剧或电影是“新亮剑”、“龙门飞甲”、“凰图腾”、“金陵十三钗”等。
4.4 UID分析
UID平均查询次数:
hive> select sum(a.cnt)/count(a.uid) from (select uid,count(*) as cnt from sogou.sogou_ext_20111230 group by uid) a;
可知,一个UID的平均查询次数为3.6964094557111005次。
查询1次、2次、3次、大于3次的UID个数:
hive> select SUM(IF(uids.cnt=1,1,0)),SUM(IF(uids.cnt=2,1,0)),
SUM(IF(uids.cnt=3,1,0)),SUM(IF(uids.cnt>3,1,0)) from (select uid,count(*) as cnt from sogou.sogou_ext_20111230 group by uid) uids;
则可知,(a) 查询次数为1次的用户总数为549148,查询次数为2次的用户总数为257163,查询次数为3次的用户总数为149562,查询次数大于3次的用户总数为396791。
(b) 查询次数大于2次的用户总数为149562+396791=546353,且占比为546353/(549148+257163+149562+396791) = 546353/1352664=0.4039,这意味着有40.39%的用户的搜索次数大于2次,而有一半多的用户都仅进行了1-2次的搜索行为。
用户搜索次数排行榜:
hive> select uid,count(*) as total from sogou.sogou_ext_20111230 group by uid order by total desc limit 50;
uid |
total |
uid |
total |
02a8557754445a9b1b22a37b40d6db38 |
11528 |
7b634a16c60058536990c0c55c79eb42 |
340 |
cc7063efc64510c20bcdd604e12a3b26 |
2571 |
6a7d4670dd26d878e12b2c048c280648 |
337 |
9faa09e57c277063e6eb70d178df8529 |
2226 |
fb3b5f51387932c8996baca6abd54921 |
337 |
7a28a70fe4aaff6c35f8517613fb5c67 |
1292 |
13140b934a265e8967344050a4d6ddca |
322 |
b1e371de5729cdda9270b7ad09484c4f |
1277 |
a519967011de16ee5f1aa257f25271b9 |
313 |
c72ce1164bcd263ba1f69292abdfdf7c |
1120 |
779752cf3d115b126f33d2dab9a1351a |
312 |
2e89e70371147e04dd04d498081b9f61 |
837 |
e6e112274223c10e22fd7a117c6b1b60 |
312 |
06c7d0a3e459cab90acab6996b9d6bed |
720 |
efcfeccce2328288693568905be5ebfd |
298 |
b3c94c37fb154d46c30a360c7941ff7e |
676 |
f3075aeb9962db17cea21b14797ee19b |
289 |
beb8a029d374d9599e987ede4cf31111 |
676 |
b9095a863d4d1a8bd16d4977c4ee9e7b |
289 |
f41fd2711156d4b255f2dcf236d6bb39 |
641 |
2b4d3ef902df2dc0ac6993460075384b |
288 |
c65b26d0ceb14896ad901d3c4265e23d |
590 |
02eb52814598699374d8a8e60796415c |
288 |
5342261d204710ccaabd3425bc1c5c2c |
502 |
3330efbf34dd148f14a02e0e7bf8032a |
286 |
d53f50eeda326b5ac64c8782c9935f1b |
480 |
f2941355b9bd97ba9cd6f1fb1f31079e |
286 |
910c5227f0d2ffd870e5b7a9ade789c6 |
477 |
ffadcf2db46dc5fc9d7787656ebd7aa4 |
283 |
91e62d9148c8d9f71110a4248176a769 |
472 |
a9c13627ae747fffc1f1d5d4c08d1fba |
279 |
deff5f2f6b0dd83d6c0609f0ac5a77b3 |
464 |
6056710d9eafa569ddc800fe24643051 |
277 |
1cf709c4444193f4e4f4f8704ec0ef48 |
458 |
120f417c9fbc95e6d95ebd3faf89a05e |
276 |
91de518dad55cd180bba4f1be54c470b |
429 |
e6a6f8003b3c768e6d13be4b4fed97bb |
275 |
4f38c9cc4b139f69722a1afd95053105 |
425 |
ee3649c13d209ab84d474c812c680082 |
272 |
0d56cf20da81670adf923373d50b7dbc |
422 |
4fb363d1939017db6cd9e8406e6528e0 |
270 |
1fbbbcd2587944e60d0dcd4ccac76a78 |
420 |
637b29b47fed3853e117aa7009a4b621 |
266 |
b4251b30f49e932818bcebf6e15aa9c7 |
394 |
d60806329cb0e4383d52f6753cef98b4 |
259 |
955c6390c02797b3558ba223b8201915 |
391 |
ba64758bfc5ca184c143d1344da7323a |
257 |
8a5bdb441ad0fa41599caf0c3dbdde9e |
388 |
0422c6b3504addf0e90bd6835285f2b9 |
251 |
可知,(a) 查询次数最多的UID为02a8557754445a9b1b22a37b40d6db38,查询了11528次;
(b) 查询次数最多的用户查询了11528次,查询次数第二的用户查询了2571次,查询次数第三的用户查询了2226次,查询次数第四的用户查询了1292次,查询次数第五的用户查询了1277次,查询次数第六的用户查询了1120次,其他的用户均小于1000次;
(c) 查询次数最多的用户的查询次数远远大于查询次数第二的用户;
(d) 从查询次数第15的用户开始,用户间查询次数的差别不大,基本保持在10以内的差别;
4.5 URL分析
url点击排行榜:
hive> select url,count(*) as cnt from sogou.sogou_ext_20111230 group by url order by cnt desc limit 50;
得到的结果如下:
url |
cnt |
url |
cnt |
http://www.baidu.com/ |
73737 |
http://10086.cn/service/ |
3559 |
http://www.4399.com/ |
19015 |
http://www.qiyi.com/ |
3441 |
http://www.hao123.com/ |
14338 |
http://sfz.8684.cn/ |
3408 |
http://www.youku.com/ |
14086 |
http://www.12306.cn/mormhweb/ |
3401 |
http://qzone.qq.com/ |
12920 |
http://www.ccb.com/ |
3342 |
http://www.7k7k.com/ |
8326 |
http://dzh.mop.com/whbm/20111230/0/FgSO8zI2887052Fz.shtml |
3295 |
http://weibo.com/ |
7547 |
http://tv.sogou.com/series/wxt4vu5644qlxs6nxtgnu.html?p=40230600 |
3275 |
http://cf.qq.com/ |
7544 |
http://www.qzone.cc/gexing/qian/ |
3262 |
http://www.xixiwg.com/ |
7043 |
http://www.jprenti.com/ |
3199 |
http://www.12306.cn/ |
6961 |
http://www.10010.com/ |
3136 |
http://dnf.qq.com/ |
6835 |
http://site.baidu.com/ |
3126 |
http://bbs1.people.com.cn/postDetail.do?id=112546724 |
6325 |
http://news.ifeng.com/mainland/special/hetianpaichusuozaoxi/content-3/detail_2011_07/20/7804125_0.shtml |
3104 |
http://www.a67.com/ |
6048 |
http://www.dytt8.net/ |
3087 |
http://www.qqwangming.org/ |
6004 |
http://www.nbtxt.com/detail/12477/ |
2942 |
http://tv.sogou.com/series/wxt4vu5644qnbqwbyg62g.html?p=40230600 |
5508 |
http://www.icbc.com.cn/ |
2838 |
http://www.tudou.com/ |
5444 |
http://tv.youku.com/ |
2821 |
http://www.zhibo8.com/ |
4930 |
http://www.qzone6.com/ |
2785 |
http://www.taobao.com/ |
4928 |
http://cf.qq.com/act/a20111109happy/new.htm |
2670 |
http://tv.sogou.com/series/wxt4vu5644qlvwv27q.html?p=40230600 |
4589 |
http://mail.163.com/ |
2647 |
http://www.4399.com/flash/32979aa.htm |
4128 |
http://www.qzone.cc/gexing/name/ |
2620 |
http://www.qqgexing.com/ |
4062 |
http://www.sina.com.cn/ |
2606 |
http://tv.sogou.com/movie/wxt5hmbaxxymd2wkv3ep33wo.html?p=40230600 |
3847 |
http://mail.qq.com/ |
2605 |
http://movie.youku.com/ |
3817 |
http://sports.sina.com.cn/nba/ |
2558 |
http://www.5173.com/ |
3748 |
http://tv.sogou.com/movie/wxt5hmbazkt4dnndwor3hthm.html?p=40230600 |
2507 |
http://baike.baidu.com/view/2414016.htm |
3724 |
http://10086.cn/ |
2491 |
可知,(a) 用户最后选中url为百度网站的条数为73737条,与在关键词分析中得到的所有查询百度关键词的条数71362条基本吻合,这可能是因为在关键词分析中除了前50中出现的用户在搜索百度网站时用到的关键词外,还有少量用户用了一些少见的关键词来搜索;
(b) 用户最后选中url为4399小游戏网站的条数为19015条,这与在关键词分析中得到的以“4399小游戏”关键词出现了11438条、“4399” 关键词出现了7041条,共18479条的数据基本吻合。此外,7k7k小游戏的url点击次数为此类网站第二,为8326次,可能是其潜在的竞争对手;
(c) 用户最后选中url为优酷网站的条数为14086条,居此类网站第一,这意味着优酷网站基本上是人们看视频的首选网站;
(d) 此外,人们常用的网站还有qq空间、微博、12306、淘宝等。
直接输入URL作为查询词的条数:
hive> select count(*) from sogou.sogou_ext_20111230 where keyword like ‘%www%’;
直接输入URL的查询中,点击的结果就是用户输入的URL的网址的条数:
hive> select SUM(IF(instr(url,keyword)>0,1,0)) from (select * from
sogou.sogou_ext_20111230 where keyword like ‘%www%’) a;
可知,(a) 直接输入URL作为查询词的条数为73979条,占总记录的1.48%;
(b) 直接输入URL的查询中,点击的结果就是用户输入的URL的网址的条数为27561条,占37.26%,从这个比例可以看出,很大一部分用户提交含有URL的查询是由于没有记全网址等原因而想借助搜索引擎来找到自己想浏览的网页。因此搜索引擎在处理这部分查询的时候,一个可能比较理想的方式是首先把相关的完整URL地址返回给用户,这样有较大可能符合用户的查询需求。
4.6 RANK分析
Rank在10以内的条数:
hive> select count(*) from sogou.sogou_ext_20111230 where rank < 11;
由得到的结果可知,Rank在10以内的条数为4999869,占总记录的99.997%。这意味着用户在搜索时常常只翻看搜索引擎返回结果的前10个结果,即返回结果页面的第一页。这个用户行为决定了尽管搜索引擎返回的结果数目十分庞大,但真正可能被绝大部分用户所浏览的,只有排在最前面的很小一部分而已。所以传统的基于整个结果集合查准率和查全率的评价方式不再适用于网络信息检索的评价,我们需要着重强调在评价指标中有关最靠前结果文档与用户查询需求的相关度的部分。
5. 多维度用户行为分析
5.1 查询次数最多的用户的用户行为分析
由UID分析部分的结果可知,在2011年12月30日这一天中查询次数最多的用户是02a8557754445a9b1b22a37b40d6db38,下面来具体分析其用户行为。
查看用户02a8557754445a9b1b22a37b40d6db38所查询的关键词及其频次:
select keyword,count(*) as cnt from sogou.sogou_ext_20111230 where
uid=’02a8557754445a9b1b22a37b40d6db38′ group by keyword order by cnt
desc;
得到的部分结果为(频次最高前50):
keyword |
cnt |
keyword |
cnt |
幼交小说 |
41 |
baidu |
11 |
我和草原有个约定广场舞 |
37 |
小说下载 txt 电子书 免费下载 |
11 |
伦理快播 |
36 |
cf官网 |
11 |
遮天 |
29 |
五菱荣光商务车报价 |
11 |
保险公司的内勤都是靠关系才能进的吗 |
28 |
沙特女人吃饭 |
11 |
联想u260 二手 |
25 |
601106 |
11 |
新亮剑 |
24 |
2012年会搞笑创意节目 |
10 |
百度 |
24 |
154四肖 |
10 |
人体艺术 |
23 |
韩金军 |
10 |
qq头像 |
20 |
芭比公主 |
10 |
E52如何用灵图9 |
17 |
赛尔号 |
10 |
宁夏金源伟业科技有限公司 |
17 |
网上订火车票 |
10 |
qq空间 |
17 |
低保证明怎么写 |
10 |
优酷 |
16 |
1683168 |
10 |
快播 |
15 |
qq网名 |
10 |
后宫甄嬛传 |
13 |
4399洛克王国 |
10 |
钱多多嫁人记 |
13 |
中国移动 |
10 |
酒店工程部个人工作计划 |
13 |
cf |
10 |
沙特女人 |
13 |
大魔头 |
10 |
新浪微博 |
12 |
天目湖旅游度假区开发与水环境保护 |
9 |
凰图腾 |
12 |
4399 |
9 |
http://72dnc.com |
11 |
理赔内勤 |
9 |
龙门飞甲 |
11 |
雪豹 |
9 |
金陵十三钗 |
11 |
玛哈嘎拉图片 |
9 |
百度一下 你就知道 |
11 |
三国杀 |
9 |
将查询次数大于等于5的关键词可视化为词云如下:
可见,(a) 此用户近段时间比较感兴趣的广场舞是“我和草原有个约定”;
(b) 此用户近段时间可能有意向找保险公司内勤类的工作;
(c) 从词云上可以看出,此用户比较喜欢用长度较长的词语作为关键词进行搜索行为;
查看用户02a8557754445a9b1b22a37b40d6db38在2011年12月30日这一天的各时间段内的查询次数:
select hour,count(*) as cnt from sogou.sogou_ext_20111230 where
uid=’02a8557754445a9b1b22a37b40d6db38′ group by hour order by hour
desc;
得到的结果如下:
hour |
cnt |
hour |
cnt |
0 |
239 |
12 |
638 |
1 |
186 |
13 |
663 |
2 |
62 |
14 |
661 |
3 |
44 |
15 |
723 |
4 |
29 |
16 |
753 |
5 |
40 |
17 |
697 |
6 |
49 |
18 |
711 |
7 |
90 |
19 |
892 |
8 |
308 |
20 |
885 |
9 |
529 |
21 |
887 |
10 |
591 |
22 |
740 |
11 |
610 |
23 |
501 |
可见,(a) 用户在3-7时处于搜索行为的低谷期,基本维持在每小时40条左右的搜索量;
(b) 用户在8时、9时的搜索增长速率最大,之后在16时之前保持稳步上升;
(c) 用户在17时和18时的搜索量出现局部最低,可能时用户的晚饭时间,因而搜索量减少;
(d) 用户在19-21时的搜索量达到一天中的最高峰,用户搜索行为最活跃,可考虑在此时段投放推荐广告等。
5.2 所有url为百度的网站搜索的关键词是什么
由URL分析部分的结果可知,在2011年12月30日这一天中点击次数最多的网站是http://www.baidu.com/,下面来进行具体分析。
查看用户点击http://www.baidu.com/所用的搜索关键词及其计数:
hive> select keyword,count(*) as cnt from sogou.sogou_ext_20111230 where url=”http://www.baidu.com/” group by keyword order by cnt desc;
得到的结果如下:
keyword |
cnt |
keyword |
cnt |
百度 |
35498 |
百度网 |
48 |
baidu |
17560 |
baibu |
45 |
百度一下 你就知道 |
6880 |
badu百度 |
41 |
百度一下 |
6673 |
baudu |
39 |
www.baidu.com |
1446 |
baudu百度 |
39 |
BAIDU |
794 |
www。百度 |
39 |
bdu百度一下 |
256 |
baud百度一下 |
36 |
百度 一下 你就知道 |
247 |
百度一下,你就知道 |
36 |
baid |
220 |
beidu |
34 |
bai |
177 |
baiud |
32 |
www |
160 |
baidu] |
31 |
百度首页 |
160 |
bai du |
31 |
百 |
156 |
badu |
30 |
白度 |
121 |
百度地图 |
30 |
www。baidu.com |
107 |
baiu |
30 |
www.baidu |
106 |
www。baidu |
28 |
百度、 |
94 |
wwwbaiducom |
26 |
摆渡 百度一下 |
94 |
bidu |
26 |
百度 一下 |
93 |
about:百度 |
25 |
baidu |
87 |
百度一下首页 |
25 |
www。baidu。com |
86 |
baidui |
25 |
搜索 baidu |
82 |
baiducom |
24 |
搜索 百度 |
61 |
百度知道 |
23 |
baodu |
61 |
baiduyixia |
22 |
摆渡 |
53 |
百度。com |
22 |
可见,用户在搜索一个网站时可能出现各式各样的搜索关键词,因而模糊匹配到用户想要的网站很重要,建议模糊匹配频次较高的搜索词。
查询点击http://www.baidu.com/各个时间段的条数:
hive> select hour,count(*) as cnt from sogou.sogou_ext_20111230 where url=”http://www.baidu.com/” group by hour order hour;
hour |
cnt |
hour |
cnt |
0 |
1588 |
12 |
3986 |
1 |
1428 |
13 |
4297 |
2 |
1146 |
14 |
4569 |
3 |
989 |
15 |
4626 |
4 |
788 |
16 |
4741 |
5 |
795 |
17 |
4438 |
6 |
717 |
18 |
4732 |
7 |
699 |
19 |
4962 |
8 |
2038 |
20 |
4918 |
9 |
3367 |
21 |
4461 |
10 |
3995 |
22 |
3800 |
11 |
3695 |
23 |
2962 |
可见,搜索百度网站的在时间上的分布基本上与所有搜索行为在时间上的分布大概一致,这也从侧面说明了百度为人们广泛应用。
5.3 查询关键词“仙剑奇侠传”的用户行为分析
查询搜索过“仙剑奇侠传”的uid:
hive> select uid,count(*) as cnt from sogou.sogou_ext_20111230 where keyword=’仙剑奇侠传’ group by uid order by cnt desc;
得到的结果如下:
uid |
cnt |
uid |
cnt |
653d48aa356d5111ac0e59f9fe736429 |
6 |
3bc04a0444c08239fca551ad95ca08ae |
1 |
e11c6273e337c1d1032229f1b2321a75 |
5 |
3c9a09e25828ca7fa441c9ef16c66a80 |
1 |
4d1af2d521b2e72978a68815087dd550 |
3 |
45e623de82433688a756275af9be61cc |
1 |
ab90b6700c0f205c520f07e4cc1d7b96 |
3 |
50152c1874febb5c7b81075b6437fae0 |
1 |
2b71bae0c544d0049be8b2bde01b795f |
3 |
51815c0afe0237b8c43f8aa12011a60a |
1 |
81f26b22a6e52f14c40647c25feb269c |
3 |
5dbe046d05d4397adb2d8dda0b421773 |
1 |
82bf38b33596975e1511b8c1f9519644 |
3 |
a296f675947f027625f1a4d60ae67e23 |
1 |
ba64758bfc5ca184c143d1344da7323a |
3 |
bc615ad74bc05647e59f46ab4da92af6 |
1 |
6901e38fa48949c6e3450c1042dc0c73 |
3 |
dc953c98270ec152dbdae786160c6a2e |
1 |
02f1e94feaa001f5a19d6d97a5f25f9f |
2 |
fb570c116c556ddb3d712142bcd652b2 |
1 |
0ee5179ff89b568dbce2c73136c535c5 |
2 |
0d84be52ca3783cd87ac9e9b04e200c6 |
1 |
1e57f18af1d9b646c8a003f66720aaa5 |
2 |
3b5295a9c7dc63d10a235bab9c04995b |
1 |
2ae3984c3f82650b6c0189e6763be408 |
2 |
3fcf0f637c1e97445ae53d0813274771 |
1 |
80b65ac2d2f993af78e5484c766e4119 |
2 |
5da853c2fa6535b2a03382afd493a4d7 |
1 |
99313ba2ea15907e0a8f335c6d74f314 |
2 |
7b61cc65359eef75581b86f766a644dd |
1 |
a4f3dbfb256bd25c7e58a1b030c8d95d |
2 |
84724ec293a70aeff25c5983141ea52d |
1 |
ad5cfe784c8aa492eb57c4db6a932ad0 |
2 |
b05e49b63ca201549b53a7b7be6b22cb |
1 |
b4b379f3719ce038655c2e816a4542d4 |
2 |
b4b0b57023f41c9c232af15feec897aa |
1 |
ea7d6638294045636fcf92c161d51050 |
2 |
c78d90abb6d97eef073e70c8ad143a35 |
1 |
17533946097b22f09e67741b5f84a8c6 |
2 |
ecdb9ff3f0046824d8ff90da47e6bcb0 |
1 |
785934a66a53fbe6bc135275283868c1 |
2 |
f231ab96f2bf7c18f527506ecc5ee1a7 |
1 |
908dd24c58050e2e3f0b132b387e9fdd |
2 |
00160e665054e5f5168183d2766a483c |
1 |
91881679246d00f7b34f0e3313ee0439 |
2 |
108414df6fe049fb5f0811d6ac600424 |
1 |
9ded72abf69dc3efe556fcbf752df92f |
2 |
3cb06a2751e4c2f5d9fc7032edc8d531 |
1 |
c0c82a8fc022c2d64f14188f550954a0 |
2 |
55361f45e44caa332157b6e8941179da |
1 |
c9f632be1d7c5f188323f35dfc4264ea |
2 |
57208ce9ef99e760b5bdd9ba992ffe6d |
1 |
f7336296dc7c69a2ffc2178e7c8a7e94 |
2 |
863fae4c7c86dc6daa5b55dd1ffe3eb9 |
1 |
10fc3f82e8175a90e8c41e3a2cd86812 |
2 |
9931ab69327e87878283a1dbc13c9619 |
1 |
a530d6385be5967da6dc74f38012a610 |
2 |
bac9b55d9b7107dd5b0cdd5ce388d169 |
1 |
bc5817fbcd5e2b5d20dc50a29470c262 |
2 |
c4acf1919ed442fb11b8c1a32dd91def |
1 |
db6eb39cf39d747b4446fe83bc9fe1c3 |
2 |
c5a8bc8c1bcc742cb1bd98bb560f2d91 |
1 |
03dcbe547d94f80cafdd1ea7c91c1680 |
1 |
cbea098bc581fcf1ecf85922a8b08df5 |
1 |
04356f4d2ecaa3774c8024619fb37d30 |
1 |
dc4b344aaa0dc765bb5ecee4eca377cc |
1 |
1875e8e340b25647b03a9e4edf05d34f |
1 |
e15cb20f47f519832254d707c36ffbab |
1 |
2f1636d6e198ddf154526ca96a0f99fc |
1 |
e7c8fee27af3d4d3ad778106660b47e2 |
1 |
375e1d62e8696d5cf3379c557fbf64f2 |
1 |
e9dfe73b154e0a3c99a28427d196e439 |
1 |
可知,查询“仙剑奇侠传”较多的用户是653d48aa356d5111ac0e59f9fe736429,为6次,和用户e11c6273e337c1d1032229f1b2321a75,为5次;下面来进一步分析这两个用户的用户行为。
查找uid为653d48aa356d5111ac0e59f9fe736429的相关搜索记录:
hive> select * from sogou.sogou_ext_20111230 where
uid=’653d48aa356d5111ac0e59f9fe736429′;
得到的结果为:
keyword |
url |
放羊的星星 |
http://tv.sohu.com/s2010/fydxx/ |
放羊的星星 |
http://tv.sogou.com/series/wxt4vu5644qlpror6k24jugh2ddq.html?p=40230600 |
放羊的星星 |
http://tv.sohu.com/s2010/fydxx/ |
我可能不会爱你 |
http://tv.sohu.com/s2011/wknbhan/ |
仙剑奇侠传 |
http://www.163dyy.com/detail/500.html |
仙剑奇侠传 |
http://www.tvmao.com/drama/WVgxbA==/episode |
7聊 |
http://www.7liaos.com/ |
7聊 |
http://www.7liaos.com/ |
仙剑奇侠传 |
http://www.163dyy.com/detail/500.html |
仙剑奇侠传第一部全集 |
http://tv.sogou.com/series/wxt4vu5644qm7sn5updont6awsv3lwwsxozl6.html?p=40230600 |
仙剑奇侠传第一部 |
http://www.youku.com/playlist_show/id_16700878.html |
仙剑奇侠传1 |
http://tv.sogou.com/series/wxt4vu5644qm7sn5updont6awsv3lwwsxozl6.html?p=40230600 |
仙剑奇侠转1 |
http://www.youku.com/playlist_show/id_3549043.html |
仙剑奇侠传 |
http://www.163dyy.com/detail/500.html |
仙剑奇侠传 |
http://www.114dyw.com/teleplay1/xianjianqixiachuan/ |
仙剑奇侠传 |
http://www.163dyy.com/detail/500.html |
可见,(a) 用户653d48aa356d5111ac0e59f9fe736429搜索“仙剑奇侠传”的目的是为了观看影片;
(b) 用户653d48aa356d5111ac0e59f9fe736429 希望观看仙剑奇侠传第一部;
(c) 同时,放羊的星星也是用户653d48aa356d5111ac0e59f9fe736429目前比较感兴趣的电视剧。
查找uid为e11c6273e337c1d1032229f1b2321a75的相关搜索记录:
hive> select * from sogou.sogou_ext_20111230 where
uid=’e11c6273e337c1d1032229f1b2321a75′;
得到的结果为:
keyword |
url |
仙剑奇侠传4官网 |
http://pal4.52pk.com/ |
仙剑奇侠传4结局 |
http://zhidao.baidu.com/question/196334214 |
仙剑奇侠传4 |
http://baike.baidu.com/view/10142.htm |
仙剑奇侠传3 |
http://baike.baidu.com/view/33571.htm |
仙剑奇侠传2 |
http://baike.baidu.com/view/246644.htm |
仙剑奇侠传 |
http://baike.baidu.com/view/2188.htm |
仙剑奇侠传三外传 |
http://baike.baidu.com/view/246650.htm |
仙剑奇侠传四动画 |
http://www.56.com/w77/play_album-aid-1824744_vid-MTY3MjkwOTc.html |
仙剑奇侠传3结局动画 |
http://v.youku.com/v_show/id_XNDczMTU3Ng==.html |
仙剑奇侠传3结局 |
http://zhidao.baidu.com/question/143395514 |
仙剑奇侠传三 |
http://baike.baidu.com/view/4219.htm |
仙剑奇侠传三游戏剧情 |
http://zhidao.baidu.com/question/106721096 |
仙剑奇侠传三 |
http://baike.baidu.com/view/4219.htm |
仙剑奇侠传四 |
http://baike.baidu.com/view/31425.htm |
仙剑奇侠传 |
http://baike.baidu.com/view/2188.htm |
仙剑奇侠传二 |
http://baike.baidu.com/view/246644.htm |
仙剑奇侠传 |
http://baike.baidu.com/view/2188.htm |
阿奴 |
http://baike.baidu.com/view/47446.htm |
仙剑奇侠传 |
http://baike.baidu.com/view/2188.htm |
仙剑奇侠传二 |
http://baike.baidu.com/view/246644.htm |
仙剑奇侠传 |
http://baike.baidu.com/view/2188.htm |
Grenade |
http://baike.baidu.com/view/2086505.htm |
北京庐舍宾馆 |
http://baike.baidu.com/view/4916228.htm |
北京庐舍宾馆 |
http://www.zhuna.cn/hotel-23516.html |
北京庐舍宾馆 |
http://www.17u.cn/HotelInfo-27993.html |
北京庐舍宾馆 |
http://www.sunnychina.com/hotel/hotel_15894.html |
北京庐舍宾馆 |
http://www.yoostrip.com/hotel/hotel_17602.html |
北京庐舍宾馆 |
http://hotel.elong.com/detail360_cn_00101382.html |
如家 |
http://www.homeinns.com/ |
东洛杉矶学院 |
http://baike.baidu.com/view/4932647.htm |
东洛杉矶学院 |
http://www.elac.edu/ |
可见,(a) 用户e11c6273e337c1d1032229f1b2321a75搜索“仙剑奇侠传”的目的更可能是对名为“仙剑奇侠传”的游戏感兴趣;
(b) 用户653d48aa356d5111ac0e59f9fe736429 对仙剑奇侠传3和仙剑奇侠传4的结局比较感兴趣;
(c) 此外,用户653d48aa356d5111ac0e59f9fe736429对北京庐舍宾馆的搜索次数达到6次,可能其近期要出行。
5.4 较活跃的时间段的行为分析
由时间分析部分的结果可知,在2011年12月30日这一天中搜索行为最活跃的时间段为19-21时,下面来进行具体分析。
在活跃时间段内点击网址排行榜:
hive> select url,count(*) as cnt from sogou.sogou_ext_20111230 where day=31 and hour in (19,20,21) group by url order by cnt desc;
得到的结果如下(前50):
url |
cnt |
url |
cnt |
http://www.baidu.com/ |
14341 |
http://www.qzone.cc/gexing/qian/ |
750 |
http://www.4399.com/ |
4606 |
http://www.nbtxt.com/detail/12477/ |
744 |
http://www.youku.com/ |
3356 |
http://sfz.8684.cn/ |
739 |
http://www.hao123.com/ |
2836 |
http://www.5173.com/ |
719 |
http://qzone.qq.com/ |
2188 |
http://10086.cn/service/ |
716 |
http://www.7k7k.com/ |
2092 |
http://www.zhibo8.com/ |
703 |
http://cf.qq.com/ |
1490 |
http://www.dytt8.net/ |
691 |
http://www.qqwangming.org/ |
1463 |
http://tv.sogou.com/movie/wxt5hmbazkt4dnndwor3hthm.html?p=40230600 |
672 |
http://www.xixiwg.com/ |
1435 |
http://tv.youku.com/ |
666 |
http://www.a67.com/ |
1413 |
http://www.qzone.cc/gexing/name/ |
646 |
http://tv.sogou.com/series/wxt4vu5644qnbqwbyg62g.html?p=40230600 |
1401 |
http://www.jprenti.com/ |
606 |
http://weibo.com/ |
1355 |
http://tv.sogou.com/series/wxt4vu5644qmplvw4c3obpg6zdf3zry.html?p=40230600 |
604 |
http://tv.sogou.com/series/wxt4vu5644qlvwv27q.html?p=40230600 |
1226 |
http://www.10010.com/ |
600 |
http://www.tudou.com/ |
1202 |
http://www.ffdy.cc/ |
578 |
http://www.12306.cn/ |
1094 |
http://www.ct10000.com/ |
573 |
http://www.qqgexing.com/ |
1040 |
http://site.baidu.com/ |
570 |
http://movie.youku.com/ |
1000 |
http://www.ccb.com/ |
565 |
http://dzh.mop.com/whbm/20111230/0/FgSO8zI2887052Fz.shtml |
975 |
http://bugu.cntv.cn/live_cctv5/index.shtml |
530 |
http://dnf.qq.com/ |
949 |
http://tv.sogou.com/series/wxt4vu5644qmrs5vxxf4jsvo.html?p=40230600 |
517 |
http://www.qiyi.com/ |
921 |
http://www.qzone6.com/ |
515 |
http://baike.baidu.com/view/2414016.htm |
901 |
http://www.touxiang.cn/ |
505 |
http://www.taobao.com/ |
889 |
http://cf.qq.com/act/a20111109happy/new.htm |
505 |
http://www.4399.com/flash/32979aa.htm |
886 |
http://10086.cn/ |
504 |
http://tv.sogou.com/series/wxt4vu5644qlxs6nxtgnu.html?p=40230600 |
850 |
http://www.12306.cn/mormhweb/ |
504 |
http://tv.sogou.com/movie/wxt5hmbaxxymd2wkv3ep33wo.html?p=40230600 |
827 |
http://web.sanguosha.com/ |
501 |
可见,(a) 在19-21时的活跃时间段内,点击量前5的网站分别是百度、4399游戏、优酷、好123网址导航、QQ空间,可以考虑此时段在这几个网站上投放广告等;
(b) 在19-21时的活跃时间段内,百度网站的点击量为14341次,占全天总次数73737次的19.49%;
在活跃时间段内搜索关键词排行榜:
hive> select keyword,count(*) as cnt from sogou.sogou_ext_20111230 where day=31 and hour in (19,20,21) group by keyword order by cnt desc;
得到的结果如下(前50):
keyword |
cnt |
keyword |
cnt |
百度 |
7172 |
新亮剑全集 |
811 |
baidu |
3516 |
电影 |
792 |
4399小游戏 |
2781 |
快播 |
769 |
人体艺术 |
2627 |
优酷网 |
736 |
优酷 |
2507 |
电影天堂 |
706 |
新亮剑 |
2333 |
youku |
689 |
公安卖萌 |
2159 |
cf官网 |
679 |
qq空间 |
1732 |
吞噬星空 |
672 |
4399 |
1666 |
新疆暴徒被击毙图片 |
662 |
魏特琳 |
1608 |
qq分组 |
660 |
黑狐 |
1580 |
土豆网 |
658 |
百度一下 你就知道 |
1573 |
武动乾坤 |
655 |
qq网名 |
1534 |
凰图腾全集 |
652 |
7k7k小游戏 |
1524 |
仙逆 |
645 |
百度一下 |
1449 |
儿子与母亲不正当关系 |
644 |
李宇春体 |
1267 |
张去死 |
640 |
龙门飞甲 |
1205 |
火影忍者 |
620 |
qq头像 |
1017 |
赛尔号 |
598 |
新浪微博 |
1011 |
钱多多嫁人记 |
574 |
hao123 |
967 |
迅雷看看 |
559 |
123 |
909 |
季莫申科情人 图 |
556 |
qq个性签名 |
904 |
遮天 |
549 |
凰图腾 |
901 |
身份证号码大全 |
541 |
金陵十三钗 |
874 |
失恋33天 |
535 |
4399洛克王国 |
870 |
土豆 |
527 |
可知,(a) 在19-21时的活跃时间段内,用户搜索的最多的关键词依旧是百度,这说明百度已是用户的首选搜索引擎;
(b) 在19-21时的活跃时间段内,用户搜索的关键词排行与全天的用户搜索关键词的排行并无较大区别。
在活跃时间段内用户排行榜:
hive> select uid,count(*) as cnt from sogou.sogou_ext_20111230 where day=31 and hour in (19,20,21) group by uid order by cnt desc;
得到的结果如下:
uid |
cnt |
uid |
cnt |
02a8557754445a9b1b22a37b40d6db38 |
2664 |
0d56cf20da81670adf923373d50b7dbc |
99 |
cc7063efc64510c20bcdd604e12a3b26 |
590 |
91e62d9148c8d9f71110a4248176a769 |
91 |
7a28a70fe4aaff6c35f8517613fb5c67 |
305 |
116773275003fd2abffc4288f13b1745 |
90 |
b1e371de5729cdda9270b7ad09484c4f |
292 |
b7dce820ccdb4b3a75a64cbf9dcc11c5 |
90 |
c72ce1164bcd263ba1f69292abdfdf7c |
254 |
7b634a16c60058536990c0c55c79eb42 |
89 |
9a12bf7ee5ea954660092df0ef34acb4 |
177 |
ba8c0225b1b6062e892e04982073db7a |
87 |
ef86311727c54aa1d1bda5cc4ffcd329 |
173 |
648754a2563bd5b36e028afbe927dfd1 |
87 |
84e781a747ac7d0d723c8b9f0cc6b87f |
169 |
9ded8ab2cc8504e1d6cf87903f5e25b8 |
86 |
13140b934a265e8967344050a4d6ddca |
156 |
e6e112274223c10e22fd7a117c6b1b60 |
86 |
3e6a34613757d1ce0f6d6d97102ebaad |
142 |
2aa714ded74edc258a7dd5c5e2c75015 |
84 |
deff5f2f6b0dd83d6c0609f0ac5a77b3 |
130 |
02eb52814598699374d8a8e60796415c |
83 |
f41fd2711156d4b255f2dcf236d6bb39 |
124 |
f3075aeb9962db17cea21b14797ee19b |
83 |
b3c94c37fb154d46c30a360c7941ff7e |
123 |
4f38c9cc4b139f69722a1afd95053105 |
82 |
06c7d0a3e459cab90acab6996b9d6bed |
120 |
c25a84ec0f90088b35a34d5d7d3264dd |
81 |
c3ac142de38ded8dfe7f24f927ea4829 |
120 |
955c6390c02797b3558ba223b8201915 |
81 |
779752cf3d115b126f33d2dab9a1351a |
116 |
878158a83a09246e78d920129f83f77c |
81 |
d53f50eeda326b5ac64c8782c9935f1b |
114 |
6ff3b606c01fff5ebff1e2b2bbef2d31 |
81 |
b08b9d292d1aa0986f01b50bc5b4cec3 |
110 |
a53cc832a80241ba08754401331b3d87 |
80 |
91857a446849a86f2722f1ed885814d9 |
108 |
d524ac3d106082da06ec70b45e40d8af |
77 |
b4251b30f49e932818bcebf6e15aa9c7 |
105 |
ab754186afd495ff1eccb3ecea0d2898 |
76 |
9907a0874dec6825bc797a73eb0d6d29 |
103 |
9223efff33f092f888106e3f5ce4912b |
76 |
f050339e5fd8c08948b3474b7fc67eb7 |
101 |
beb8a029d374d9599e987ede4cf31111 |
75 |
71907d498018fad5c612c72606130681 |
101 |
e425eb5aebfdcec0f8f4aa05aba21e64 |
75 |
7bd1088c653b53934dc4e1d31aa911eb |
100 |
91de518dad55cd180bba4f1be54c470b |
73 |
c65b26d0ceb14896ad901d3c4265e23d |
99 |
ffadcf2db46dc5fc9d7787656ebd7aa4 |
73 |
可知,(a) 在19-21时的活跃时间段内,进行搜索行为最多最活跃的用户是02a8557754445a9b1b22a37b40d6db38,与全天进行搜索行为最多最活跃的用户是同一个;
(b) 在19-21时内,最活跃用户02a8557754445a9b1b22a37b40d6db38的搜索次数远大于排名第二的用户,此情形与全天的搜索排行情况相同。
5.5 Rank与Order的相关性分析
被用户第一次点击的总条数:
hive> select count(*) from sogou.sogou_ext_20111230 where order=1;
Rank 前10的被第一次点击的条数
hive> select count(*) from sogou.sogou_ext_20111230 where rank<11 and order=1;
Rank 前5的被第一次点击的条数
hive> select count(*) from sogou.sogou_ext_20111230 where rank<6 and order=1;
Rank前3的被第一次点击的条数
hive> select count(*) from sogou.sogou_ext_20111230 where rank<4 and order=1;
Rank前1的被第一次点击的条数
hive> select count(*) from sogou.sogou_ext_20111230 where rank<2 and order=1;
可知,(a) 被用户第一次点击的条数为3465833条;
(b) Rank为前10、5、3、1的网站被第一次点击的条数分别为3465784条、3197784条、2898900条、1942685条,分别占所有被用户第一次点击的总条数的99.9986%、92.266%、83.64%、56.05%,Rank为前1的条目被点击的概率已达到56.05%,说明Rank为前1的条目被点击的概率是很大的,而且用户第一次点击的几乎所有都是Rank在10以内的条目,可考虑将重要更匹配用户搜索字段的条目放在Rank前10的位置。
所有Rank为1的条数:
hive> select count(*) from sogou.sogou_ext_20111230 where rank=1;
Rank为1的条目在1次内被点击的条数:
hive> select count(*) from sogou.sogou_ext_20111230 where rank=1 and order<2;
Rank为1的条目在3次内被点击的条数:
hive> select count(*) from sogou.sogou_ext_20111230 where rank=1 and order<4;
Rank为1的条目在5次内被点击的条数:
hive> select count(*) from sogou.sogou_ext_20111230 where rank=1 and order<6;
Rank为1的条目在10次内被点击的条数:
hive> select count(*) from sogou.sogou_ext_20111230 where rank=1 and order<11;
可知,(a) 所有Rank为1的条数为2071720条;
(b) Rank为1的条目在1次内被点击、在3次内被点击、在5次内被点击、在10次内被点击的条数分别为1942685条、2062703条、2070397条、2071720条,分别占Rank为1总条数的93.77%、99.56%、99.94%、100%,Rank为1的条目在1次内被点击的概率已达到93.77%之高,而在3次内被点击的概率达到99.56%,说明Rank为1的条目基本上三次内便会被用户点击到,可见rank为1的条目的重要性,可考虑将更重要更匹配用户搜索字段的条目放在此处。
由此可知,Rank与Order有一定的相关性,一般来讲,被放在越前面的条目更可能被用户点击到,即rank越小,order倾向于越小。