先明确一些基本点
,一个网页被收录与否
,有两个因素
是否被爬虫爬过
页面质量是否过关
收录率这么一个指标
,很多网站都懒得去做这个指标
,“我看看site的数据不就行了
!”
,事实上没有这个指标
,很多工作就无从下手。从数据中找出问题
,利用数据指导解决方案
,分析数据验证工作成果。 最近看了《深入浅出数据分析》这个本
,觉得不错
,把数据分析的方法讲得很生动
,建议有兴趣的从事数据分析的同学可以买本看看。 任何数据分析由
,目标->分析->评估->决策
,四个环节组成。
目标
:我们想看一下网站的收录情况如何
,在SEO方面是否还有提高的机会。
分析
:收录情况什么算好什么算坏
,是不是用一些指标来衡量
?网站的收录情况是不是过于笼统
,是不是应该细分下各个页面的收录情况
?
我们需要检查一下
,网页是否被爬虫爬行过
,网页的质量是不是过关。
1. 关于爬虫的情况
,我们需要分析日志
,才能确定。于是我们从日志中拆分一系列数据看看页面是否真的被爬行过。
2. 由于页面质量似乎是一个很难衡量的值
,于是我们可以用相同模板下的
:
已被爬行的页面数量/已被爬行并且被收录页面数量