蜘蛛会不断的抓取新鲜的文件
怎么着日志文件目录?存于根目录以wwwlogs,log,logs等名称命名
没有log目录怎么办?联系主机商
为什么要看日志?
1、蜘蛛爬取过的文件(网页,css,js,目录,函数文件)
2、制定短期seo方案,改变一些已经制定却不太合理seo方法
工具:
Windows下的编辑器:Notpad++
日志各项参数:
1、访问IP:用户、爬虫、服务器(黑客服务器、IDC)
2、具体访问时间
3、请求:get真实访问,post发送数据
4、具体访问目录
5、状态码:200正常返回,40X 页面上的错误,50X 服务器上的错误
6、何种终端类型,火狐5.0
表格工作:
1、网站目录、文件、页面具体访问数量,统计一周
2、自己的网站更新频率统计
3、1、2点对比,将总结的最多的问题,列出来
状态码:
404页面处理方式: 1、删除;2、提交
301永久重定向,302重定向,304没变化
Loghao分析工具
1、先看404
2、有哪些是真正的百度蜘蛛
3、cmd Ping这些404 ip
1、仿冒的蜘蛛,自己的爬虫
2、竞争对手搞一下,入侵后台用
抓取异常的处理:
1、确认前端页面或者ftp文件可以正常访问
2、看一下百度抓取异常
(1)1正常,2报错,主机某一个时间段宕机,超时
(2)1不正常,2报错,不当操作造成的
沙盒期:
1、新站期1-3个月
2、大部分页面降权
沙盒标志:蜘蛛访问量,2个月以上,只有一个蜘蛛访问,索引量只有一个
1、域名有问题
2、Ip段有问题
3、同质化网站太多