网站地图就是根据网站的结构、框架、内容,生成的导航网页文件。大多数人都知道网站地图对于提高用户体验有好处,它们为网站访问者指明方向,并帮助迷失的访问者找到他们想看的页面。其中使用起来最方便的就是小爬虫sitemap生成工具了,在本篇内容中我们也会给大家详细介绍使用小爬虫sitemap生成工具添加网站地图的方法!
什么是网站地图?
在开始之前,我们有必要先了解一下什么是网站地图?网站地图也叫sitemap,是一个网站所有链接的容器。很多网站的连接层次比较深,蜘蛛很难抓取到,网站地图可以方便搜索引擎蜘蛛抓取网站页面,通过抓取网站页面,清晰了解网站的架构,网站地图一般存放在根目录下并命名为sitemap,为搜索引擎蜘蛛指路,增加网站重要内容页面的收录。
网站地图sitemap的作用
网站地图的作用如下:
为搜索引擎蜘蛛提供可以浏览整个网站的链接,简单的体现出网站的整体框架给搜索引擎看;
为搜索引擎蜘蛛提供一些链接,指向动态页面或者采用其他方法比较难以到达的页面;
作为一种潜在的着陆页面,可以为搜索流量进行优化;
如果访问者试图访问网站所在域内并不存在的URL,那么这个访问者就会被转到“无法找到文件”的错误页面,而网站地图可以作为该页面的“准”内容。
HTML版本的网站地图
HTML,称为HTML版本的网站地图,英文是sitemap,特指HTML版网站地图。这个版本的网站地图就是用户可以在网站上看到的,列出网站上所有主要页面的链接页面。对小网站来说,甚至可以列出整个网站的所有页面,对于具有规模的网站来说,一个网站地图不可能罗列所有的页面链接,这个时候可以采取两种办法:
第一种办法:网站地图只列出网站最主要的链接,如一级分类,二级分类;
第二种办法:将网站地图分成几个文件,主网站地图列出通往次级网站的链接,次级网站地图再列出一部分页面链接。
XML版本的网站地图
XML,XML版本的网站地图是由Google首先提出的,那么怎么区分呢?上面所说的HTML版本的s是小写的,而XML版本的S则是大写的,XML版本的网站地图是由XML标签组成的,文件本身必须是utf8编码。网站地图文件实际上就是列出网站需要被收录的页面的URL,最简单的网站地图可以是一个纯文本文件,文件只要列出页面的URL,一行列一个URL,搜索引擎就能抓取并理解文件内容。
网站地图的制作方法
网上有很多sitemap地图生成的方法,比如在线生成、软件生成等。这里推荐大家使用小爬虫sitemap生成工具:http://www.sitemap-xml.org,使用方法如下:
(1)输入域名,选择网站对应的编码,点击【生成】按钮(建议使用sogou浏览器或者google浏览器),如图1:
图1 生成网站地图步骤1
(2)等待小爬虫爬行网站,爬行时间根据网站内容多少和服务器访问速度不定,如果数据较多建议晚上10点后操作,如图2:
图2 生成网站地图步骤2
(3)下载sitemap.xml或者sitemap.html文件,上传到网站根目录,在首页做链接,如图3:
图3 生成网站地图步骤3
这里需要说明一下sitemap.xml和sitemap.html的区别:
1.sitemap.xml
sitemap.xml的创建是为了更有利于搜索引擎的的抓取策略,从而提高工作效率。生成sitemap.xml后将其链接放入robort.txt内。提示:
良好的robort.txt协议可以指导搜索引擎抓取方向,节省“蜘蛛”抓取时间,所以无形中提升了“蜘蛛”的工作效率,也就提高了页面被抓取的可能性。
将sitemap.xml和robort.txt放在网站的根目录下。
2.Sitemap.html
Sitemap.html格式的网站地图主要用来方便用户的浏览使用,并不能起到XMLSitemap 所起的作用,所以最好是两者都要有。
(4)登陆百度站长平台,点击链接提交,填写sitemap.xml对应的url地址,如图4,图5:
图4 生成网站地图步骤4
图5 生成网站地图步骤5
提交完成之后百度搜索引擎蜘蛛会对我们的网站进行抓取,大量案例证明,添加网站地图能加速网站内容收录速度,提升网站收录率。但是这个要建立在网站内容质量符合搜索引擎抓取标准,如果网站内容质量太低,就算使用网站地图也是无济于事的。如果还有没添加网站地图的朋友可以使用小爬虫sitemap生成工具进行添加!