搜索引擎蜘蛛在对网站进行抓取的过程中会对网站更新频率进行监控参考,从而对下次抓取时间进行合理安排,这样的策略可以有效提升搜索引擎Spider爬行效率,避免不必要的资源浪费。而对SEO来说,培养蜘蛛良好的抓取习惯更是能够帮助模块获取稳定排名维护的重要策略,那如何才能培养蜘蛛正确的抓取习惯?
众所周知,搜索引擎在没有任何辅助条件的情况下来判断更新频率是需要一段时间来观察的,而大量的时间消耗对搜索引擎和SEO来说并无益处,在这个时候就需要网站运营人员配合给出一个更新频率参照物,也就是页面时间因子。
①前端时间因子:
这里的前端时间因子添加是便于蜘蛛在抓取过程中充分理解当前页面的更新时间。
②源码时间因子:
而源码内的时间因子则是JSON-LD格式的提交方式,其作用是为了通知蜘蛛第一时间知晓页面的发布、更新以及互动时间,便于及时抓取。
需要注意的是,前端时间因子如果不是期望抓取频率在时、分、秒的策略中,建议只具体到日期即可,反之则具体到时分秒。
例如:更新时间:2020-6-29 和 更新时间:2020-6-29 13:11:42
通常我们在网站建设的时候会选择合适的cms内容管理系统或者自行开发,而这些系统在便于对内容重复修改的基础上也具备更新功能,所以时间因子的触发就要与页面更新联系起来,选择合适的频次对模块进行更新效果事半功倍。
当然,搜索引擎也不傻,它不会一味地只相信你告诉它的更新时间,搜索引擎自己也会对网页整体变化进行判断,而我们要做的就是通过页面调用逻辑给网页调取内容进行更新,就如同我们首页会在特定的时间范围内更新最新资讯的推荐入口一样。
了解搜索引擎抓取的同学都清楚,单单依靠非主体内容的配合更新是无法达到理想效果的,因为你的主体内容并没有发生变化,这个时候特定的频次下,主体内容丰富+相关内容调用更新能使效果更佳理想。这里我们要注意,对百度而言它更喜欢在原有基础上进行内容丰富。
以商业化SEO站点为例,大型站点的数据甚至能达到几百万几千万条,很显然我们无法做到对所有内容都进行丰富,这个时候我们需要的是更新策略的细分。
我们以商品着陆页为例,通常一个站点的核心内容仅在整体网站内容中占小部分的比例,而我们对站内模块更新的策略也不是针对每一个URL。
所以我们在更新策略中可以针对那些核心模块进行差异化运营,甚至在核心模块中还存在核心的20%占比。
网站地图是网站抓取和更新的重要途径之一,在更新和抓取的策略中,我们往往会忽视对网站地图内URL的更新频次进行同步设置,这就好比你在问一个人问题,而他给了你两个不同的答案,这个时候你对他给你的结果信任度并不会高。
搜索引擎也是同理,如果你在不同的途径中告诉它相同的答案,那这个时候你给出的信息就会具备一定的参考价值。