输出:爬取该网站所有页面的测试相关前言资讯和技术文章的
文章链接、标题及阅读量、点赞数,发表日期
Beautifulsoup4官方文档如下,点击可以进行系统地学习了解:。
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful
Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
使用pip3安装,在命令窗口中的安装命令分别如下:
这里name来制定标签的名字,attrs来设置标签的一些参数设置,这里只拿出了href属性,并且使用pile("\d人阅读"))
另外为了拿到所有页面的信息,这里定义了一个多页函数
如此一来,基本上就已经将该博客的所有文章链接,标题,阅读量爬出来了。