如何在爬取的网页中筛选英文文章内容?

输出:爬取该网站所有页面的测试相关前言资讯和技术文章的
文章链接、标题及阅读量、点赞数,发表日期

Beautifulsoup4官方文档如下,点击可以进行系统地学习了解:。
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

使用pip3安装,在命令窗口中的安装命令分别如下:

这里name来制定标签的名字,attrs来设置标签的一些参数设置,这里只拿出了href属性,并且使用pile("\d人阅读"))

另外为了拿到所有页面的信息,这里定义了一个多页函数

如此一来,基本上就已经将该博客的所有文章链接,标题,阅读量爬出来了。


  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...

  • 这几天重新拾起了爬虫,算起来有将近5个月不碰python爬虫了。 对照着网上的程序和自己以前写的...

  • 关于bs4,官方文档的介绍已经非常详细了,传送:Beautifulsoup 4官方文档,这里我把它组织成自己已经消...

  • 距离那场梦魇已过去许久,跟优雨好好告别会,终是从那无止境的愧疚里有所解脱。萤也从梦境中找回了他得侄女,只有深红似乎...

上一篇《人民日报》的爬虫文章发布之后,收到了很不错的反馈,文中的爬虫代码也确实帮助到了很多人,我很开心。

跟读者们交流过程中,我也发现了一些比较共性的需求,就是 根据关键词筛选 新闻文章。

最初我的想法是,在爬取到全部文章数据的基础上,遍历文件夹,然后将正文中包含关键词的文章筛选出来。

如果你已经下载到了完整的新闻数据,那用这种方法无疑是最方便快捷的。但是如果没有的话,需要先爬取全部数据,再从中筛选符合条件的数据,无疑是有点浪费时间。

本篇文章,我将介绍两种方法,一种,是从现有数据中根据关键词筛选,另一种,是利用人民网的搜索功能,爬取关键词的搜索结果。

print("爬虫执行完毕!数据已保存至以下路径中,请查看!")

以上为本爬虫的全部代码,大家可以在此基础上进行修改来使用,仅供学习交流,切勿用于违法用途。

注:这里没有写正文爬取的代码,一是人民网文章正文爬取的函数在上一篇文章中已经写了,大家有需要的话可以自行整合代码;二是,爬取正文的话会引入一些其他的问题,比如链接失效,文章来源于不同网站,解析方式不同等问题,说来话长,本文主要以思路讲解为主。

1.4.2 爬到的数据展示

2. 利用现有数据筛选

如果你已经提前下载到了全部的新闻文章数据,那用这种方法无疑是最方便的,省去了漫长的爬取数据的过程,也省得跟反爬机制斗智斗勇。

以上是一个读者朋友爬取的人民日报新闻数据,包含从 19 年起至今的数据,每月一更新,应该可以满足很大一部分人对数据的需求了。

此外我还有之前爬的 18 年全年的数据,如果有需要的朋友,可以私聊找我要。

以如下图所示的目录结构为例。

假设我们有一些关键词,需要检测这些新闻文章中哪篇包含有关键词。

# 这里是你文件的根目录 # 遍历path路径下的所有文件(包括子文件夹下的文件) #将os.walk在元素中提取的值,分别放到root(根目录),dirs(目录名),files(文件名)中。 # 根目录与文件名组合,形成绝对路径。 # 检查文件中是否包含关键词,若包含返回True, 若不包含返回False # 如果包含关键词,打印文件名和匹配到的关键词

运行程序,即可从文件中筛选出包含关键词的文章。


我要回帖

更多关于 python爬取网页中的文章 的文章

 

随机推荐