如何在爬取的网页中筛选英文文章内容？

AutoCAD | 朝鲜战争（1950-1953） | 炒股 | 扫地机器人 | 室内设计 | 美国留学 | 丹东市 | 方言 | matlab | 摩纳哥 | PHP | 机器学习 | 山阳县 | centos | 新西兰 | 细胞生物学 | 少数民族 | 工业机器人 | 直升机 | 大学专业 | 东海县 | 张宏伟 | 智利 | 视频会议 | 种植 | 在线教育 | 保险业 | 化学实验 | 首次公开募股（IPO） | C4D | 黄金投资 | 铅山县 | 女性主义 | 文案 | 莎车县 | 东京 | 电厂 | 情商 | iPad | 郭嘉 | 桌面游戏 | 按键精灵 | OneNote | 给排水 | 骑马与砍杀 | 媒体 | 阳信县 | 金融数学 | 小店区 | 航母 | 高中物理 | 插件 | 广告文案 | HTML | 植保无人机 | 外汇投资 | 德邦物流 | 创业团队 | 爬虫（计算机网络） | Spss数据分析 | 电脑硬件 | CSS | 易纲 | 房屋 | 电学 | 遗传学 | 航拍 | pdf | 白兰地 | 互联网创业 | 运载火箭 | 秦岭 | 徐州市 | 绿茶 | 风水堪舆学 | 整容 | Adobe After Effects | 3D Max | 传媒 | 文化差异 | CAD制图 | 民间借贷 | 计算机专业 | 老挝 | 江苏银行 | 韭菜 | 背景音乐（bgm） | 网盘 | 马克思主义 | 私募证券投资基金 | 亲子鉴定 | 外汇 | 虚拟机 | 摄影技巧 | 初中数学 | PMP | Microsoft SQL Server | 五行 | 央视 | 信托 | 公司法 | 软件开发 | 赎回 | 用户界面设计 | 退伍 | 美容整形 | 长城 | 3D打印机 | 塞浦路斯 | 景观设计 | 充电器 | 函数 | 分子生物学 | 名言 | 活动策划 | C#编程 | SEO | 创意 | 王兴 | Apple WATCH | 搜索引擎优化（seo） | 因果 | 宁晋县 | 火灾 | 动物保护 | 董卓 | 文身 | 产品 | 物联网 | 咖啡馆 | 幼儿园教师 | 电气工程及其自动化专业 | 人生规划 | 鱿鱼 | 基金定投 | Apple ID | 日本文化 | 后宫·甄嬛传（书籍） | 火影忍者 | 图形处理器（GPU） | 投资银行 | 建筑设计 | 大脑 | 生命 | 购机咨询 | 传统文化 | 希腊 | 3D | 组装机 | 摄影师 | 企业邮箱 | 语言学 | Microsoft Visual Studio | unity（游戏引擎） | 祛痘 | 国家开发银行 | 大城市 | 中药 | 佛法 | 创业想法 | 淘宝美工 | 气候 | 电风扇 | 黑洞 | .Net开发 | 广告人 | 嵌入式系统 | 图像处理 | 户外广告 | 益生菌 | 人性 | 理科 | 饮料 | 手工艺 | 几何学 | 港股 | 会计学习 | 进化 | 笔记本电脑 | 山地车 | 房地产开发商 | 电路设计 | 中国文化 | 五台山 | 快捷键 | 土地政策 | 汉服 | 显示器 | 茅台酒 | vmware虚拟机 | 重大疾病保险 | DJI大疆创新 | 核电站 | 养老 | 广州市 | Stm32 | 延安 | 嘉兴市 | 显卡 | 债券 |

你的位置：网站首页 >> 频道首页 >>爬虫（计算机网络） >>如何在爬取的网页中筛选英文文章内容？

如何在爬取的网页中筛选英文文章内容？

来源：蜘蛛抓取(WebSpider) 时间：2022-06-04 14:20 标签： python爬取网页中的文章

输出：爬取该网站所有页面的测试相关前言资讯和技术文章的
文章链接、标题及阅读量、点赞数，发表日期

Beautifulsoup4官方文档如下，点击可以进行系统地学习了解：。
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

使用pip3安装，在命令窗口中的安装命令分别如下：

这里name来制定标签的名字，attrs来设置标签的一些参数设置，这里只拿出了href属性，并且使用pile("\d人阅读"))

另外为了拿到所有页面的信息，这里定义了一个多页函数

如此一来，基本上就已经将该博客的所有文章链接，标题，阅读量爬出来了。

声明：本文讲解的实战内容，均仅用于学习交流，请勿用于任何商业用途！一、前言强烈建议：请在电脑的陪同下，阅读本文...
这几天重新拾起了爬虫，算起来有将近5个月不碰python爬虫了。对照着网上的程序和自己以前写的...
关于bs4，官方文档的介绍已经非常详细了,传送：Beautifulsoup 4官方文档,这里我把它组织成自己已经消...
距离那场梦魇已过去许久，跟优雨好好告别会，终是从那无止境的愧疚里有所解脱。萤也从梦境中找回了他得侄女，只有深红似乎...

上一篇《人民日报》的爬虫文章发布之后，收到了很不错的反馈，文中的爬虫代码也确实帮助到了很多人，我很开心。

跟读者们交流过程中，我也发现了一些比较共性的需求，就是 根据关键词筛选 新闻文章。

最初我的想法是，在爬取到全部文章数据的基础上，遍历文件夹，然后将正文中包含关键词的文章筛选出来。

如果你已经下载到了完整的新闻数据，那用这种方法无疑是最方便快捷的。但是如果没有的话，需要先爬取全部数据，再从中筛选符合条件的数据，无疑是有点浪费时间。

本篇文章，我将介绍两种方法，一种，是从现有数据中根据关键词筛选，另一种，是利用人民网的搜索功能，爬取关键词的搜索结果。

print("爬虫执行完毕！数据已保存至以下路径中，请查看！")

以上为本爬虫的全部代码，大家可以在此基础上进行修改来使用，仅供学习交流，切勿用于违法用途。

注：这里没有写正文爬取的代码，一是人民网文章正文爬取的函数在上一篇文章中已经写了，大家有需要的话可以自行整合代码；二是，爬取正文的话会引入一些其他的问题，比如链接失效，文章来源于不同网站，解析方式不同等问题，说来话长，本文主要以思路讲解为主。

1.4.2 爬到的数据展示

2. 利用现有数据筛选

如果你已经提前下载到了全部的新闻文章数据，那用这种方法无疑是最方便的，省去了漫长的爬取数据的过程，也省得跟反爬机制斗智斗勇。

以上是一个读者朋友爬取的人民日报新闻数据，包含从 19 年起至今的数据，每月一更新，应该可以满足很大一部分人对数据的需求了。

此外我还有之前爬的 18 年全年的数据，如果有需要的朋友，可以私聊找我要。

以如下图所示的目录结构为例。

假设我们有一些关键词，需要检测这些新闻文章中哪篇包含有关键词。

# 这里是你文件的根目录 # 遍历path路径下的所有文件（包括子文件夹下的文件） #将os.walk在元素中提取的值，分别放到root（根目录），dirs（目录名），files（文件名）中。 # 根目录与文件名组合，形成绝对路径。 # 检查文件中是否包含关键词,若包含返回True, 若不包含返回False # 如果包含关键词，打印文件名和匹配到的关键词

运行程序，即可从文件中筛选出包含关键词的文章。