Python中find()matlab中size函数用法的参数有哪些呢?

分类: 电脑办公 使用软件: python 难度: 基础入门 课时: 60节(已完结)

网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
通俗地讲,我们把互联网比作一张大蜘蛛网,每个站点资源比作蜘蛛网上的一个结点,爬虫就像一只蜘蛛,按照设计好的路线和规则在这张蜘蛛网上找到目标结点,获取资源。


为什么我们需要使用爬虫呢?
大家可以想象一下一个场景:你非常崇拜一个微博名人,对他的微博非常着迷,你想把他十年来微博上的每一句话摘抄下来,制作成名人语录。这个时候你怎么办呢?手动去 Ctrl+C 和 Ctrl+V 吗?这种方法确实没错,数据量小的时候我们还可以这样做,但是数据成千上万的时候你还要这样做吗?
我们再来想象另一个场景:你要做一个新闻聚合网站,每天需要定时去几个新闻网站获取最新的新闻,我们称之为 RSS 订阅。难道你会定时去各个订阅网站复制新闻吗?恐怕个人很难做到这一点吧。
上面两种场景,使用爬虫技术可以很轻易地解决问题。所以,我们可以看到,爬虫技术主要可以帮助我们做两类事情:一类是数据获取需求,主要针对特定规则下的大数据量的信息获取;另一类是自动化需求,主要应用在类似信息聚合、搜索等方面。


从爬取对象来看,爬虫可以分为通用爬虫和聚焦爬虫两类。
通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充到整个 Web,主要为搜索引擎和大型 Web 服务提供商采集数据。这类网络爬虫的爬取范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低。例如我们常见的百度和谷歌搜索。我们输入关键词,它们会从全网去找关键词相关的网页,并且按照一定的顺序呈现给我们。

虎课网为您提供字体设计版块下的 bs4中find函数及修改数据-python办公自动化之网络实战篇图文教程,本篇教程使用软件为Python(3),难度等级为初级练习,下面开始学习这节课的内容吧!

本节课主要讲解【第14章 bs4中find函数及修改数据】,课上将会介绍按标签属性搜索和修改文档树的方法,感兴趣的同学就一起来学习吧。

那就开始今天的教程咯。

1. 当遇到不记得对应的标签名,只记得链接对应的属性名和链接的一小部分内容时,可以按照标签属性搜索,如案例所示。

2. 当遇到不记得标签名,只记得其中的一个属性名时,我们可以直接将它的属性和属性对应的值代入find_all函数,运行后就可以得到我们需要的标签。

3. 当遇到不记得标签名和属性对应的值,只记得属性名时,我们可以搜索带有该属性的标签,运行后就可以得到文件中所有包含这个属性的内容。

4. 当遇到文档树很大造成搜索非常慢,而且我们也不需要全部的结果时,可以使用limit参数限制返回结果的数量,如果结果只要1个,那么对应的limit就等于1。

5. 例如我们要搜索rel_soup文档里对应的标签th,但结果只要一个,这时我们可以把limit设置为等于1,运行后就会只得到1个标签。

6. Find直接返回结果,相当于对find_all设置了limit=1的返回结果;如案例中,运行后的结果都是只有一个。

7. Beautiful Soup的强项是文档树的搜索,但同时也可以方便的修改文档树,【注意】它只是修改文档树,并不是直接修改html文件内容。

8. 如案例所示,我们可以输入代码【print(rel_soup.td.string)】搜索td的标签,得到的文档是内容1,也可以对它的文档树进行修改的方法。

10. 本次课到这里就结束了。

以上就是 bs4中find函数及修改数据-python办公自动化之网络实战篇图文教程的全部内容了,你也可以点击下方的视频教程链接查看本节课的视频教程内容,虎课网每天可以免费学一课,千万不要错过哦!


我正在使用美丽的汤(在Python中).我有这样隐藏的输入对象:

我要回帖

更多关于 matlab中size函数用法 的文章

 

随机推荐