写出R代码,利用基础包中的数据集` airquality `,完成以下操作?

版权声明:本文为博主原创文章,遵循版权协议,转载请附上原文出处链接和本声明,KuangStudy,以学为伴,一生相伴!

  • #对向量的子集进行操作

  • #第一个参数代表第一列的内容,第二个参数表示第二列的内容

    #定义一个类似矩阵的数据框

    #数据框转换成矩阵,要求,第二个参数的数据类型必须一样

  • sort:对向量进行排序;返回排好序的内容

    order:返回排好序的内容的下标/多个排序标准

    x[order(x$v4,x$v2),](对整个数据框按照v4这一列进行排序,如果v4中有重复的元素,则按照v2排序)

  • split:根据因子或因子列表将向量或者其他对象进行分组,通常与lapply一起使用。

    split(x,f)(返回了列表,有3个水平,每个水平有5个元素)

  • 建立因子:f<-gl(3,5)(3代表这个因子包含3个水平,5代表每个水平下有5个元素)

    tapply(x,f,mean)(对向量x按照因子的水平进行分组,对每一组求均值)

  • 调用函数:s(4,0,1)(从均值为0,标准差为1的正态分布总体里调用4个数据)

    mapply(s,1:5,5:1,2)(1:5对应的4,即每一次抽取多少个数据出来,5:1对应的0,即分布的均值,2即为分布的标准差)

  • apply:沿着数组的某一维度处理数据

    例如:将函数用于矩阵的行或列

    虽然与for/while循环效率相似,但是只用一句话就可以完成

    apply(参数):apply(数组,维度,函数/函数名)

  • 第4章 重要函数的使用

    处理循环:R不仅有for/while循环语句(特点:需要些多行代码),还有更强大的实现循环的“一句话”函数。

    例:1.str(lapply)(其作用是把任意的R对象以一种整洁紧凑的形式显示出来)

    sapply:与lapply非常相似,它可以在允许的情况下对lapply的结果进行化简。结果列表元素长度均为1,返回向量;结果列表长度相同且大于1,返回矩阵;其他情况与lapply相同。

  • 向量化操作(vectorized operation):可以作用于向量、矩阵等结构,使得代码简洁、易于阅读、效率高。

  • x[!is.na(x)] (取x中不是缺失值的部分,!的意思是取反,即真变假)

    然后x[z]  y[z]就可以拿到都不是缺失值的元素

    进一步看complete函数的功能:

  • 第3章 操纵数据:构建子集(subsetting)

    1. []:提取一个或多个类型相同的元素

    2. [[]]:从列表或数据框中提取元素

    3. $:按名字从列表或数据框中提取元素

    补充:R语言的数组下表是从1开始而不是0开始

  • POSIXct:整数,常用于存入数据框

    POSIXlt:列表,还包含星期、年、月、日等信息

    p$sec(看一下有多少秒 秒是变量之一)

    如何把以不同格式表示的字符串转换成我们想要的类型:

  • 数据框(data frame):存储表格数据(tabular data),我们可以把数据框当成一种列表形式,其中各元素的长度是相同的(1.每个元素代表一列数据 2.每个元素的长度代表行数 3.元素类型可以不同)

  • 数据框(data frame):存储表格数据(tabular data),我们可以把数据框当成一种列表形式,其中各元素的长度是相同的(1.每个元素代表一列数据 2.每个元素的长度代表行数 3.元素类型可以不同)

  • 如果要判断一个向量中是否有缺失值:is.na()/is.nan()

  • 因子(factor):分类数据(有序/无序)

    table(x)对当前因子有整体性的了解

  • 列表(list):可以包含不同类型的对象

这个函数的功能比较强大,它首先将数据进行分组(按行),然后对每一组数据进行函数统计,最后把结果组合成一个比较nice的表格返回。根据数据对象不同它有三种用法,分别应用于数据框(data.frame)、公式(formula)和时间序列(ts):

我们通过 mtcars 数据集的操作对这个函数进行简单了解。mtcars 是不同类型汽车道路测试的数据框类型数据:

先用attach函数把mtcars的列变量名称加入到变量搜索范围内,然后使用aggregate函数按cyl(汽缸数)进行分类计算平均值:

by参数也可以包含多个类型的因子,得到的就是每个不同因子组合的统计结果:

公式(formula)是一种特殊的R数据对象,在aggregate函数中使用公式参数可以对数据框的部分指标进行统计:

 
 
 
 
 
 
 
 
 
 
 
 
 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

我要回帖

更多关于 R代码是啥 的文章

 

随机推荐