机器学习2-numpy和pandas的常用操作
numpy
- numpy创建数组及基础属性
numpy是数据处理的基础,pandas也是基于numpy的,首先是numpy数组的创建。
一般我们默认导入了一下库
import numpy as np
import pandas as pd
1.numpy创建数组及基础属性
arr=np.array([[1,2,3],[4,5,6],[7,8,9]])
numpy的核心特征之一就是N-维数组对象----ndarray。一个ndarray的每个元素均为相同类型
numpy的基础属性:shape ,dtype ,ndim, size
每一个数组都有一个shape属性用来表征数组每一维度的数量;每个数组都有一个dtype属性用来描述数组的数据类型。ndim返回数组的维数。size返回数组元素个数。
- 生成随机数
生成无约束条件的随机数
生成指定shape的均匀随机数
生成符合正太分布的随机数
- random具体函数用法
- 一维数组索引
- 布尔索引
只有索引为True的会返回,所以可以根据这一特点筛选想要的数据
- 多维数组的索引
这是一个二维数组,假如我们要取12这个元素,那么我们要找出12所在的行列索引,中间用逗号隔开
对二维数组的切片与一维数组类似
也可以逻辑索引和切片混合
- Numpy矩阵介绍
矩阵的生成
矩阵运算
- Numpy读写二进制文件
- Numpy读写文本文件
pandas
- pandas读取文本文件
一般使用pd.read_csv读取csv文件,read_table读取文本文件。两者的参数基本相同
- pandas读取excel文件
- 将数据框存储为excel文件
这样保存数据左边也会出现一列从0开始的index,可以加参数index
- 构建数据框
创建DataFrame,可以用列表充当data
- 按行列名称访问数据框中的元素
当数据框的数量较大的时候,按顺序访问较为麻烦,这时后可以采用按行列名称访问数据框中的元素。
先构建一个新的数据框
使用loc函数进行名称的访问
- 转换成时间类型数据
- groupby分组操作
从中提取三列数据,以’order_id’为分组依据