机器学习2-numpy和pandas的常用操作

numpy

- numpy创建数组及基础属性

numpy是数据处理的基础，pandas也是基于numpy的，首先是numpy数组的创建。

一般我们默认导入了一下库

import numpy as np
import pandas as pd

1.numpy创建数组及基础属性

arr=np.array([[1,2,3],[4,5,6],[7,8,9]])

numpy的核心特征之一就是N-维数组对象----ndarray。一个ndarray的每个元素均为相同类型

numpy的基础属性：shape ，dtype ，ndim， size

每一个数组都有一个shape属性用来表征数组每一维度的数量；每个数组都有一个dtype属性用来描述数组的数据类型。ndim返回数组的维数。size返回数组元素个数。

- 生成随机数

生成无约束条件的随机数

生成指定shape的均匀随机数

生成符合正太分布的随机数

- random具体函数用法

- 一维数组索引

- 布尔索引

只有索引为True的会返回，所以可以根据这一特点筛选想要的数据

- 多维数组的索引

这是一个二维数组，假如我们要取12这个元素，那么我们要找出12所在的行列索引,中间用逗号隔开

对二维数组的切片与一维数组类似

也可以逻辑索引和切片混合

- Numpy矩阵介绍

矩阵的生成

矩阵运算

- Numpy读写二进制文件

- Numpy读写文本文件

pandas

- pandas读取文本文件

一般使用pd.read_csv读取csv文件，read_table读取文本文件。两者的参数基本相同

- pandas读取excel文件

- 将数据框存储为excel文件

这样保存数据左边也会出现一列从0开始的index，可以加参数index

- 构建数据框

创建DataFrame,可以用列表充当data

- 按行列名称访问数据框中的元素

当数据框的数量较大的时候，按顺序访问较为麻烦，这时后可以采用按行列名称访问数据框中的元素。

先构建一个新的数据框

使用loc函数进行名称的访问

- 转换成时间类型数据

- groupby分组操作

从中提取三列数据，以’order_id’为分组依据