Pandas教程（二）—— 不同格式的数据读取

前言：几种常用数据格式的介绍

csv文件

1. 逗号分隔值文件，以纯文本形式（记事本）存储表格数据

2. 它是一种平面文件：即只存储数据和文字，不能存储公式、图表等

3. 更适合存储大数据，一般用来批量一维或二维存储数据

4. csv、tsv、txt都属于文本文件，只是csv以逗号分隔，tsv以制表符Tab隔开，而txt没有具体要求（逗号、制表符、空格等都可）

CSV文件的存储方式

Excel文件

1. Excel是一个电子表格，将文件保存为自己的专有格式，即xls或xlsx

2. Excel是一个二进制文件，它不仅可以存储数据，还可以对数据进行操作

3. 不适合处理大数据

JSON数据

1. JSON是一种轻量级的数据交换格式，用于存储和传输结构化数据

2. JSON一般存储与Web浏览器中，是一种在各个编程语言中流通的数据格式（类似英语）

3. JSON 数据的书写格式是键（名称）值对

XML、HXML格式

1. XML是一种标记语言，被设计用来传输和存储数据（同JOSH），其焦点是数据的内容

2. HTML 是超文本标记语言，被设计用来显示数据，其焦点是数据的外观

1.在python中新建文件

文件类型	新建方法
csv和txt（纯文本文件）	pd.to_csv（路径）
excel	pd.to_excel（路径）
sql	pd.to_sql（路径）

新建文件方法的几个参数：

sep：分隔符

na_rep= : 缺失值标注（默认为空字符串）

index = : 是否写入行的标签（默认True）

header = ：是否写入列的标签（默认True）

import pandas as pd
import numpy as np

road = "D:\python code\pycharm\表格.xlsx"
data = pd.DataFrame(np.arange(9).reshape(3, 3))
print(data)
data.to_excel(road,index=False,header=False)

2.读写csv和txt文本文件

函数	描述
pd.read_csv（path）	从文件读取分割好的数据，默认分隔符为逗号，
pd.read_table（path）	从文件读取分割好的数据，默认分隔符为制符表 \t
pd.read_clipboard（）	从粘贴板读取数据

读写文本文件方法的几个参数：

sep =：文件的分隔符；如果文件中分隔符不止一个，一般输入一个正则表达式 “\s+”

header = ：默认第一行为列名，如果不是，则输入None

names = : 指定列名列表，和header搭配使用

index_col = : 指定一个列，用作行名（可以输入索引名或索引编号）

skiprows =：从开头起，需要跳过的行数或行号列表

nrows =：从文件开头处需要读入的行数

na_values =：需要用Na替换的值序列

3.读取Excel文件

操作基本和文本文件差不多（最好先装好第三方包 xlrd和openpyxl）

函数	描述
pd.read_excel（path）	读入excel文件（参数参考读取文本文件） sheet_name = ：选excel中的哪个工作表（左下角）
pd.to_excel（path）	新建（保存）excel文件

函数

描述

pd.read_excel（path）

读入excel文件（参数参考读取文本文件）

sheet_name = ：选excel中的哪个工作表（左下角）

pd.to_excel（path）

新建（保存）excel文件

import pandas as pd
road = "E:\python 资料\孙兴华 数据分析教程\Pandas课件\课件\pandas教程\课件001-005\读取文件.xlsx"
data = pd.read_excel(road,header= None,
                     names=["序号","姓名","年龄","手机","地址","日期"],
                     index_col = 0) #读取文件
print(data)
data.to_excel(road) #保存文件