在Python中读写csv文件时出现了乱码
前言
本期主要带来Python 程序采集到的数据,保存成 CSV 格式的文件时出现了乱码的解决办法
问题展示
with open('beike.csv','a+', newline='',encoding='utf-8') as file:
分析及解决办法
encoding
是编码的意思,在python中,Unicode类型是作为编码的基础类型。
这是由于文件的编码格式和python默认的编码格式不一致导致的,只需要将编码格式utf-8
改为utf-8-sig
即可
with open('beike.csv','a+', newline='',encoding='utf-8-sig') as file:
UTF-8和UTF-8-SIG的区别
1、”utf-8“ 是以字节为编码单元,它的字节顺序在所有系统中都是一样的,没有字节序问题,因此它不需要BOM,所以当用"utf-8"编码方式读取带有BOM的文件时,它会把BOM当做是文件内容来处理, 也就会发生类似上边的错误.
2、“uft-8-sig"就是"带有签名的utf-8”, 因此"utf-8-sig"读取带有BOM的"utf-8文件时"会把BOM单独处理,与文本内容隔离开,也是我们期望的结果.
避免乱码的注意事项
为了避免乱码问题,可以注意以下几点:
1.确认编码
在读取和写入CSV文件时,要确保使用的编码方式与文件本身的编码方式一致。常见的编码方式有UTF-8、GBK等。
2.避免非标准字符
如果数据中包含非标准字符,可能会导致乱码问题。在处理CSV文件时,要确保数据符合所使用的编码规范,避免使用非法字符。
3.校验数据
对于从外部来源获取的CSV文件,最好进行校验和清洗,确保数据完整性和准确性。可以使用Pyho中的数据清洗库,例如pandas,对数据进行预处理。
4.使用合适的库
在Python中,有很多库可以读写CSV文件,例如csv、pandas等。选择合适的库可以简化操作,提高效率。如果使用pandas)库,可以通过read_csv()和to_csv()函数读写CSV文件。