pandas && 强大的数据操作处理程序

安装

pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

# excel支持
pip install openpyxl -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install xlsxwriter -i https://pypi.tuna.tsinghua.edu.cn/simple

连接到数据
支持读取多张数据：CSV,JSON,Excel,mysql等。
具体可以参考：https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html
api设计的非常简洁：

读取：read_csv , read_json , read_excel,read_sql
写入：to_csv , to_json，to_excel , to_sql

连接到mysql

pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install sqlalchemy -i https://pypi.tuna.tsinghua.edu.cn/simple 

# 增加pandas库的导入
import pandas as pd

# 添加SQLAlchemy的导入
from sqlalchemy import create_engine

# 示例用法
if True:
 engine = create_engine(
 "mysql+pymysql://root:password@192.168.0.10:33318/renren_cloud_basic"
 )
 query = "SELECT * FROM park_user"
 # 使用chunksize参数来实现流式处理
 df = pd.read_sql(query, engine)
 # 显示数据的结构和数据类型
 print(df.info())
 # 显示列名
 print(df.columns)

连接到mysql的额外操作

read_sql_table(table_name,connection)
read_sql_query(sql,connection)
read_sql(sql,connection)

操作数据

获取数据形状

row_size, col_size = grouped.shape
log.info(f"row_size:{row_size},col_size:{col_size}")

# row_size:13,col_size:7

数据清洗：提取数据到新的列

# 将月份列提取为年
dataFrame["年份"] = pd.to_datetime(dataFrame["月份"]).dt.year

数据清洗：清洗空值

数据清洗：清洗格式错误数据

数据清洗：清洗错误数据

数据清洗：清洗重复数据

分组聚合

grouped = (
 dataFrame.groupby(["客户名称", "合同编号", "年份"])
 .agg(
 {
 "减免总金额": "sum",
 "政策减免金额": "sum",
 "运营减免金额": "sum",
 "其他减免金额": "sum",
 }
 )
 .reset_index() # 使分组变成一个平面
)

# 设置索引列的名称为“序号”
grouped.index.name = "序号"

筛选数据

# 提取整列数据
print(grouped["客户名称"])

# 筛选客户名称列数据
print(grouped[grouped["客户名称"] == "山东智拓大数据有限公司"])

写入Eexcel时设置样式
pandas是做数据处理的，默认导出并不能设置样式、合并单元格等，需要记住其他工具。

# 自定义写入程序，使用xlsxwriter写入
with pd.ExcelWriter("./files/output.xlsx", engine="xlsxwriter") as writer:

 # 直接写入数据，没有样式
 # grouped.to_excel(writer, sheet_name="Sheet1", startrow=1, startcol=1, index=True)

 # 获取工作表
 workbook = writer.book
 worksheet = None
 # 如果worksheet不存在，则创建一个工作表
 if "Sheet1" in writer.sheets:
 worksheet = writer.sheets["Sheet1"]
 else:
 worksheet = workbook.add_worksheet("Sheet1")

 # 创建样式
 default_format = {
 "bold": False,
 # 边框
 "border": 1,
 # 垂直居中
 "valign": "vcenter",
 # 自动换行
 "text_wrap": True,
 # 水平居中
 # "align": "center",
 # 字体大小
 "font_size": 9,
 }

 # 创建样式
 cell_format_default = workbook.add_format(default_format)
 cell_format_head = workbook.add_format(
 {
 **default_format,
 **{
 "align": "center",
 "bold": True,
 },
 }
 )

 # 设置列的宽度，单位是多少个字符，一个中文占两个字符
 worksheet.set_column("A:A", 10)
 worksheet.set_column("B:B", 30)
 worksheet.set_column("C:C", 20)
 worksheet.set_column("E:H", 12)

 # 插入logo图片
 worksheet.insert_image(
 "A1",
 "./files/logo.png",
 {
 "x_scale": first_row_height / logo_image_height,
 "y_scale": first_row_height / logo_image_height,
 "x_offset": 5,
 "y_offset": 5,
 },
 )
 # 合并单元格
 worksheet.merge_range("A1:B1", "", cell_format_head)
 worksheet.merge_range("C1:H1", "租金减免表", cell_format_head)
 # 设置行高，单位是像素
 worksheet.set_row(0, first_row_height)

 # 增加序号列
 worksheet.write("A2", "序号", cell_format_head)
 worksheet.write_column("A3", range(1, len(grouped) + 1), cell_format_head)

 # 计算行和列的偏移量
 row_offset = 2
 col_offset = 1

 # 写入数据并设置样式，使用xlsxwriter作为驱动引擎时，需要将数据与样式一起写入，并不能直接修改样式
 for row_num, row_data in grouped.iterrows():
 for col_num, col_data in enumerate(row_data):
 worksheet.write(
 row_num + row_offset,
 col_num + col_offset,
 col_data,
 cell_format_default,
 )

 # 合并合同编号列，如果连续的行数据相同，则合并
 start_row = 0
 for row_num, row_data in grouped.iterrows():
 current_value = row_data["合同编号"]
 next_row = row_num + 1
 next_value = (
 grouped.iloc[next_row]["合同编号"] if next_row < len(grouped) else None
 )
 if current_value != next_value:
 log.info(f"{start_row} - {row_num} - {current_value}")
 if row_num - start_row > 0:
 worksheet.merge_range(
 start_row + row_offset,
 grouped.columns.get_loc("合同编号") + col_offset,
 row_num + row_offset,
 grouped.columns.get_loc("合同编号") + col_offset,
 current_value,
 cell_format_default,
 )
 start_row = next_row