Dạo này mình đang thử nghiệm dùng Python để xử lý dữ liệu Excel thay vì chỉ dùng các hàm có sẵn. Thấy nó mạnh mẽ và linh hoạt ghê.
Hôm nay mình muốn chia sẻ một ví dụ nhỏ về việc gom nhóm (group by) và tổng hợp dữ liệu từ một file Excel. Giả sử mình có một file Excel chứa dữ liệu bán hàng với các cột như Sản phẩm, Khu vực, Doanh thu.
Mình muốn biết tổng doanh thu của từng sản phẩm ở mỗi khu vực. Thay vì dùng PivotTable, mình thử viết một đoạn script Python ngắn gọn bằng thư viện pandas:
import pandas as pd
# Đọc dữ liệu từ file Excel
df = pd.read_excel('du_lieu_ban_hang.xlsx')
# Gom nhóm theo Sản phẩm và Khu vực, sau đó tính tổng Doanh thu
ket_qua = df.groupby(['Sản phẩm', 'Khu vực'])['Doanh thu'].sum()
# In kết quả
print(ket_qua)
# Có thể lưu kết quả ra file Excel mới nếu muốn
# ket_qua.to_excel('tong_doanh_thu.xlsx')Kết quả trả về sẽ là một Series chứa tổng doanh thu cho mỗi cặp (Sản phẩm, Khu vực). Cách này rất tiện khi dữ liệu lớn hoặc cần thực hiện nhiều phép tổng hợp khác nhau.
Mọi người có kinh nghiệm gì hay với Python trong Excel thì chia sẻ thêm nhé!