Chào các bác, dạo này em đang tập tành làm quen với Python để xử lý dữ liệu Excel cho nhanh. Thấy mấy bài viết về tự động hóa trên diễn đàn hay quá, nên em cũng muốn chia sẻ chút kinh nghiệm nho nhỏ của mình khi mới bắt đầu với thư viện Pandas.
Công việc của em thường xuyên phải làm báo cáo từ nhiều file Excel khác nhau, trước đây toàn copy-paste rồi dùng hàm Excel các kiểu, mất cả buổi. Từ ngày biết đến Pandas, mọi thứ nhẹ nhàng hẳn.
Tại sao nên dùng Pandas?
- Thao tác với dữ liệu dạng bảng (DataFrame) cực kỳ trực quan và mạnh mẽ.
- Đọc và ghi nhiều định dạng file (Excel, CSV, JSON...) dễ dàng.
- Hỗ trợ nhiều phép toán, thống kê, lọc, nhóm dữ liệu phức tạp.
- Tích hợp tốt với các thư viện Python khác để trực quan hóa (Matplotlib, Seaborn) hoặc xây dựng mô hình (Scikit-learn).
Bắt đầu với ví dụ đơn giản:
Giả sử em có một file Excel tên data.xlsx với các cột: Ngày, Sản phẩm, Số lượng, Đơn giá. Em muốn tính tổng doanh thu theo từng sản phẩm.
Code Python:
import pandas as pd
# Đọc file Excel
df = pd.read_excel('data.xlsx')
# Tính cột Doanh thu
df['Doanh thu'] = df['Số lượng'] * df['Đơn giá']
# Tính tổng doanh thu theo Sản phẩm
tong_doanh_thu_theo_san_pham = df.groupby('Sản phẩm')['Doanh thu'].sum()
print(tong_doanh_thu_theo_san_pham)
Kết quả sẽ là một Series hiển thị tổng doanh thu cho mỗi sản phẩm. Quá nhanh phải không ạ?
Đây chỉ là một ví dụ rất cơ bản. Pandas còn làm được nhiều thứ hơn thế nữa. Nếu các bác có câu hỏi hay kinh nghiệm gì hay về Python và xử lý dữ liệu, cùng thảo luận cho vui nhé!