Chào các bác, dạo này em đang loay hoay với việc tổng hợp dữ liệu từ nhiều file Excel và cả database để làm báo cáo. Công việc lặp đi lặp lại mỗi tháng tốn khá nhiều thời gian mà lại dễ sai sót. Em có tìm hiểu qua thì thấy Python có vẻ là một giải pháp khá mạnh mẽ cho việc này.
Cụ thể, em muốn tự động hóa việc:
- Đọc dữ liệu từ nhiều file Excel (cả file .xls và .xlsx) vào chung một DataFrame.
- Kết hợp dữ liệu từ các file này, có thể cần xử lý một số trường hợp dữ liệu không đồng nhất (ví dụ: tên cột khác nhau, định dạng ngày tháng khác nhau).
- Tạo ra một file Excel báo cáo tổng hợp cuối cùng, có thể kèm theo một vài biểu đồ đơn giản.
Em đã thử lướt qua một số thư viện như pandas và openpyxl. Pandas có vẻ rất mạnh cho việc xử lý dữ liệu, còn openpyxl thì để đọc/ghi file Excel. Tuy nhiên, việc xử lý các trường hợp dữ liệu phức tạp hoặc kết nối với database thì em vẫn còn hơi bỡ ngỡ.
Có bác nào đã từng làm qua hoặc có kinh nghiệm về việc này không ạ? Xin chỉ giáo cho em vài đường hướng hoặc gợi ý về các thư viện/công cụ phù hợp khác. Em cảm ơn!