Chào các bác, dạo này em đang mày mò dùng Python để xử lý mấy file Excel báo cáo bán hàng. Công việc của em là cần trích xuất dữ liệu từ hàng chục file Excel cùng cấu trúc, nhưng chỉ lấy những dòng có điều kiện nhất định (ví dụ: chỉ lấy dữ liệu của chi nhánh 'Hà Nội' hoặc chỉ lấy các đơn hàng có giá trị trên 1 triệu).
Trước đây em hay dùng Power Query nhưng với lượng file lớn và điều kiện lọc phức tạp, đôi khi nó hơi chậm và khó tùy chỉnh. Em nghĩ đến việc dùng Python và Pandas để làm việc này. Ai đã từng làm qua có thể chia sẻ kinh nghiệm không ạ?
Em hình dung là sẽ viết một script để:
- Duyệt qua tất cả các file Excel trong một thư mục.
- Mở từng file, đọc dữ liệu vào Pandas DataFrame.
- Áp dụng các điều kiện lọc (ví dụ:
df[df['ChiNhanh'] == 'Hà Nội']). - Gom các DataFrame đã lọc lại thành một DataFrame lớn duy nhất.
- Xuất kết quả ra một file Excel mới.
Em đang phân vân không biết nên dùng thư viện nào ngoài Pandas để đọc và ghi file Excel cho hiệu quả nhất với nhiều định dạng khác nhau (ví dụ: file .xls, .xlsx). Thư viện openpyxl hay xlrd/xlwt thì có ưu nhược điểm gì khi kết hợp với Pandas ạ?
Rất mong nhận được sự chỉ dẫn từ các cao thủ Python trong Excel!