Chào mọi người,
Dạo này mình có dự án phải xử lý rất nhiều file PDF chứa dữ liệu bảng biểu. Việc copy-paste thủ công từ từng file PDF sang Excel vừa tốn thời gian, vừa dễ sai sót. Sau một hồi mày mò, mình đã tìm ra cách dùng Power Query để tự động hóa hoàn toàn quá trình này. Nay chia sẻ lại cho anh em nào đang gặp tình huống tương tự.
Các bước thực hiện như sau:
- Đầu tiên, bạn cần gom tất cả các file PDF cần xử lý vào chung một thư mục.
- Mở Excel, vào tab Data -> Get Data -> From File -> From Folder.
- Chọn thư mục chứa các file PDF của bạn, nhấn OK.
- Excel sẽ hiển thị danh sách các file trong thư mục. Nhấn vào nút Combine & Transform Data (hoặc Combine & Load nếu bạn không cần chỉnh sửa gì thêm).
- Power Query sẽ yêu cầu bạn chọn một file mẫu để xác định cách lấy dữ liệu. Thường thì bạn chỉ cần chọn Page 1 hoặc bảng đầu tiên trong file PDF đó.
- Sau khi Power Query xử lý xong, bạn sẽ có một bảng tổng hợp dữ liệu từ tất cả các file PDF. Lúc này, bạn có thể tiến hành các bước làm sạch, biến đổi dữ liệu cần thiết trong Power Query Editor (lọc cột, đổi tên, thay thế giá trị...).
- Cuối cùng, nhấn Close & Load để nạp dữ liệu về Excel.
Với cách này, mỗi khi có thêm file PDF mới, bạn chỉ cần cho vào thư mục và làm mới dữ liệu là xong. Rất tiện lợi!
Chúc mọi người thành công!