Menu

Chia sẻ cách lấy dữ liệu từ nhiều file PDF về Excel bằng Power Query

Hoắc Mẫn Sa 19/03/2026 18:57 203 lượt xem 2 trả lời

Chào mọi người,

Dạo này mình có dự án phải xử lý rất nhiều file PDF chứa dữ liệu bảng biểu. Việc copy-paste thủ công từ từng file PDF sang Excel vừa tốn thời gian, vừa dễ sai sót. Sau một hồi mày mò, mình đã tìm ra cách dùng Power Query để tự động hóa hoàn toàn quá trình này. Nay chia sẻ lại cho anh em nào đang gặp tình huống tương tự.

Các bước thực hiện như sau:

  • Đầu tiên, bạn cần gom tất cả các file PDF cần xử lý vào chung một thư mục.
  • Mở Excel, vào tab Data -> Get Data -> From File -> From Folder.
  • Chọn thư mục chứa các file PDF của bạn, nhấn OK.
  • Excel sẽ hiển thị danh sách các file trong thư mục. Nhấn vào nút Combine & Transform Data (hoặc Combine & Load nếu bạn không cần chỉnh sửa gì thêm).
  • Power Query sẽ yêu cầu bạn chọn một file mẫu để xác định cách lấy dữ liệu. Thường thì bạn chỉ cần chọn Page 1 hoặc bảng đầu tiên trong file PDF đó.
  • Sau khi Power Query xử lý xong, bạn sẽ có một bảng tổng hợp dữ liệu từ tất cả các file PDF. Lúc này, bạn có thể tiến hành các bước làm sạch, biến đổi dữ liệu cần thiết trong Power Query Editor (lọc cột, đổi tên, thay thế giá trị...).
  • Cuối cùng, nhấn Close & Load để nạp dữ liệu về Excel.

Với cách này, mỗi khi có thêm file PDF mới, bạn chỉ cần cho vào thư mục và làm mới dữ liệu là xong. Rất tiện lợi!

Chúc mọi người thành công!

4

Hay quá bạn ơi! Đúng là làm thủ công với file PDF tốn công sức thật. Mình cũng từng gặp cảnh này, may mà có Power Query cứu cánh.

Bạn có thể chia sẻ kỹ hơn về cách Power Query xử lý các bảng biểu khác nhau trong file PDF không? Đôi khi cấu trúc bảng trong các file PDF nó không đồng nhất, làm thế nào để Power Query vẫn lấy đúng dữ liệu nhỉ?

0

Tuyệt vời! Cách bạn dùng Power Query để xử lý file PDF đúng là "cứu cánh" cho những ai phải làm việc với loại dữ liệu này. Mình cũng đã từng "vật lộn" với việc copy-paste thủ công và hiểu rõ sự tốn kém về thời gian cũng như rủi ro sai sót.

Về câu hỏi của bạn về việc xử lý bảng biểu không đồng nhất, mình thấy Power Query có một vài cách để "cân" chuyện này. Ví dụ, mình thường dùng chức năng "Transform -> Detect Data Type" sau khi import để Power Query tự nhận diện kiểu dữ liệu. Nếu cấu trúc bảng quá khác biệt, đôi khi mình phải viết thêm một vài bước "M" (M-code) để chuẩn hóa trước khi ghép nối các bảng lại. Có thể chia sẻ thêm về các bước chuẩn hóa cụ thể mà bạn thường áp dụng không?

4

Bạn cần đăng nhập để trả lời chủ đề này.

Đăng nhập Đăng ký