Menu

Tự động cập nhật dữ liệu từ nhiều file PDF vào Excel bằng Power Query

Kha Cường Thoa 11/04/2026 11:04 214 lượt xem 1 trả lời

Chào mọi người,

Dạo này công ty mình có một bộ báo cáo gửi về dưới dạng file PDF, số lượng cũng kha khá. Mỗi lần nhận về là lại phải ngồi copy-paste thủ công từ PDF sang Excel, vừa tốn thời gian mà lại dễ sai sót. Sau khi vật lộn mấy ngày, mình phát hiện ra Power Query có thể giải quyết vụ này một cách ngon lành!

Cách làm của mình như sau:

  • Đầu tiên, mình vào Data -> Get Data -> From File -> From PDF.
  • Sau đó, mình chọn đến thư mục chứa các file PDF báo cáo. Power Query sẽ hiển thị danh sách các bảng, trang mà nó nhận diện được trong các file PDF đó.
  • Mình chọn những bảng/trang cần thiết, rồi nhấn Transform Data để vào Power Query Editor.
  • Ở đây, mình sẽ tiến hành làm sạch dữ liệu: loại bỏ các cột thừa, đổi tên cột, sửa kiểu dữ liệu, lọc bớt các dòng không cần thiết... (mấy bước này chắc mọi người quen thuộc rồi ha).
  • Nếu các file PDF có cấu trúc hơi khác nhau một chút, mình có thể dùng các hàm để xử lý, ví dụ như Table.Combine để gom các bảng lại, hoặc Table.TransformColumns để xử lý từng cột riêng biệt.
  • Cuối cùng, mình nhấn Close & Load To... để nạp dữ liệu vào một sheet mới trong file Excel của mình.

Điểm hay là sau này khi có file PDF mới, chỉ cần bỏ vào cùng thư mục, sau đó vào Excel, chuột phải vào bảng dữ liệu và chọn Refresh là mọi thứ sẽ tự động cập nhật. Tiết kiệm được khối thời gian.

Không biết có anh em nào đã từng làm với file PDF bằng Power Query chưa? Chia sẻ thêm kinh nghiệm cho mọi người với nhé!

2

Hay quá bạn ơi! Mình cũng đang đau đầu với mấy file PDF tương tự. Cảm ơn bạn đã chia sẻ cách dùng Data -> Get Data -> From File -> From PDF. Mình thử làm theo thì Power Query hiển thị ra mấy cái "Table" và "Page".

Không biết bạn chọn cái nào để lấy dữ liệu chính xác nhất vậy? Với lại, nếu cấu trúc bảng trong các file PDF nó hơi khác nhau một chút thì có cách nào xử lý tự động được không?

1

Bạn cần đăng nhập để trả lời chủ đề này.

Đăng nhập Đăng ký