Menu

Hỗ trợ gom dữ liệu từ nhiều file PDF về Excel mà không cần copy/paste thủ công

Ân Đức Thiện 09/06/2026 22:13 82 lượt xem 3 trả lời

Chào mọi người,

Dạo này mình đang phải xử lý một đống báo cáo được lưu dưới dạng PDF. Mỗi file PDF lại chứa một bảng dữ liệu mà mình cần tổng hợp lại vào một file Excel duy nhất để phân tích. Việc copy/paste thủ công từng bảng từ mỗi file PDF sang Excel tốn rất nhiều thời gian và dễ sai sót.

Mình đã thử tìm hiểu trên mạng nhưng chủ yếu là hướng dẫn gom dữ liệu từ nhiều file Excel chứ ít thấy nói về việc gom từ PDF. Có ai đã từng gặp trường hợp tương tự và có giải pháp nào hiệu quả không ạ?

Mình đang nghĩ đến các hướng sau:

  • Sử dụng công cụ bên thứ ba nào đó để chuyển đổi PDF sang Excel rồi mới gom.
  • Tìm cách nào đó để Excel có thể đọc trực tiếp dữ liệu từ file PDF.
  • Nhờ cao nhân nào có thể chia sẻ một đoạn VBA hoặc Power Query có thể giúp mình tự động hóa việc này.

Nếu có thể, mọi người chia sẻ thêm về cách xử lý các trường hợp PDF có cấu trúc không hoàn toàn giống nhau thì càng tốt ạ.

Cảm ơn mọi người đã đọc bài!

3

Chào bạn, mình hiểu nỗi khổ của bạn khi phải xử lý đống PDF đó. Đúng là copy/paste thủ công từ PDF sang Excel rất mất thời gian và dễ sai sót thật.

Mình đã từng làm việc này rồi, có một cách khá hiệu quả mà không cần dùng đến các phần mềm phức tạp. Bạn thử dùng tính năng Get Data from PDF trong Power Query của Excel xem sao. Excel phiên bản mới (từ 2016 trở lên) đều có tính năng này.

Bạn vào tab Data -> Get Data -> From File -> From PDF. Sau đó chọn file PDF của bạn, Excel sẽ tự động nhận diện các bảng có trong đó. Bạn chỉ cần chọn bảng cần lấy dữ liệu và "Load" vào Excel là xong.

Cách này mình thấy rất nhanh và chính xác, đặc biệt nếu cấu trúc bảng trong các file PDF của bạn tương đối giống nhau.

Bạn thử xem có hiệu quả không nhé!

2

Hay quá bạn ơi! Mình cũng đang đau đầu vụ này mà chưa biết làm sao. Power Query nghe quen quen nhưng chưa bao giờ dùng cho PDF.

Cho mình hỏi thêm chút là nếu các file PDF của mình có cấu trúc hơi khác nhau một chút (ví dụ: thứ tự cột, tên cột không giống hệt) thì Power Query có xử lý được không, hay mình vẫn phải chỉnh sửa nhiều sau khi import?

3

Mình cũng vừa vọc vạch vụ này xong, đúng là Power Query là "cứu cánh" cho bài toán này. Bạn thử cách trên là chuẩn rồi đó!

Về câu hỏi của bạn về việc cấu trúc file PDF khác nhau, Power Query có khả năng xử lý khá tốt. Với các trường hợp lệch thứ tự cột hoặc tên cột không quá khác biệt, bạn có thể dùng các chức năng "Transform Data" trong Power Query để chỉnh sửa trước khi load vào Excel. Ví dụ như "Replace Values" để đổi tên cột, hoặc "Reorder Columns".

Tuy nhiên, nếu cấu trúc quá khác nhau, ví dụ như có những cột chỉ có ở file này mà không có ở file kia, hoặc định dạng số liệu quá lung tung, thì có thể sẽ tốn công chỉnh sửa sau khi load hoặc cần viết các bước "M" (Power Query M language) phức tạp hơn.

Bạn cứ thử import từng loại file PDF xem sao, nếu gặp khó khăn cụ thể thì lại lên đây hỏi thêm nhé!

4

Bạn cần đăng nhập để trả lời chủ đề này.

Đăng nhập Đăng ký