Chào các bác, hôm nay em muốn chia sẻ một chút kinh nghiệm về việc xử lý dữ liệu từ hóa đơn scan. Công ty em thỉnh thoảng nhận được hóa đơn dạng ảnh (PDF scan), việc nhập liệu thủ công tốn rất nhiều thời gian và dễ sai sót. Sau khi tìm hiểu, em đã áp dụng Power Query để tự động hóa phần nào quá trình này.
Về cơ bản, em sử dụng chức năng Text from Table/Image trong Power Query (phiên bản Excel 365 hoặc Power BI). Các bước chính như sau:
- Đưa ảnh hóa đơn vào Power Query.
- Sử dụng Text from Table/Image để Power Query nhận diện và trích xuất văn bản.
- Tiến hành làm sạch dữ liệu:
- Tách các cột thông tin như Mã số thuế, Tên công ty, Địa chỉ, Số tiền...
- Chuẩn hóa định dạng ngày tháng, số.
- Loại bỏ các dòng không cần thiết.
- Kết nối với nguồn dữ liệu gốc (nếu có) để đối chiếu hoặc bổ sung thông tin.
Cách này tuy không hoàn hảo 100% với mọi loại hóa đơn, đặc biệt là các hóa đơn có định dạng phức tạp hoặc chất lượng scan kém, nhưng nó đã giúp em tiết kiệm được kha khá thời gian. Có bác nào đã từng làm qua việc này chưa, chia sẻ thêm kinh nghiệm hoặc các hàm/thủ thuật hữu ích khác cho em học hỏi với ạ?
Em cảm ơn!