Chào các anh em trong diễn đàn,
Dạo này mình đang làm quen với việc tự động hóa nhiều tác vụ liên quan đến dữ liệu, không chỉ giới hạn ở Excel mà còn cả các file văn bản dạng TXT hay file log nữa. Thấy trong chuyên mục Tin học mở rộng có nhiều bài hay về Python và Power BI, mình cũng muốn chia sẻ một chút kinh nghiệm nhỏ mình vừa vọc vạch được.
Nhiều lúc chúng ta có các file log hệ thống hoặc file văn bản chứa thông tin cần trích xuất, xử lý rồi đưa vào Excel để phân tích. Làm thủ công thì rất mất thời gian, nhất là với các file lớn.
Cách của mình là dùng Python để đọc các file này, sau đó dùng các biểu thức chính quy (regex) để trích xuất thông tin cần thiết. Ví dụ, với một file log có định dạng:
[2023-10-27 10:00:00] INFO: User 'admin' logged in.
[2023-10-27 10:05:15] ERROR: Database connection failed.
[2023-10-27 10:10:30] INFO: Processing request ID 12345.
Mình có thể dùng Python để trích xuất thời gian, mức độ (INFO/ERROR) và nội dung thông báo.
Sau khi trích xuất xong, mình sẽ lưu kết quả vào một file CSV hoặc trực tiếp ghi vào một file Excel mới bằng thư viện pandas. Điều này giúp việc đưa dữ liệu vào Excel trở nên cực kỳ đơn giản.
Anh em nào đã từng làm qua việc này hoặc có cách nào hay hơn để xử lý các file văn bản, log file rồi đưa vào Excel thì chia sẻ thêm nhé. Mình đang tìm hiểu thêm về cách kết hợp với Power BI để visualize dữ liệu từ các nguồn này nữa.
Cảm ơn mọi người đã đọc bài!