Chào các anh em trong diễn đàn,
Dạo này mình đang tìm hiểu cách để tự động hóa việc lấy dữ liệu từ các trang web về để cập nhật vào file Excel báo cáo. Công việc này lặp đi lặp lại khá tốn thời gian mà lại dễ sai sót.
Mình có tìm hiểu thì thấy Python có vẻ là một giải pháp rất tiềm năng cho việc này, đặc biệt là với các thư viện như requests để lấy dữ liệu HTML và pandas để xử lý, sau đó lưu vào file Excel.
Cụ thể, mình đang muốn lấy bảng dữ liệu về tỷ giá hối đoái từ một trang web tin tức tài chính uy tín. Mình đã thử dùng requests để fetch HTML về, nhưng việc trích xuất bảng dữ liệu từ đống HTML đó khá là phức tạp. Mình có thấy một số bài viết dùng BeautifulSoup hoặc lxml để parse HTML, nhưng mình vẫn hơi băn khoăn về cách làm sao để xác định chính xác thẻ HTML chứa bảng dữ liệu cần lấy.
Có anh em nào đã từng làm việc tương tự, tức là tự động hóa lấy dữ liệu từ web về Excel bằng Python chưa? Các bạn có thể chia sẻ kinh nghiệm hoặc các bước cơ bản, hoặc gợi ý về thư viện nào hiệu quả nhất cho việc này không ạ?
Mình đang nhắm tới việc có thể chạy script này hàng ngày để file Excel luôn được cập nhật mới nhất. Rất mong nhận được sự giúp đỡ từ cộng đồng!
Xin cảm ơn!