Chào các bác, dạo này em đang mày mò về Python để tự động hóa mấy tác vụ xử lý dữ liệu văn bản lặp đi lặp lại trong công việc. Sau khi tìm hiểu thì em thấy thư viện Pandas thực sự là một công cụ cực kỳ mạnh mẽ, không chỉ cho Excel mà còn cho cả xử lý dữ liệu dạng bảng nói chung.
Nhiều bác ở đây có lẽ đã quen với việc dùng Pandas để đọc file Excel hoặc CSV, nhưng ít ai biết nó còn có thể giúp chúng ta làm việc với dữ liệu văn bản hiệu quả hơn nhiều. Ví dụ, khi các bác cần trích xuất thông tin từ một cột chứa chuỗi ký tự phức tạp, hay thực hiện các phép biến đổi như:
- Cắt bỏ khoảng trắng thừa ở đầu và cuối chuỗi: Dùng
.str.strip() - Chuyển đổi chữ hoa/thường: Dùng
.str.lower()hoặc.str.upper() - Thay thế ký tự hoặc chuỗi con: Dùng
.str.replace('cần_thay', 'thay_bằng') - Tách chuỗi thành nhiều phần dựa trên dấu phân cách: Dùng
.str.split('dấu_phân_cách') - Kiểm tra sự tồn tại của một chuỗi con: Dùng
.str.contains('chuỗi_cần_tìm')
Em đã áp dụng mấy cái này để làm sạch một file dữ liệu khách hàng, loại bỏ các ký tự lạ và chuẩn hóa lại định dạng tên, địa chỉ. Kết quả là tiết kiệm được cả buổi làm việc thủ công. Các bác nào đang làm việc nhiều với dữ liệu văn bản trong Excel mà muốn tự động hóa thì nên thử qua Pandas nhé. Nó thực sự mở ra nhiều cánh cửa mới!
Có bác nào có kinh nghiệm hay thủ thuật gì hay ho với Pandas trong việc xử lý văn bản thì chia sẻ thêm cho em học hỏi với ạ!