Chào mọi người,
Dạo này mình hay làm việc với dữ liệu Excel có các cột chứa nhiều giá trị lặp lại. Việc tạo ra một danh sách các giá trị duy nhất (unique values) để phân tích hoặc làm cơ sở cho các dropdown list đôi khi khá mất thời gian, nhất là với file dung lượng lớn.
Gần đây, mình có thử nghiệm dùng Python trong Excel để giải quyết vấn đề này và thấy khá hiệu quả. Thay vì phải dùng các hàm phức tạp hay copy-paste qua lại, giờ đây mình có thể làm điều này chỉ với vài dòng code Python ngay trong file Excel.
Cách làm của mình khá đơn giản:
- Đầu tiên, mình chọn vùng dữ liệu cần xử lý.
- Sau đó, mình dùng hàm
=PY()để gọi Python script. - Trong script, mình sẽ đọc dữ liệu từ vùng đã chọn, sử dụng
pandasđể tạo DataFrame, rồi dùng phương thức.unique()để lấy ra các giá trị duy nhất. - Cuối cùng, trả kết quả về lại Excel.
Ví dụ đoạn code Python mình hay dùng:
import pandas as pd
data = xl(