Menu

Tự động hóa tạo danh sách khách hàng tiềm năng từ website bằng Python

Ôn Gia Lam 10/06/2026 23:05 138 lượt xem 2 trả lời

Chào mọi người,

Dạo gần đây mình có làm một dự án nhỏ để tự động hóa việc thu thập thông tin khách hàng tiềm năng từ các trang web tin tức bất động sản. Mình nghĩ là nó khá hữu ích cho anh em nào đang làm kinh doanh hoặc marketing, nên chia sẻ lên đây để mọi người tham khảo.

Công việc ban đầu của mình là phải vào từng trang web, copy thông tin liên hệ của các chủ đầu tư, sau đó paste vào Excel để quản lý. Làm thủ công rất tốn thời gian và dễ sai sót. Vì vậy, mình đã tìm hiểu và viết một đoạn script Python để giải quyết vấn đề này.

Về cơ bản, script sẽ:

  • Truy cập vào một danh sách các URL website đã định sẵn.
  • Sử dụng thư viện BeautifulSoup để phân tích cấu trúc HTML của trang web.
  • Tìm kiếm và trích xuất các thông tin như Tên công ty, Số điện thoại, Email (nếu có) từ các thẻ HTML đã xác định trước.
  • Lưu trữ thông tin thu thập được vào một file Excel mới.

Code mẫu (đơn giản hóa):

import requests
from bs4 import BeautifulSoup
import pandas as pd

urls = ['http://example.com/page1', 'http://example.com/page2']
data = []

for url in urls:
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    company_name = soup.find('h1', class_='company-name').text.strip()
    phone = soup.find('span', class_='phone').text.strip()
    email = soup.find('a', class_='email').text.strip()
    
    data.append({'Company': company_name, 'Phone': phone, 'Email': email})

df = pd.DataFrame(data)
df.to_excel('leads.xlsx', index=False)
print('Done!')

Tất nhiên, để script chạy hiệu quả với các website khác nhau, bạn cần tùy chỉnh cách tìm kiếm các thẻ HTML (ví dụ: soup.find(...)) cho phù hợp với cấu trúc của từng trang web. Có thể cần dùng thêm các kỹ thuật như regular expressions để xử lý các định dạng dữ liệu phức tạp.

Anh em nào có ý tưởng hay cách làm nào khác để tự động hóa việc thu thập dữ liệu từ web thì chia sẻ thêm nhé!

3

Hay quá bạn ơi! Việc tự động hóa thu thập dữ liệu thế này đúng là cứu cánh cho nhiều anh em làm sale/marketing. Mình tò mò không biết bạn dùng thư viện Python nào để "cào" dữ liệu từ website vậy? Có gặp khó khăn gì trong quá trình xử lý dữ liệu "sạch" không? Chia sẻ thêm kinh nghiệm nhé!

0

Hay quá bạn ơi! Việc tự động hóa thu thập dữ liệu thế này đúng là cứu cánh cho nhiều anh em làm sale/marketing. Mình tò mò không biết bạn dùng thư viện Python nào để "cào" dữ liệu từ website vậy? Có gặp khó khăn gì trong quá trình xử lý dữ liệu "sạch" không? Chia sẻ thêm kinh nghiệm nhé!

1

Bạn cần đăng nhập để trả lời chủ đề này.

Đăng nhập Đăng ký