Python爬虫实战：利用代理IP获取电商数据（附完整代码）

laowangpython

于 2025-05-19 10:09:08 发布

阅读量868

点赞数 19

文章标签： python 爬虫 tcp/ip 其他

本文链接：https://blog.csdn.net/laowangpython/article/details/148056961

版权

文章目录

一、为什么要获取电商数据？（超实用场景）

各位爬友注意啦！获取电商数据可是爬虫界的黄金场景（真的超值钱）！！！无论是做价格监控、竞品分析还是市场趋势预测，这些数据都能让你的项目身价倍增。举个栗子🌰：

实时比价工具开发
爆款商品追踪系统
用户评论情感分析
商品库存预警机制

（偷偷说）但直接爬取很容易被反爬机制按在地上摩擦😭，这时候就需要我们的秘密武器——代理IP登场了！

二、环境准备（小白也能搞定）

工欲善其事必先利其器，咱们先来装几个必备的库：

# 终端运行这两条命令
pip install requests
pip install beautifulsoup4

（敲黑板！）代理IP推荐使用付费服务商（自己搭建维护成本太高），这里我以某云服务为例（为避免广告嫌疑就不说具体名字了）

三、实战四步走（附完整代码）

步骤1：分析页面结构（开发者工具是王道）

按F12打开开发者工具，找到目标数据的HTML结构。这里以某电商平台手机分类页为例：

（示意图：注意观察商品名称、价格等元素的class属性）

步骤2：配置代理IP（核心代码）

import requests
from bs4 import BeautifulSoup

# 代理设置（格式：http://用户名:密码@IP:端口）
proxies = {
    'http': 'http://your_proxy_user:your_proxy_pwd@123.45.67.89:8888',
    'https': 'https://your_proxy_user:your_proxy_pwd@123.45.67.89:8888'
}

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}

步骤3：发送请求 & 解析数据

def get_products(url):
    try:
        response = requests.get(url, headers=headers, proxies=proxies, timeout=10)
        response.raise_for_status()  # 自动处理HTTP错误
        
        soup = BeautifulSoup(response.text, 'html.parser')
        products = []
        
        # 根据实际页面结构调整选择器
        for item in soup.select('.product-item'):
            name = item.select_one('.title').text.strip()
            price = item.select_one('.price').text.replace('¥', '')
            sales = item.select_one('.sales').text.split('人')[0]
            
            products.append({
                'name': name,
                'price': float(price),
                'sales': int(sales)
            })
            
        return products
    except Exception as e:
        print(f"请求失败：{str(e)}")
        return []

步骤4：数据存储（CSV示例）

import csv

def save_to_csv(data, filename='products.csv'):
    with open(filename, 'w', newline='', encoding='utf-8') as f:
        writer = csv.DictWriter(f, fieldnames=['name', 'price', 'sales'])
        writer.writeheader()
        writer.writerows(data)

四、完整调用示例（复制即用）

if __name__ == "__main__":
    base_url = "https://xxx.com/category/phone?page="  # 替换为真实地址
    
    all_products = []
    for page in range(1, 6):  # 爬取前5页
        current_url = base_url + str(page)
        print(f"正在爬取：{current_url}")
        products = get_products(current_url)
        all_products.extend(products)
        time.sleep(3)  # 礼貌间隔
    
    save_to_csv(all_products)
    print(f"共获取{len(all_products)}条数据！")

五、避坑指南（血泪经验）

1. 代理IP失效怎么办？

使用代理池自动切换（建议至少准备50个以上IP）
每次请求随机选择代理
定期检测代理可用性

2. 遇到验证码怎么破？

控制请求频率（重要！加随机延迟）
使用无头浏览器（如Selenium）
接入打码平台（成本较高）

3. 数据乱码/缺失？

检查网页编码（response.encoding设置）
更新CSS选择器（电商网站经常改版！）
添加异常重试机制

六、法律红线千万别碰！（超级重要）

严格遵守robots.txt
在域名后加/robots.txt查看规则（比如https://xxx.com/robots.txt）
控制爬取频率
建议间隔3-5秒，深夜时段适当加快
不爬敏感数据
用户个人信息、交易记录等绝对不要碰！
商业用途需授权
大规模商用前务必获取平台许可

（案例警示）某公司因爬取20万条数据被判赔偿150万！千万别抱侥幸心理！

七、性能优化小技巧（高级操作）

想要更专业？试试这些骚操作：

# 多线程加速
from concurrent.futures import ThreadPoolExecutor

def batch_crawl(urls):
    with ThreadPoolExecutor(max_workers=5) as executor:
        results = list(executor.map(get_products, urls))
    return [item for sublist in results for item in sublist]

# 自动切换User-Agent
fake_useragent库能生成随机请求头

# 使用Scrapy框架
适合大规模分布式爬取（后续可以出专题讲解）