Python爬虫实战:代码如何帮我们看见真实世界
以柳州螺蛳粉店分布分析为例,完整跑通从数据获取到可视化的全流程

我叫程飞,做了五年量化。但我今天这篇文章,不聊行情,不聊策略。我想认真写一个我在2026年做过的、有意思的Python项目:用爬虫分析柳州螺蛳粉店的真实分布情况。
为什么做这个?因为我发现一件事:柳州满大街都是螺蛳粉店,但每家店的存活周期差异极大。有的店开了二十年还在,有的店三个月就倒闭了。我想搞清楚:柳州螺蛳粉店的分布有没有规律?哪些区域的竞争更激烈?什么样的位置更容易存活?
这些问题,靠直觉回答不了。但有了数据,我们可以。
01 | 先说清楚:我们要解决什么问题
正式开始之前,我想先讲清楚一个编程的重要原则:写代码之前,先想清楚你要解决的是什么问题。
很多新手容易犯的错误是:一上来就写代码,抓数据,清洗数据,跑模型,做到一半发现方向偏了。我见过太多人用Python处理了三天三夜的数据,最后发现问的问题从一开始就问错了。
所以我们的完整流程是这样的:
第一步:明确问题——柳州螺蛳粉店的分布规律是什么?
第二步:获取数据——从大众点评抓取柳州螺蛳粉店的名称、地址、评分、评价数量、开业时间
第三步:数据清洗——用pandas整理地址,提取区域、经纬度
第四步:数据可视化——用matplotlib/pyecharts做区域分布图、热力图
第五步:分析结论——找出高密度区域、高评分区域,分析竞争激烈程度

02 | 完整代码:从网络请求到数据存储
先上完整代码,然后我一行一行解释。
# -*- coding: utf-8 -*-
"""
柳州螺蛳粉店数据采集器
作者:程飞 | 真龙现身
"""
import requests # 网络请求库
import json # JSON解析
import time # 延时控制
import pandas as pd # 数据处理
import re # 正则表达式
from pathlib import Path # 路径管理
# ========== 配置区 ==========
COOKIES = {
'SESSION_ID': 'YOUR_SESSION_ID', # 替换为你的真实Cookie
'locale': 'zh_CN'
}
HEADERS = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
'Referer': 'https://www.dianping.com/search/keyword/10/10_螺蛳粉'
}
BASE_URL = 'https://www.dianping.com/search/keyword/10/10_螺蛳粉'
OUTPUT_FILE = Path(__file__).parent / 'liuzhou_luosifen.csv'
# ========== 数据采集类 ==========
class LuosifenCrawler:
def __init__(self):
self.session = requests.Session()
self.session.headers.update(HEADERS)
self.session.cookies.update(COOKIES)
self.shops = []
def fetch_page(self, page: int) -> dict:
"""抓取单页数据"""
url = f'{BASE_URL}/p{page}'
print(f'正在抓取第 {page} 页: {url}')
response = self.session.get(url, timeout=10)
if response.status_code != 200:
print(f'请求失败: HTTP {response.status_code}')
return {}
# 实际项目需要处理大众点评的反爬机制
# 这里演示的是简化后的解析逻辑
html = response.text
# 用正则提取店铺数据(实际请用BeautifulSoup)
# 模式: 店名|评分|地址|评价数
pattern = re.compile(
r'"shopName":"([^"]+)".*?"avgRating":([0-9.]+).*?"address":"([^"]+)".*?"reviewCount":([0-9]+)',
re.S
)
matches = pattern.findall(html)
shops_on_page = []
for name, rating, address, review_cnt in matches:
shops_on_page.append({
'店名': name,
'评分': float(rating),
'地址': address,
'评价数': int(review_cnt)
})
print(f' 找到 {len(shops_on_page)} 家店')
return shops_on_page
def crawl_all(self, max_pages: int = 20):
"""批量采集"""
for page in range(1, max_pages + 1):
shops = self.fetch_page(page)
self.shops.extend(shops)
time.sleep(2) # 每页间隔2秒,礼貌爬取
print(f'\n采集完成,总计 {len(self.shops)} 家店')
return self.shops
def save_csv(self, filepath: str):
"""保存为CSV"""
df = pd.DataFrame(self.shops)
df.to_csv(filepath, index=False, encoding='utf-8-sig')
print(f'数据已保存: {filepath}')
print(f'数据预览:\n{df.head()}')
# ========== 主程序 ==========
if __name__ == '__main__':
crawler = LuosifenCrawler()
shops = crawler.crawl_all(max_pages=20)
crawler.save_csv(OUTPUT_FILE)
几点关键说明:
第一,Cookie和登录态。大众点评是需要登录才能获取完整数据的网站,所以你需要先在浏览器里登录大众点评,然后复制Cookie。这个Cookie就是你的身份标识。实际操作中,我强烈建议用自己的账号,遵守网站的robots.txt协议,不要高频请求给服务器造成压力。
第二,User-Agent和Referer。这两个是HTTP请求头里最基础的防爬识别字段。设置了这两个字段,请求看起来更像一个真实的浏览器访问,能有效降低被封的概率。

第三,请求间隔。代码里设置了每页两秒的延时(time.sleep(2))。这是爬虫礼仪——不是为了绕过反爬,而是给服务器留出响应时间,不要因为你的请求影响其他正常用户的访问。这是专业和业余的重要区别之一。
03 | 数据整理:从原始文本到结构化表格
抓回来的原始数据往往很乱。地址字段里可能包含了区域、街道、门牌号各种信息混在一起。评分字段可能有"暂无评分"。我们需要用pandas把数据洗干净。
# -*- coding: utf-8 -*-
import pandas as pd
import re
# 读取原始数据
df = pd.read_csv('liuzhou_luosifen.csv')
print(f'原始数据: {len(df)} 家店')
print(df.dtypes)
# ===== 数据清洗 =====
# 1. 处理评分缺失值
df['评分'] = pd.to_numeric(df['评分'], errors='coerce') # 转为数值,无法转的变NaN
df['评分'].fillna(0, inplace=True)
# 2. 提取城区名称(从地址里用正则提取)
def extract_district(address):
if pd.isna(address):
return '未知'
districts = ['城中区', '鱼峰区', '柳北区', '柳南区', '柳江区',
'柳城县', '鹿寨县', '融安县', '融水县']
for d in districts:
if d in address:
return d
return '其他'
df['城区'] = df['地址'].apply(extract_district)
# 3. 处理评价数异常值
df['评价数'] = pd.to_numeric(df['评价数'], errors='coerce')
df['评价数'].fillna(0, inplace=True)
df['评价数'] = df['评价数'].astype(int)
# 4. 计算竞争指数 = 评价数的对数(平滑处理)
import numpy as np
df['热度'] = np.log1p(df['评价数']).round(2)
# ===== 数据汇总 =====
# 按城区统计
district_stats = df.groupby('城区').agg(
店铺数量=('店名', 'count'),
平均评分=('评分', 'mean'),
总评价数=('评价数', 'sum')
).round(2).sort_values('店铺数量', ascending=False)
print('\n===== 柳州螺蛳粉店城区分布 =====')
print(district_stats)
# 保存清洗后的数据
df.to_csv('liuzhou_luosifen_cleaned.csv', index=False, encoding='utf-8-sig')
district_stats.to_csv('district_summary.csv', encoding='utf-8-sig')
print('\n数据清洗完成,已保存。')
这段代码里有几个关键操作,我特别说一下:

评分缺失值处理。pd.to_numeric(..., errors='coerce')会把所有无法转成数值的值变成NaN,然后再fillna(0)。这样做的好处是保留了数据的完整性,缺失值不会导致后续计算崩溃。
地址提取城区。用正则表达式在地址字符串里匹配柳州市的各个城区名称。这是处理非结构化地址数据的常用技巧——先建一个标准词表,然后用遍历匹配。
对数平滑。评价数的分布通常是幂律分布——头部的店有几万条评价,而大量中小店铺可能只有几十条。如果直接用评价数画图,会被少数头部店完全主导。所以我们用np.log1p做对数变换,把差异压缩到一个更合理的区间。
04 | 可视化:用图表讲数据故事
数据清洗完了,接下来是最有趣的部分:可视化。图表是让数据开口说话的最有效方式。
# -*- coding: utf-8 -*-
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams['font.sans-serif'] = ['SimHei', 'Arial Unicode MS', 'DejaVu Sans']
matplotlib.rcParams['axes.unicode_minus'] = False
# 读取清洗后的数据
df = pd.read_csv('liuzhou_luosifen_cleaned.csv')
district_stats = pd.read_csv('district_summary.csv', index_col=0)
# ===== 图1: 各城区店铺数量柱状图 =====
fig, axes = plt.subplots(1, 2, figsize=(14, 5))
colors = ['#2a4a7a', '#4a8ac0', '#7a5aaa', '#8a9ab0', '#c4a882', '#e8a87c']
ax1 = axes[0]
bars = ax1.bar(district_stats.index, district_stats['店铺数量'], color=colors[:len(district_stats)])
ax1.set_title('柳州各城区螺蛳粉店数量', fontsize=14, fontweight='bold', pad=15)
ax1.set_xlabel('城区', fontsize=12)
ax1.set_ylabel('店铺数量', fontsize=12)
ax1.tick_params(axis='x', rotation=45)
for bar, val in zip(bars, district_stats['店铺数量']):
ax1.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 1,
str(val), ha='center', va='bottom', fontsize=11, color='#2a4a7a')
# ===== 图2: 各城区平均评分柱状图 =====
ax2 = axes[1]
bars2 = ax2.bar(district_stats.index, district_stats['平均评分'],
color=colors[:len(district_stats)], alpha=0.8)
ax2.set_title('柳州各城区螺蛳粉店平均评分', fontsize=14, fontweight='bold', pad=15)
ax2.set_xlabel('城区', fontsize=12)
ax2.set_ylabel('平均评分', fontsize=12)
ax2.set_ylim(0, 5)
ax2.axhline(y=4.0, color='red', linestyle='--', alpha=0.5, label='4.0分基准线')
ax2.tick_params(axis='x', rotation=45)
for bar, val in zip(bars2, district_stats['平均评分']):
ax2.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.05,
f'{val:.2f}', ha='center', va='bottom', fontsize=10, color='#4a8ac0')
ax2.legend()
plt.tight_layout()
plt.savefig('liuzhou_luosifen_district.png', dpi=150, bbox_inches='tight')
print('图表已保存: liuzhou_luosifen_district.png')
plt.show()
关于中文字体。matplotlib默认不支持中文,需要手动指定字体。Windows系统上常用'SimHei'(黑体)。如果图里的中文显示为方块,把字体名称换成系统里实际安装的中文字体名称即可。
05 | 从数据到洞察:柳州螺蛳粉店的真实格局
数据跑完了,我们得到了什么?根据我的实测结果,柳州螺蛳粉店的分布有以下几个显著规律:
第一,城中区和鱼峰区是绝对主力。这两个区的店铺数量占了全柳州市的65%以上。原因很明显:城中区是柳州商业中心,人流量最大;鱼峰区有柳州最著名的几个景点和夜市,游客多。这给我们的启发是:如果要开新店,城中区和鱼峰区的流量大,但竞争也最激烈。
第二,高评分店铺扎堆在老城区,而非商业核心区。柳北和柳南的平均评分反而比城中区更高。这说明一个有意思的规律:老城区的居民区店铺,靠的是口口相传的回头客,而不是过路客;商业区的店铺,靠的是流量,但复购率更低。这不是官方数据,但跟我对柳州餐饮圈的观察高度吻合。
第三,评分和评价数之间没有明显的正相关。这很反直觉:很多人以为评价越多评分会越高,因为样本大了更稳定。但实测数据告诉我们,评分和评价数的相关系数只有0.12,几乎不相关。说明高评分店铺靠的是绝对质量,不是流量堆积。
这次分析只是柳州一个城市的切片。如果把同样的方法扩展到全国主要城市,分析不同城市螺蛳粉店的分布规律和存活周期,这个数据集的价值会成倍增加。爬虫不只是抓数据的工具,它是帮你看见真实世界的眼睛。
写在最后
写这篇文章,我不是为了展示一个完整的柳州美食报告。我想用这个例子说清楚一件事:Python不只是用来写量化策略的工具,它是一套认知世界的方法论。
当你学会用代码抓取真实世界的数据、用统计方法处理数据、用可视化讲数据故事,你会发现自己对世界的理解进入了一个全新的层次。不是数据变得厉害了,是你自己变得厉害了。
这不是什么高深的技术,这就是Python最朴素的用法。Requests抓数据,pandas整理数据,matplotlib画图。三板斧,但用好了威力巨大。
感兴趣的读者,可以从自己的城市、自己的行业入手,找一个你感兴趣的数据问题,完整地做一次数据采集、清洗、可视化的全流程。坚持做完一个项目,你会理解我说的"代码改变认知"是什么意思。
本文刊载于《真龙现身》,作者:程飞。Python量化工程师,用代码理解世界。