当前位置：首页>python>Python 塑化商品爬虫代码全面解析

Python 塑化商品爬虫代码全面解析

2026-01-31 19:10:27

Python 塑化商品爬虫代码全面解析

“用Python代码的整体功能、模块结构、核心逻辑、关键技术点以及运行注意事项，帮助你全面理解这份塑化商品爬虫代码的设计思路和实际作用。下面我会从整体到细节逐一拆解说明。”

功能介绍

一、代码整体功能总结

这是一个针对 21cp.com 网站的塑化商品数据爬虫，核心目标是：

1. 爬取该网站TPE品类下1-60页的商品列表；

2. 进入每个商品的详情页，提取基础信息（名称、厂商、规格、材料类型等）和物性参数（物理性能、机械性能等）；

3. 对详情页中以图片形式展示的数值（base64编码）进行OCR识别，转换为可编辑的数字；

4. 清洗格式化数据（如把 028 格式化为 0.28）；

5. 将最终数据保存到Excel文件，支持追加已有Excel文件的数据（避免重复生成文件）。

二、代码模块结构与核心逻辑解析

1. 头部配置与依赖导入（代码最上方）

这部分是爬虫的基础环境配置，核心作用是导入依赖库+修复OCR运行环境：

# 基础库：文件操作、编码、正则、时间、日志import io、os、base64、re、time、logging# 数据库相关（代码中未实际使用，预留）import pymysql from DBUtils.PooledDB import PooledDB# OCR相关：PIL处理图片，pytesseract执行文字识别from PIL import Image、import pytesseract# 数据处理：pandas保存Excelimport pandas as pd# 浏览器自动化：selenium全套（模拟浏览器操作核心）from selenium import webdriver...# 日志配置：输出时间、模块、级别、信息，方便调试logging.basicConfig(...)# 关键修复：指定Tesseract-OCR的安装路径（必配，否则OCR报错）pytesseract.pytesseract.tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract.exe'os.environ['TESSDATA_PREFIX'] = r'D:\Program Files\Tesseract-OCR\tessdata'

核心作用：解决OCR运行的路径依赖，配置日志格式，导入爬虫所需的所有工具库。

2. 类初始化（`init` 方法）

def __init__(self, file=None):    self.files = file    self.spiderURLS = [{'url': 'https://sousu.21cp.com/...page1...', 'cate': 'TPE', 'topname': '热塑性弹性体'}, ...]

核心作用：

接收外部文件路径参数（未实际使用，预留）；
定义爬取的URL列表：包含TPE品类的1-60页地址，每个URL绑定品类（TPE）和中文名称（热塑性弹性体），确保爬取范围固定。

3. 浏览器初始化（`_init_browser` 方法）

def _init_browser(self, options):    try:        driver_path = r'C:\Program Files (x86)\chromedriver\geckodriver.exe'        driver = webdriver.Firefox(executable_path=driver_path, options=options)        driver.set_page_load_timeout(60)        return driver    except Exception as e:        logger.error(f"初始化浏览器失败: {e}")        return None

核心作用：

指定Firefox驱动（geckodriver）的本地路径；
初始化Firefox浏览器，设置页面加载超时为60秒；
异常捕获：浏览器启动失败时记录日志，避免程序直接崩溃。

4. 核心数据处理方法（爬虫的核心能力）

这部分是代码的核心，包含OCR识别、数据解析、数值格式化三大关键能力：

（1）图片数值识别（`recognize_digit_from_base64` 方法）

def recognize_digit_from_base64(slef, base64_str):    image_data = base64.b64decode(base64_str)  # 解码base64图片    image = Image.open(io.BytesIO(image_data)) # 转为PIL图片对象    # OCR仅识别数字（配置白名单：0-9）    text = pytesseract.image_to_string(image, lang='eng', config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')    digit = text.strip()    return digit if digit.isdigit() else None

核心作用：解决网站物性参数数值以图片展示的问题（无法直接复制文本），通过base64解码+OCR识别提取纯数字。

（2）物性参数解析（`parse_with_selenium` 方法）

def parse_with_selenium(slef, driver):    tables = driver.find_elements(By.CSS_SELECTOR, "#mainOtherTable table.other-table-content") # 定位性能表格    for table in tables:        category = table.find_element(By.CSS_SELECTOR, "td.th-tit h3").text.strip() # 如“物理性能”        rows = table.find_elements(By.XPATH, ".//tbody/tr")[1:] # 跳过表头        for row in rows:            tds = row.find_elements(By.TAG_NAME, "td")            item = tds[0].text.strip() # 指标名（如“熔指”）            condition = tds[1].text.strip() # 测试条件（如“190℃/5kg”）            # 处理图片数值            img_elem = tds[2].find_element(By.TAG_NAME, "img")            src = img_elem.get_attribute("src")            base64_data = src.split(",", 1)[1]            digit = slef.recognize_digit_from_base64(base64_data) # 调用OCR            # 拼接参数文本            output_lines.append(f"\n - {item}")            output_lines.append(f" {condition}")            output_lines.append(f" 属性值：{digit}")    return "\n".join(output_lines)

核心作用：

定位详情页的性能表格（物理性能/机械性能/热性能等）；
遍历表格行，提取指标名、测试条件，对图片形式的属性值调用OCR识别；
按固定格式拼接参数文本，为后续格式化做准备。

（3）数值格式化（`process_num_str` + `replace_attr_value_regex` 方法）

def process_num_str(self, num_str):    if num_str[0] == "0": # 如028 → 0.28        return f"0.{num_str[1:]}" if len(num_str) > 1 else "0."    else:        return num_strdef replace_attr_value_regex(self, text):    pattern = r"属性值：(\d+)" # 正则匹配“属性值：XXX”    def replace_callback(match):        num_str = match.group(1)        return f"属性值：{self.process_num_str(num_str)}"    result = re.sub(pattern, replace_callback, text)    return result

核心作用：修复OCR识别后的数值格式错误（如把0.28识别为028），通过正则批量替换为标准格式，保证数据准确性。

5. 详情页爬取（`_get_detail_data` 方法）

def _get_detail_data(self, driver, Url):    driver.execute_script(f"window.open('{Url}');") # 新窗口打开详情页    new_window = [window for window in driver.window_handles if window != main_window][0]    driver.switch_to.window(new_window) # 切换到新窗口    # 提取商品基础信息    h2_element = driver.find_element(By.CSS_SELECTOR, '#detailMain .detail-title h2')    main_text = h2_element.text.strip()    category, model, manufacturer = self.parse_main_info(main_text) # 解析分类/型号/厂商    # 提取物性参数    tagItem = self.extract_product_specs(driver) # 材料状态/特性/用途等    detail = self.parse_with_selenium(driver) # 性能参数（含OCR）    detail_info = self.replace_attr_value_regex(detail) # 格式化数值    # 组装数据    detail_data = {        'productName': category + ' ' + model + ' ' +manufacturer,        'materialType': label_text,        'category': category,        'content': detail_info,        ...    }    driver.close() # 关闭新窗口    driver.switch_to.window(main_window) # 切回主窗口    return detail_data

核心作用：

以新窗口打开商品详情页（避免覆盖主列表页）；
提取商品核心信息（名称、分类、厂商、材料类型、用途等）；
调用物性参数解析+数值格式化方法，组装完整的商品数据；
关闭新窗口并返回主窗口，保证爬取流程不中断。

6. 列表页爬取（`_get_dynamic_data` 方法）

def _get_dynamic_data(self, driver, item):    driver.get(item['url']) # 打开列表页    rows = driver.find_elements(By.CSS_SELECTOR, '.result .result-item') # 定位商品行    for row in rows:        title_elem = row.find_element(By.CSS_SELECTOR, "h4.f-fl.item_tit a.sc_click_link")        detail_url = title_elem.get_attribute("href") # 提取详情页链接        detailInfo = self._get_detail_data(driver,  detail_url) # 爬取详情页        result.append(detailInfo)    self.save_to_excel(result) # 保存到Excel

核心作用：

打开列表页，遍历所有商品行；
提取每个商品的详情页链接，调用详情页爬取方法；
收集所有商品数据，调用保存方法写入Excel。

7. 数据保存（`save_to_excel` 方法）

def save_to_excel(self, products, filename_prefix="outfile-PLA"):    columns = ["Form", "additives", "applications", ...] # 定义Excel列    df = pd.DataFrame(products, columns=columns) # 转为DataFrame    df = df.fillna("无").astype(str) # 空值填充为“无”    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")    filename = f"{filename_prefix}-{timestamp}.xlsx"    # 追加已有Excel文件    excel_files = [f for f in os.listdir(".") if f.startswith(filename_prefix) and f.endswith(".xlsx")]    if excel_files:        latest_file = sorted(excel_files)[-1]        existing_df = pd.read_excel(latest_file, engine='openpyxl')        combined_df = pd.concat([existing_df, df], ignore_index=True)        combined_df.to_excel(latest_file, index=False, engine='openpyxl')    else:        df.to_excel(filename, index=False, engine='openpyxl')

核心作用：

将爬取的商品数据转为Excel格式，定义固定列顺序；
空值填充为“无”，保证数据整洁；
支持追加已有Excel文件（避免重复生成文件，累计爬取数据）。

8. 主执行流程（main 方法 + 入口函数）

def main(self):    options = FirefoxOptions()    options.binary_location = r"C:\Program Files\Mozilla Firefox\firefox.exe" # 指定Firefox路径    driver = self._init_browser(options) # 初始化浏览器    for item in self.spiderURLS: # 遍历1-60页URL        retlut = self._get_dynamic_data(driver,item) # 爬取每页数据    driver.quit() # 关闭浏览器if __name__ == '__main__':    file = r"E:/workspace/BigDevops/resource/down"    sp = Spider(file)    sp.main()

核心作用：

配置Firefox浏览器选项，初始化驱动；
遍历所有爬取URL，执行每页的爬取流程；
爬取完成后关闭浏览器，释放资源；
入口函数实例化爬虫类，启动主流程。

三、关键技术特点与注意事项

1. 关键技术亮点

模拟浏览器渲染：使用Selenium而非requests，解决动态加载页面的数据爬取问题；
OCR图片识别：针对图片形式的数值，通过base64解码+Tesseract OCR提取数字，突破反爬限制；
数据清洗格式化：自动修复数值格式错误（028→0.28），保证数据可用性；
数据追加保存：支持Excel文件追加，避免重复爬取时数据丢失；
多窗口操作：新窗口打开详情页，不影响主列表页的爬取流程。

2. 运行注意事项（必看！）

环境依赖：

必须安装Firefox浏览器，且options.binary_location路径要匹配本地Firefox安装路径；
必须安装geckodriver（Firefox驱动），且driver_path路径正确；
必须安装Tesseract-OCR，且配置的路径（pytesseract.pytesseract.tesseract_cmd）正确；
安装Python依赖：pip install selenium pytesseract pandas openpyxl pillow；

路径配置：代码中所有硬编码的路径（如Firefox、geckodriver、Tesseract）需根据本地环境修改，否则会启动失败；
反爬风险：爬取60页数据时，建议在_get_dynamic_data中增加time.sleep(2)（每页等待2秒），避免被网站封IP；
异常处理：代码对部分异常（如元素未找到）做了捕获，但未处理网络中断，生产环境需补充；
预留功能：代码导入了pymysql/DBUtils（数据库相关），但未实现数据库保存，如需入库需自行补充。

总结

这段代码是针对21cp.com的塑化商品专用爬虫，核心能力是爬取商品详情+OCR识别图片数值+数据格式化+Excel保存；
技术栈以Selenium（浏览器模拟）+ pytesseract（OCR）+ pandas（Excel处理）为核心，解决了动态页面+图片数值的爬取难题；
运行前需重点检查本地路径配置和依赖安装，否则会出现浏览器启动失败、OCR识别失败等问题；
代码具备基础的异常处理和数据清洗能力，但缺少反爬策略（如随机等待）和数据库入库功能，可根据需求扩展。

代码库：

关于【黄哥开源】

聚焦开源整合前沿技术，覆盖企业，教育，物联网园区/工地智慧城市建设等核心领域。
提供更多前沿技术、高可用的开源项目。
商务合作/项目开发/联系微信：mingyu17173

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Python 塑化商品爬虫代码全面解析

2. 类初始化（`init` 方法）

3. 浏览器初始化（`_init_browser` 方法）

4. 核心数据处理方法（爬虫的核心能力）

（1）图片数值识别（`recognize_digit_from_base64` 方法）

（2）物性参数解析（`parse_with_selenium` 方法）

（3）数值格式化（`process_num_str` + `replace_attr_value_regex` 方法）

5. 详情页爬取（`_get_detail_data` 方法）

6. 列表页爬取（`_get_dynamic_data` 方法）

7. 数据保存（`save_to_excel` 方法）

三、关键技术特点与注意事项

1. 关键技术亮点

2. 运行注意事项（必看！）

总结

最新文章

热门文章

随机文章

Python 塑化商品爬虫代码全面解析

2. 类初始化（__init__ 方法）

3. 浏览器初始化（_init_browser 方法）

4. 核心数据处理方法（爬虫的核心能力）

（1）图片数值识别（recognize_digit_from_base64 方法）

（2）物性参数解析（parse_with_selenium 方法）

（3）数值格式化（process_num_str + replace_attr_value_regex 方法）

5. 详情页爬取（_get_detail_data 方法）

6. 列表页爬取（_get_dynamic_data 方法）

7. 数据保存（save_to_excel 方法）

三、关键技术特点与注意事项

1. 关键技术亮点

2. 运行注意事项（必看！）

总结

时域信号转PSD谱实战python代码

5个常用的PythonGUI库!程序员必备!

最新文章

热门文章

随机文章

2. 类初始化（`init` 方法）

3. 浏览器初始化（`_init_browser` 方法）

（1）图片数值识别（`recognize_digit_from_base64` 方法）

（2）物性参数解析（`parse_with_selenium` 方法）

（3）数值格式化（`process_num_str` + `replace_attr_value_regex` 方法）

5. 详情页爬取（`_get_detail_data` 方法）

6. 列表页爬取（`_get_dynamic_data` 方法）

7. 数据保存（`save_to_excel` 方法）