“用Python代码的整体功能、模块结构、核心逻辑、关键技术点以及运行注意事项,帮助你全面理解这份塑化商品爬虫代码的设计思路和实际作用。下面我会从整体到细节逐一拆解说明。”
一、代码整体功能总结
这是一个针对 21cp.com 网站的塑化商品数据爬虫,核心目标是:
1. 爬取该网站TPE品类下1-60页的商品列表;
2. 进入每个商品的详情页,提取基础信息(名称、厂商、规格、材料类型等)和物性参数(物理性能、机械性能等);
3. 对详情页中以图片形式展示的数值(base64编码)进行OCR识别,转换为可编辑的数字;
4. 清洗格式化数据(如把 028 格式化为 0.28);
5. 将最终数据保存到Excel文件,支持追加已有Excel文件的数据(避免重复生成文件)。
二、代码模块结构与核心逻辑解析
1. 头部配置与依赖导入(代码最上方)
这部分是爬虫的基础环境配置,核心作用是导入依赖库+修复OCR运行环境:
# 基础库:文件操作、编码、正则、时间、日志import io、os、base64、re、time、logging# 数据库相关(代码中未实际使用,预留)import pymysql from DBUtils.PooledDB import PooledDB# OCR相关:PIL处理图片,pytesseract执行文字识别from PIL import Image、import pytesseract# 数据处理:pandas保存Excelimport pandas as pd# 浏览器自动化:selenium全套(模拟浏览器操作核心)from selenium import webdriver...# 日志配置:输出时间、模块、级别、信息,方便调试logging.basicConfig(...)# 关键修复:指定Tesseract-OCR的安装路径(必配,否则OCR报错)pytesseract.pytesseract.tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract.exe'os.environ['TESSDATA_PREFIX'] = r'D:\Program Files\Tesseract-OCR\tessdata'
核心作用:解决OCR运行的路径依赖,配置日志格式,导入爬虫所需的所有工具库。
2. 类初始化(__init__ 方法)
def __init__(self, file=None): self.files = file self.spiderURLS = [{'url': 'https://sousu.21cp.com/...page1...', 'cate': 'TPE', 'topname': '热塑性弹性体'}, ...]
核心作用:
3. 浏览器初始化(_init_browser 方法)
def _init_browser(self, options): try: driver_path = r'C:\Program Files (x86)\chromedriver\geckodriver.exe' driver = webdriver.Firefox(executable_path=driver_path, options=options) driver.set_page_load_timeout(60) return driver except Exception as e: logger.error(f"初始化浏览器失败: {e}") return None
核心作用:
指定Firefox驱动(geckodriver)的本地路径;
初始化Firefox浏览器,设置页面加载超时为60秒;
异常捕获:浏览器启动失败时记录日志,避免程序直接崩溃。
4. 核心数据处理方法(爬虫的核心能力)
这部分是代码的核心,包含OCR识别、数据解析、数值格式化三大关键能力:
(1)图片数值识别(recognize_digit_from_base64 方法)
def recognize_digit_from_base64(slef, base64_str): image_data = base64.b64decode(base64_str) # 解码base64图片 image = Image.open(io.BytesIO(image_data)) # 转为PIL图片对象 # OCR仅识别数字(配置白名单:0-9) text = pytesseract.image_to_string(image, lang='eng', config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789') digit = text.strip() return digit if digit.isdigit() else None
核心作用:解决网站物性参数数值以图片展示的问题(无法直接复制文本),通过base64解码+OCR识别提取纯数字。
(2)物性参数解析(parse_with_selenium 方法)
def parse_with_selenium(slef, driver): tables = driver.find_elements(By.CSS_SELECTOR, "#mainOtherTable table.other-table-content") # 定位性能表格 for table in tables: category = table.find_element(By.CSS_SELECTOR, "td.th-tit h3").text.strip() # 如“物理性能” rows = table.find_elements(By.XPATH, ".//tbody/tr")[1:] # 跳过表头 for row in rows: tds = row.find_elements(By.TAG_NAME, "td") item = tds[0].text.strip() # 指标名(如“熔指”) condition = tds[1].text.strip() # 测试条件(如“190℃/5kg”) # 处理图片数值 img_elem = tds[2].find_element(By.TAG_NAME, "img") src = img_elem.get_attribute("src") base64_data = src.split(",", 1)[1] digit = slef.recognize_digit_from_base64(base64_data) # 调用OCR # 拼接参数文本 output_lines.append(f"\n - {item}") output_lines.append(f" {condition}") output_lines.append(f" 属性值:{digit}") return "\n".join(output_lines)
核心作用:
(3)数值格式化(process_num_str + replace_attr_value_regex 方法)
def process_num_str(self, num_str): if num_str[0] == "0": # 如028 → 0.28 return f"0.{num_str[1:]}" if len(num_str) > 1 else "0." else: return num_strdef replace_attr_value_regex(self, text): pattern = r"属性值:(\d+)" # 正则匹配“属性值:XXX” def replace_callback(match): num_str = match.group(1) return f"属性值:{self.process_num_str(num_str)}" result = re.sub(pattern, replace_callback, text) return result
核心作用:修复OCR识别后的数值格式错误(如把0.28识别为028),通过正则批量替换为标准格式,保证数据准确性。
5. 详情页爬取(_get_detail_data 方法)
def _get_detail_data(self, driver, Url): driver.execute_script(f"window.open('{Url}');") # 新窗口打开详情页 new_window = [window for window in driver.window_handles if window != main_window][0] driver.switch_to.window(new_window) # 切换到新窗口 # 提取商品基础信息 h2_element = driver.find_element(By.CSS_SELECTOR, '#detailMain .detail-title h2') main_text = h2_element.text.strip() category, model, manufacturer = self.parse_main_info(main_text) # 解析分类/型号/厂商 # 提取物性参数 tagItem = self.extract_product_specs(driver) # 材料状态/特性/用途等 detail = self.parse_with_selenium(driver) # 性能参数(含OCR) detail_info = self.replace_attr_value_regex(detail) # 格式化数值 # 组装数据 detail_data = { 'productName': category + ' ' + model + ' ' +manufacturer, 'materialType': label_text, 'category': category, 'content': detail_info, ... } driver.close() # 关闭新窗口 driver.switch_to.window(main_window) # 切回主窗口 return detail_data
核心作用:
6. 列表页爬取(_get_dynamic_data 方法)
def _get_dynamic_data(self, driver, item): driver.get(item['url']) # 打开列表页 rows = driver.find_elements(By.CSS_SELECTOR, '.result .result-item') # 定位商品行 for row in rows: title_elem = row.find_element(By.CSS_SELECTOR, "h4.f-fl.item_tit a.sc_click_link") detail_url = title_elem.get_attribute("href") # 提取详情页链接 detailInfo = self._get_detail_data(driver, detail_url) # 爬取详情页 result.append(detailInfo) self.save_to_excel(result) # 保存到Excel
核心作用:
打开列表页,遍历所有商品行;
提取每个商品的详情页链接,调用详情页爬取方法;
收集所有商品数据,调用保存方法写入Excel。
7. 数据保存(save_to_excel 方法)
def save_to_excel(self, products, filename_prefix="outfile-PLA"): columns = ["Form", "additives", "applications", ...] # 定义Excel列 df = pd.DataFrame(products, columns=columns) # 转为DataFrame df = df.fillna("无").astype(str) # 空值填充为“无” timestamp = datetime.now().strftime("%Y%m%d_%H%M%S") filename = f"{filename_prefix}-{timestamp}.xlsx" # 追加已有Excel文件 excel_files = [f for f in os.listdir(".") if f.startswith(filename_prefix) and f.endswith(".xlsx")] if excel_files: latest_file = sorted(excel_files)[-1] existing_df = pd.read_excel(latest_file, engine='openpyxl') combined_df = pd.concat([existing_df, df], ignore_index=True) combined_df.to_excel(latest_file, index=False, engine='openpyxl') else: df.to_excel(filename, index=False, engine='openpyxl')
核心作用:
8. 主执行流程(main 方法 + 入口函数)
def main(self): options = FirefoxOptions() options.binary_location = r"C:\Program Files\Mozilla Firefox\firefox.exe" # 指定Firefox路径 driver = self._init_browser(options) # 初始化浏览器 for item in self.spiderURLS: # 遍历1-60页URL retlut = self._get_dynamic_data(driver,item) # 爬取每页数据 driver.quit() # 关闭浏览器if __name__ == '__main__': file = r"E:/workspace/BigDevops/resource/down" sp = Spider(file) sp.main()
核心作用:
配置Firefox浏览器选项,初始化驱动;
遍历所有爬取URL,执行每页的爬取流程;
爬取完成后关闭浏览器,释放资源;
入口函数实例化爬虫类,启动主流程。
三、关键技术特点与注意事项
1. 关键技术亮点
模拟浏览器渲染:使用Selenium而非requests,解决动态加载页面的数据爬取问题;
OCR图片识别:针对图片形式的数值,通过base64解码+Tesseract OCR提取数字,突破反爬限制;
数据清洗格式化:自动修复数值格式错误(028→0.28),保证数据可用性;
数据追加保存:支持Excel文件追加,避免重复爬取时数据丢失;
多窗口操作:新窗口打开详情页,不影响主列表页的爬取流程。
2. 运行注意事项(必看!)
环境依赖:
必须安装Firefox浏览器,且options.binary_location路径要匹配本地Firefox安装路径;
必须安装geckodriver(Firefox驱动),且driver_path路径正确;
必须安装Tesseract-OCR,且配置的路径(pytesseract.pytesseract.tesseract_cmd)正确;
安装Python依赖:pip install selenium pytesseract pandas openpyxl pillow;
路径配置:代码中所有硬编码的路径(如Firefox、geckodriver、Tesseract)需根据本地环境修改,否则会启动失败;
反爬风险:爬取60页数据时,建议在_get_dynamic_data中增加time.sleep(2)(每页等待2秒),避免被网站封IP;
异常处理:代码对部分异常(如元素未找到)做了捕获,但未处理网络中断,生产环境需补充;
预留功能:代码导入了pymysql/DBUtils(数据库相关),但未实现数据库保存,如需入库需自行补充。
总结
这段代码是针对21cp.com的塑化商品专用爬虫,核心能力是爬取商品详情+OCR识别图片数值+数据格式化+Excel保存;
技术栈以Selenium(浏览器模拟)+ pytesseract(OCR)+ pandas(Excel处理)为核心,解决了动态页面+图片数值的爬取难题;
运行前需重点检查本地路径配置和依赖安装,否则会出现浏览器启动失败、OCR识别失败等问题;
代码具备基础的异常处理和数据清洗能力,但缺少反爬策略(如随机等待)和数据库入库功能,可根据需求扩展。
代码库:
关于【黄哥开源】