学Python那就避不开爬虫,它比其他编程语言来说更简单易上手,学习门槛低,并且处理数据方便。
分享一个爬虫模板,只用6步就能解决
本教程仅用于学习和研究目的
import requestsfrom lxml import etreeimport pandas as pd
url = 'https://www.che168.com/wenzhou' # 网站网址header = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36'} # 处理反爬
resp = requests.get(url, headers=header)print(resp.text) # 解析网页数据
html = etree.HTML(resp.text) # 使用xpath解析网页数据divs = html.xpath('//*[@id="goodStartSolrQuotePriceCoreo"]/ul/li')car_type1 = []car_message1 = []car_price1 = []
for div in divs: # 车的类型数据 car_type = div.xpath('./a/div[3]/h4/text()') if car_type: car_type1.append(car_type[0]) # 车的信息 car_message = div.xpath('./a/div[3]/p/text()') if car_message: car_message1.append(car_message[0]) # 车的价格 car_price = ''.join(div.xpath('./a/div[3]/div/span//text()')) if car_price: car_price1.append(car_price)# 把抓取的数据放到DataFrame结构里dic = {'车型': car_type1, '信息': car_message1, '车价': car_price1}data = pd.DataFrame(dic)
data.to_excel('温州二手车信息.xlsx') # 把爬取的数据保存成excel里data.to_csv('温州二手车信息.csv') # 把爬取的数据保存成csv格式