python爬虫问题求解

我想爬取西湖的门票种类和价格，但是爬取的内容为空，不知道哪方面出了问题，求解

代码如下：

from bs4 import BeautifulSoup
import pandas as pd
import requests

def crawer_travel_introduction(url):
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
req = requests.get(url, headers=headers)
content = req.text
bsObj = BeautifulSoup(content, 'lxml')
return bsObj

def get_jd_introduction(url):

cat_tickets_kind = []
cat_tickets_price= []


bsobj = crawer_travel_introduction(url)
bs = bsobj.find_all('dl', {'class': 'clrfix  '})
for j in range(0, len(bs)):
    # try:
        name = bs[j].find('dt')
        cat_tickets_kind.append(name.text)
        price = bs[j].find('dd',{'class': 'e_old_price'}).find('del')
        cat_tickets_price.append(price.text)
    # except:
    #     print('wrong')
return cat_tickets_kind, cat_tickets_price

url = 'http://travel.qunar.com/p-oi708952-xihu'
cat_tickets_kind, cat_tickets_price = get_jd_introduction(url)
city = pd.DataFrame({'tickets_kind': cat_tickets_kind, 'tickets_price': cat_tickets_price})
city.to_csv('travel_introduction.csv', encoding='utf-8')

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

溪风沐雪 2022-04-29 11:43

关注

我给你改了一下，你对比看看吧：

from bs4 import BeautifulSoup
import pandas as pd
import requests

def crawer_travel_introduction(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
    req = requests.get(url, headers=headers)
    content = req.text
    bsObj = BeautifulSoup(content, 'lxml')
    return bsObj

def get_jd_introduction(url):
    cat_tickets_kind = []
    cat_tickets_price= []
    bsobj = crawer_travel_introduction(url)
    bs = bsobj.find_all('dl', {'class': 'clrfix'})
    for j in range(0, len(bs)-1):
        name = bs[j].find('dt')
        pricedd = bs[j].find('dd',{'class':'e_now_price'})
        if name is not None and pricedd is not None:
            price= pricedd.find('span',{'class':'e_price_txt'})
            cat_tickets_kind.append(name.text)
            cat_tickets_price.append(price.text)
    return cat_tickets_kind, cat_tickets_price
url = 'http://travel.qunar.com/p-oi708952-xihu'
cat_tickets_kind, cat_tickets_price = get_jd_introduction(url)
print(cat_tickets_kind, cat_tickets_price)
city = pd.DataFrame({'tickets_kind': cat_tickets_kind, 'tickets_price': cat_tickets_price})
city.to_csv('travel_introduction.csv', encoding='utf-8')

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

Python爬虫求解
2022-12-17 08:25

上海天航芸科技(集团)有限公司的博客谁可以告诉我，就是Python爬虫怎么爬走视频，在线等
VRP-CW-python节约算法求解VRP问题（Python）
2022-05-13 19:25

1、完整代码，可直接运行 2、擅长领域：路径规划、机器学习、数据爬虫、数据分析处理等 3、该资源有较为详尽的注解，非常方便大家阅读与理解。...节约算法求解VRP问题（Python）该资源适用于学习路径规划的同学学习
python的答辩问题及答案_python爬虫面试常见问题
2020-11-23 00:37

weixin_39970855的博客链表存储原理：链表存储是在程序运行过程中动态的分配空间，只要存储器还有空间，就不会发生存储溢出问题优点：插入和删除速度快，保留原有的物理顺序，比如：插入或者删除一个元素时，只需要改变指针指向即可 ...
Python爬虫
2024-11-11 00:23

鱼灯几许的博客 ] [False True True] # 修改数组中的元素 arr3=np.arange(1,13).reshape([3,4]) print(arr3) arr3[0,0]=15 print(arr3) [[ 1 2 3 4] [ 5 6 7 8] [ 9 10 11 12]] [[15 2 3 4] [ 5 6 7 8] [ 9 10 11 12]] # 求解距离...
python爬虫豆瓣返回的结果是中括号[],求解大佬
2021-07-06 14:45

青梦星河的博客
Python 爬虫代码不报错，也不显示爬取内容，求解
2021-12-26 19:31

cortanaji的博客 #coding":"utf-8 import requests import hashlib import time import random import json class Youdao(object): def __init__(self,word): self.url =' ...smartresult=rule' self.header.
【python爬虫】某素材网简历模板获取
2023-03-12 17:05

才短思涩-求解的博客创建保存文件夹：如果没有直接创建，如果有保存路径。创建二级页面内容下载,并保存在对应文件夹内。创建一级页面网址获取模块。创建主函数，并调用模块。
python爬虫经典面试_python爬虫面试宝典(常见问题)
2021-03-06 17:04

不再小心翼翼的博客链表存储原理：链表存储是在程序运行过程中动态的分配空间，只要存储器还有空间，就不会发生存储溢出问题优点：插入和删除速度快，保留原有的物理顺序，比如：插入或者删除一个元素时，只需要改变指针指向即可 ...
python 爬虫调用 js 的库之 execjs
2022-08-30 11:38

才短思涩-求解的博客 python 爬虫调用 js 的库之 execjs 针对现在大部分的网站都是使用 js 加密，js 加载的，并不能直接抓取出来，这时候就不得不使用一些三方类库来执行 js 语句 1. 安装 pip install PyExecJS 2. 运行环境时 execjs 会...
Python实用小工具大全
2021-01-25 17:48

本篇文章将深入探讨标题“Python实用小工具大全”所涵盖的几个关键知识点，包括图片爬取、雷达图绘制、鸡兔同笼问题求解以及螺旋线绘制，同时也涉及到了Python的集成开发环境（IDE）的安装包。首先，我们来讨论...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月29日

python爬虫问题求解

我想爬取西湖的门票种类和价格，但是爬取的内容为空，不知道哪方面出了问题，求解

代码如下：

1条回答 默认 最新

问题事件

1条回答默认最新