python爬虫问题求解

我想爬取西湖的门票种类和价格，但是爬取的内容为空，不知道哪方面出了问题，求解

代码如下：

from bs4 import BeautifulSoup
import pandas as pd
import requests

def crawer_travel_introduction(url):
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
req = requests.get(url, headers=headers)
content = req.text
bsObj = BeautifulSoup(content, 'lxml')
return bsObj

def get_jd_introduction(url):

cat_tickets_kind = []
cat_tickets_price= []


bsobj = crawer_travel_introduction(url)
bs = bsobj.find_all('dl', {'class': 'clrfix  '})
for j in range(0, len(bs)):
    # try:
        name = bs[j].find('dt')
        cat_tickets_kind.append(name.text)
        price = bs[j].find('dd',{'class': 'e_old_price'}).find('del')
        cat_tickets_price.append(price.text)
    # except:
    #     print('wrong')
return cat_tickets_kind, cat_tickets_price

url = 'http://travel.qunar.com/p-oi708952-xihu'
cat_tickets_kind, cat_tickets_price = get_jd_introduction(url)
city = pd.DataFrame({'tickets_kind': cat_tickets_kind, 'tickets_price': cat_tickets_price})
city.to_csv('travel_introduction.csv', encoding='utf-8')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

溪风沐雪 2022-04-29 11:43

关注

我给你改了一下，你对比看看吧：

from bs4 import BeautifulSoup
import pandas as pd
import requests

def crawer_travel_introduction(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
    req = requests.get(url, headers=headers)
    content = req.text
    bsObj = BeautifulSoup(content, 'lxml')
    return bsObj

def get_jd_introduction(url):
    cat_tickets_kind = []
    cat_tickets_price= []
    bsobj = crawer_travel_introduction(url)
    bs = bsobj.find_all('dl', {'class': 'clrfix'})
    for j in range(0, len(bs)-1):
        name = bs[j].find('dt')
        pricedd = bs[j].find('dd',{'class':'e_now_price'})
        if name is not None and pricedd is not None:
            price= pricedd.find('span',{'class':'e_price_txt'})
            cat_tickets_kind.append(name.text)
            cat_tickets_price.append(price.text)
    return cat_tickets_kind, cat_tickets_price
url = 'http://travel.qunar.com/p-oi708952-xihu'
cat_tickets_kind, cat_tickets_price = get_jd_introduction(url)
print(cat_tickets_kind, cat_tickets_price)
city = pd.DataFrame({'tickets_kind': cat_tickets_kind, 'tickets_price': cat_tickets_price})
city.to_csv('travel_introduction.csv', encoding='utf-8')

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
关于#python#的问题：python爬虫 python 爬虫
2023-04-06 21:17

回答 2 已采纳根据代码片段，您的问题可能出现在XPath表达式上。您在获取评论列表的Xpath表达式中使用了.format(j)，但是您并没有在字符串中使用花括号来表示要替换的值。因此，.format(j)部分被忽
python爬虫爬取图片下载本地 python 爬虫
2021-10-29 22:05

回答 2 已采纳文件路径不能有斜杠
Python爬虫求解
2022-12-17 08:25

小小冒险家[企业]的博客谁可以告诉我，就是Python爬虫怎么爬走视频，在线等
python爬虫，requests.get()参数问题 python 爬虫
2022-09-01 23:25

回答 2 已采纳 str返回的是1列表吗？把str打印出来看看
【Python爬虫】网络问题Errno 11001 python 有问必答
2021-09-04 09:43

回答 1 已采纳这个是代理连接不上的问题，IP质量有问题
关于Python爬虫基础 python
2021-08-06 15:34

回答 1 已采纳因为response是一个request库内设计好的对象，直接打印这个对象，打印的就是处理过的它的字符串形式。而content是这个对象的属性，这个属性在对象中被处理过了，所以你打印content获得
VRP-CW-python节约算法求解VRP问题（Python）
2022-05-13 19:25

1、完整代码，可直接运行 2、擅长领域：路径规划、机器学习、数据爬虫、数据分析处理等 3、该资源有较为详尽的注解，非常方便大家阅读与理解。...节约算法求解VRP问题（Python）该资源适用于学习路径规划的同学学习
刚接触爬虫，问题求解。 python
2022-10-17 16:36

回答 2 已采纳自己想了几天，方法都试了些，终于弄明白了 pip命令和conda命令是不能一起用的，pip下载的包conda管理不了，导致我pip下载的scrapy在conda和pycharm上卸都卸不掉。后面用pi
Python爬虫错误：json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0) json python 有问必答爬虫
2022-02-22 13:40

回答 5 已采纳 async+await方法的url多了个斜杠，去掉就行了。要不多的那个斜杠接口出错返回的是html代码了，调用json()出错了，内容不是json字符串测试代码如下 import json im
关于python异步协程的问题，求解？ python 其他可用性测试有问必答
2021-10-08 22:10

回答 1 已采纳首先看你的数据对象不是json类型呀，报错说他是text类型,至于携程方面知识的我也好久没看了，看样子，携程方面应该没问题
python的答辩问题及答案_python爬虫面试常见问题
2020-11-23 00:37

weixin_39970855的博客链表存储原理：链表存储是在程序运行过程中动态的分配空间，只要存储器还有空间，就不会发生存储溢出问题优点：插入和删除速度快，保留原有的物理顺序，比如：插入或者删除一个元素时，只需要改变指针指向即可 ...
写爬虫时for in 循环有问题 python selenium 爬虫
2022-08-04 17:07

回答 2 已采纳 pro_list = a2.xpath('//*[@class="item4line1"]/dl') print(pro_list) for pro in pro_list: pic = pr
蚁群算法求解TSP问题资源python实现
2023-03-30 01:37

1、完整代码，可直接运行 2、擅长领域：路径规划、机器学习、数据爬虫、数据分析处理等 3、该资源有较为详尽的注解，非常方便大家阅读与理解。资源内容： python版本蚁群算法求解TSP问题。
模拟退火算法求解TSP问题资源python实现
2023-03-30 01:45

1、完整代码，可直接运行 2、擅长领域：路径规划、机器学习、数据爬虫、数据分析处理等 3、该资源有较为详尽的注解，非常方便大家阅读与理解。资源内容： python版本模拟退火算法求解TSP问题。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月29日

悬赏问题

¥20 wireshark抓不到vlan
¥20 关于#stm32#的问题：需要指导自动酸碱滴定仪的原理图程序代码及仿真
¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
¥15 stata安慰剂检验作图但是真实值不出现在图上
¥15 c程序不知道为什么得不到结果
¥40 复杂的限制性的商函数处理
¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来