爬虫代码没有改变每次爬取的数据不同？


import pymongo
import requests
from lxml import etree
import time
import re

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52'
}

client = pymongo.MongoClient('localhost', 27017)  # 连接数据库
mydb = client['mydb']  # 创建库mydb
musictop = mydb['musictop250']  # 创建表
# 连接数据库

def get_url_music(url):
    """获取每个音乐的链接"""
    web_data = requests.get(url,headers=headers).content.decode()
    html = etree.HTML(web_data)
    selectors = html.xpath('//a[@class="nbg"]/@href')
    for selector in selectors:
        get_info(selector)

def get_info(url):
    """获取网页信息"""
    web_data = requests.get(url,headers=headers).content.decode()
    html = etree.HTML(web_data)
    songs = html.xpath('//*[@id="wrapper"]/h1/span/text()')[0]
    singers = re.findall(' 表演者:.*?<a href=".*?">(.*?)</a>',web_data,re.S)
    styles = re.findall('<span class="pl">流派:</span>&nbsp;(.*?)<br />',web_data,re.S)
    publish_time = re.findall(' <span class="pl">发行时间:</span>&nbsp;(.*?)<br />',web_data,re.S)
    rates = html.xpath('//*[@id="interest_sectl"]/div/div[2]/strong/text()'[0])
    if len(styles)==0:
        styles='未知'
    else:
        styles=styles[0].strip()
    if len(publish_time)==0:
            publish_time='未知'
    else:
        publish_time=publish_time[0].strip()
    if len(singers)==0:
        singers='未知'
    else:
        singers=singers[0].strip()
    print(songs,singers,publish_time,rates)
    data = {
        'song':songs,
        'singer':singers,
        'style':styles,
        'publish_time':publish_time,
        'rate':rates
        }
    musictop.insert_one(data)


if __name__ == '__main__':
    urls = ['https://music.douban.com/top250?start={}'.format(str(i)) for i in range(0, 250, 25)]
    for url in urls:
        get_url_music(url)
        time.sleep(2)

疑惑的问题

每次运行的结果不一样
有时候出现错误有时候没有错误
有时候数据打印的时候都没打印完全就结束进程了

我都感觉是不是我电脑出问题了，希望大家能够帮我解决，谢谢

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿虎呀 2021-09-19 23:42
关注
你应该发一发有什么错误，最佳250音乐，这本来就是可能变得，同时网络不好的时候，睡眠2秒是不够的，加上异常处理部分

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

超强干货之---Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，...在大规模数据爬取时，选择合适的存储方式取决于数据的规模、结构和访问需求。
Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析
2023-09-26 12:04

jojo来根易安的博客本次程序只爬取了豆瓣top250电影的展示页面的数据，没有爬取电影详情页的数据。在前面我们已经获取了每一部电影详情页的链接links，如果想要爬取电影的详情页，可以通过for循环遍历列表links，对每一个详情页发起...
python爬虫爬取多个页面_Python 爬虫爬取多页数据
2020-11-21 00:50

weixin_39583222的博客但是，按照常规的爬取方法是不可行的，因为数据是分页的：最关键的是，不管是第几页，浏览器地址栏都是不变的，所以每次爬虫只能爬取第一页数据。为了获取新数据的信息，点击F12，查看页面源代码，可以发现数据是...
Python爬虫之小说信息爬取与数据可视化分析
2021-01-06 23:51

莫☆离的博客文章目录一、小说数据的获取1.数据的获取2.数据写入.csv文件3.数据写入数据库二、数据的分析与可视化基于pandas库的分析基于matplotlib模块的分析三、作者遇到的一些问题的解决方法作者有话说： 1、本文虽然是一篇...
京东众筹爬虫，可以改变categoryId参数改变爬取数据分类每次爬取需要移除文件夹中的Excel文件，或更改源代码中的Excel表中
2021-07-08 11:35

- 提到“每次爬取需要移除文件夹中的Excel文件”，这表明爬虫可能将抓取的数据存储为Excel文件。Python的pandas库可以方便地进行数据操作和写入Excel。 - 使用`os`库可以实现对文件夹内文件的删除操作，如`os....
Python 爬虫爬取多页数据
2024-06-20 17:39

PDD工程师的博客为了获取新数据的信息，点击F12，查看页面源代码，可以发现数据是使用JS动态加载的，而且没有地址，只有一个skipToPage(…1.获取请求信息，如下图所示，控制台选择Network->XHR，此时，点击页面跳转按钮，控制台会...
python---分页爬取数据
2025-08-04 08:59

President~wolf的博客 openpyxl.xlsx' wb.save(excel_file) print(f"数据已成功保存到 {excel_file}") 其中for start in range(0, 250, 25): 代表：这种写法常用于爬取分页数据，通过改变 start 参数来获取不同页的内容，适用于按 ...
python爬取内网数据_Python爬虫实战：爬取美团美食数据
2020-11-28 14:19

weixin_39995297的博客 Python爬虫实战：爬取美团美食数据前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者：Britain_King1.分析美团美食网页的url参数构成1...
使用python爬虫爬取热门文章分析最新技术趋势
2024-10-29 17:57

I'mAlex的博客本文借助爬虫来分析哪些技术正在快速发展，哪些问题在开发者中引起广泛讨论，从而为学习和研究提供重要参考。
python爬取多页数据_Python 爬虫爬取多页数据
2020-12-04 09:20

weixin_39754603的博客但是，按照常规的爬取方法是不可行的，因为数据是分页的：最关键的是，不管是第几页，浏览器地址栏都是不变的，所以每次爬虫只能爬取第一页数据。为了获取新数据的信息，点击F12，查看页面源代码，可以发现数据是...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月19日

爬虫代码没有改变每次爬取的数据不同？

1条回答 默认 最新

问题事件

1条回答默认最新