爬虫的数据提取失败了

爬虫数据提取失败

import requests
from bs4 import BeautifulSoup
import time  # 导入相应的库文件
headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
        ' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}   # 加入请求头

def get_info(url):
    '''
    :param url: 参数：要请求的链接
    :return: 空
    '''
    wb_data = requests.get(url, headers=headers)  # 发送网页请求
    soup = BeautifulSoup(wb_data.text, 'lxml')   # 对网页内容进行解析 wb_data.text表示网页源代码
    ranks = soup.select('span.pc_temp_num')
    titles = soup.select('div.pc_temp_songlist > u1 > li >a')
    times = soup.select('span.pc_temp_tips_r > span')
    for rank, title, time in zip(ranks, titles, times):
       data = {
           'rank': rank.get_text().strip(),
           'singer': title.get_text().split('-')[0],
           'song': title.get_text().split('-')[1],
           'time': time.get_text().strip()
       }
       print(data)

if __name__ == '__main__':
    urls = ['https://www.kugou.com/yy/rank/home/{}-8888.html'.format(str(i)) for i in range(1,24)] #酷狗音乐
    for url in urls:
        get_info(url)
    time.sleep(1)

运行结果如下

是否是头部访问的地方有问题呢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

piaoyiren 2022-07-12 20:05

关注


import requests
from bs4 import BeautifulSoup
import time  # 导入相应的库文件
headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
        ' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}   # 加入请求头
 
def get_info(url):
    '''
    :param url: 参数：要请求的链接
    :return: 空
    '''
    wb_data = requests.get(url, headers=headers)  # 发送网页请求
    soup = BeautifulSoup(wb_data.text, 'lxml')   # 对网页内容进行解析 wb_data.text表示网页源代码
    ranks = soup.select('span.pc_temp_num')
    # titles = soup.select('div.pc_temp_songlist > u1 > li >a')
    times = soup.select('span.pc_temp_tips_r > span')
    for rank, time in zip(ranks,  times):
       data = {
           'rank': rank.get_text().strip(),
           # 'singer': title.get_text().split('-')[0],
           # 'song': title.get_text().split('-')[1],
           'time': time.get_text().strip()
       }
       print(data)
 
if __name__ == '__main__':
    urls = ['https://www.kugou.com/yy/rank/home/{}-8888.html'.format(str(i)) for i in range(1,24)] #酷狗音乐
    for url in urls:
        get_info(url)
        time.sleep(1)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

爬虫的数据提取失败了 python 爬虫
2022-07-12 20:00

回答 1 已采纳 import requests from bs4 import BeautifulSoup import time # 导入相应的库文件 headers = { 'user-age
如何将爬虫爬取的数据进行排版 python 数据挖掘爬虫
2022-02-28 22:22

回答 1 已采纳看你想怎么处理了，可以放到一行，可以放到word里，可以用Excel，你选一个，我教你另外你的代码需要看一下，要不不好改
python爬虫数据显示问题 python 爬虫
2022-07-20 16:54

回答 3 已采纳首先，你这里写错了divs = query(".cm-content-box").items()
利用Python进行网络爬虫和数据采集
2023-07-16 15:54

sj52abcd的博客在示例代码中，首先导入了BeautifulSoup库，然后创建了一个BeautifulSoup对象，将网页内容传递给它进行解析。...# 在这里进行网页内容的解析和提取所需数据的操作。3. 使用解析库解析网页内容，提取所需的数据。
Python网络爬虫中json解析失败 json python 有问必答爬虫
2022-02-26 20:51

回答 2 已采纳这个接口返回的是jsonp数据，不是json，要获取text替换掉回调函数名称和前后的括号后才是json数据
Python爬虫在论坛查询数据 python 开发语言有问必答爬虫
2022-11-10 10:27

回答 2 已采纳查询出来的都是我大号的金币数量根据这个提示cookie没有更新，发送查询请求时仍然是大号的cookie身份信息
python爬虫下载PDF失败 python 爬虫
2023-03-27 13:35

回答 3 已采纳感谢两位。我刚刚分析了一下所有下载异常的文件，名字中都有冒号：，replace替换后现在可以下载了。
Python爬虫入门之爬虫解析提取数据的四种方法_python 爬数据
2024-04-27 16:05

APP源码解析的博客 print({‘标题’: title, ‘链接’: link})同样是requests+BeautifulSoup的爬虫组合，但在信息提取上采用了find_all的方式。效果如下：方式三：requests+lxml/etree+xpath表达式Win64;print({‘标题’: i[0],
抓包数据和爬虫数据不一样 python 爬虫
2022-09-16 18:03

回答 1 已采纳补全headers和cookies相关参数再去请求就好了
请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 21:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
python爬虫数据与网页不一致 python 爬虫
2022-08-16 16:50

回答 2 已采纳 rows是行数，你改成10000，一次性爬完，不用翻页。
python爬虫之数据解析
2023-04-18 17:49

人间试炼游戏的博客本文主要介绍如何使用bs4和xpath以及正则表达式进行python爬虫数据解析
python爬虫如何精确提取a标签 pycharm python 爬虫
2022-02-12 15:12

回答 1 已采纳远程看看可以吗
【Python百宝箱】抓取世界：网络爬虫和数据提取全家桶
2024-01-03 14:12

friklogff的博客本文介绍了十个Python库，用于网络爬虫和数据提取。这些库包括Scrapy、Beautiful Soup、Selenium、Requests、LXML、Pandas、PyQuery、Feedparser、Tesserocr和Newspaper。每个库都有其独特的特点和优势，适用于不同...
Python爬虫入门之爬虫解析提取数据的四种方法_爬取方法选择(1)
2024-04-27 16:06

APP源码解析的博客知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到...
没有解决我的问题, 去提问