关于#爬虫#的问题：爬虫爬取tr中的td内容，我的代码之前可以爬另一个几乎一样的网页(语言-python)

爬虫爬取tr中的td内容，我的代码之前可以爬另一个几乎一样的网页，不知道为什么这个就不行了

写回答
好问题 1 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
bingbingyihao 2023-03-08 12:13
关注
回答：你可以把你的脚本贴一下，这个网页结构还是比较清晰的，可以用beautifulsoup比较容易获取到内容

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容
Qwerthd 2023-03-08 12:55

import requests
from bs4 import BeautifulSoup

headers = {
"user-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36"
}
url = 'http://www.volleychina.org/chnwvt2015.htmll'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

tr_list = soup.select('.detail-context tr')
print(tr_list)
f = open('./女排名单/2015女排名单.txt', 'w+', encoding='utf-8')
for tr in tr_list:
td_list = tr.select('td')
# name = td_list[0].text.strip()
# birthtime=td_list[1].text.strip()
# height=td_list[2].text.strip()
# smash=td_list[4].text.strip()
# block=td_list[5].text.strip()
# position = td_list[6].text.strip()
# province=td_list[-1].text.strip()

附代码的话会被判断成违规

赞

回复

编辑

预览

轻敲空格完成输入
显示为

卡片

标题

链接

回复

按下Enter换行，Ctrl+Enter发表内容
bingbingyihao 回复 Qwerthd 2023-03-08 13:15

回答：得嘞，这个网站地址有误，打不开的，爬取不到内容

赞

回复

编辑

预览

轻敲空格完成输入
显示为

卡片

标题

链接

回复

按下Enter换行，Ctrl+Enter发表内容
Qwerthd 回复 bingbingyihao 2023-03-08 13:31

等会，网址错了，html后面多了一个l。我靠，也算是你帮忙了

赞

回复

编辑

预览

轻敲空格完成输入
显示为

卡片

标题

链接

回复

按下Enter换行，Ctrl+Enter发表内容
展开全部6条评论

编辑

预览

报告相同问题？

关注问题

用爬虫爬取网页，表格第一行内容无法获得 python 爬虫
2021-12-14 01:11

回答 1 已采纳如果是想要获得标题，表头用的是th，不是td。和表格正文内容不是一样的。
请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 13:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
想用pycharm爬虫提取一个网页 pycharm python 爬虫
2021-07-29 16:11

回答 4 已采纳对你有帮助的话，建议采纳。
Python-数据爬取（爬虫）
2024-07-12 09:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，直到遍历完所有节点。特点递归：通常用递归实现，或者使用栈来模拟递归过程。...
python爬虫通过xpath无法正常解析欲爬取元素 html python 爬虫
2022-01-04 10:04

回答 1 已采纳我是JAVA的xpath html.xpath("//table[@id='main_table_countries_today']/tbody/tr[@style=' ']").你看着修改下
Python爬虫只解析了一部分网页？ python 爬虫
2021-11-19 06:39

回答 1 已采纳第一个问题，你用html.xpath('//div[@class="co_content8"]/ul/table')找不到，是因为在table那一类，有很多分支标签，所以定位不到具体的元素。第二个问题
爬虫时显示报错：IndexError: list index out of range python 爬虫
2022-11-19 11:13

回答 2 已采纳这一行：for tr in soup.find('body').children: 中的 'body' 改为 'tbody'.
Python爬虫：爬取2023中国软科大学排行榜
2024-01-16 15:55

**Python爬虫：爬取2023中国软科大学排行榜** 在信息技术高速发展的今天，数据已经成为企业、研究机构和个人决策的重要依据。Python作为一种强大的编程语言，因其简洁易学的语法和丰富的第三方库，尤其在数据抓取和...
如何使用python爬虫从企查查上获得专利文献内容？ python windows 有问必答爬虫
2021-12-18 03:16

回答 2 已采纳题主要的代码如下， from bs4 import BeautifulSoup import requests header = {"user-agent":"Mozilla/5.0.html (
关于爬虫百度百科问题，求教各位。代码如下，运行提示错误。爬虫
2017-10-19 01:26

回答 4 已采纳你先搞个简单的试试能不能用urlopen访问百度百科，一般大的网站都做了防爬处理。
爬虫遇到AttributeError: 'NoneType' object has no attribute 'children'该如何解决 python 爬虫
2022-11-19 04:53

回答 2 已采纳 request设置参数verify=False r = requests.get(url, timeout=30, verify=False)
Python爬虫案例与实战：爬取源代码练习评测结果
2024-08-07 01:39

andyyah晓波的博客本章案例将介绍用 Python编写程序实现简单网站的模拟登录，然后保持登录后的网页会话，并在会话中模拟网页表单提交，之后使用 Requests库的高级特性爬取提交之后的返回结果。在HTTP网页中，如登录、提交和上传等操作...
python爬虫爬取网页表格数据
2020-09-20 09:53

Python提供了多个库来辅助这一过程，如BeautifulSoup和requests，这两个库在上述代码中被广泛使用。首先，`requests`库用于发送HTTP请求并获取网页内容。在`check_link()`函数中，我们通过`requests.get(url)`方法...
C#爬虫获取网页中表格数据
2018-06-20 08:18

C#爬虫获取网页中表格数据在本文中，我们将介绍如何使用C#语言来爬取网页中的表格数据。爬虫技术可以帮助我们快速地获取网络上的信息，从而满足我们的需求。爬虫概述爬虫是指一种自动化的程序，可以模拟用户的...
进阶网络爬虫实践内容---微博网页内容爬取
2023-12-15 01:31

楠笙屿海的博客实战内容：访问微博热搜榜，获取微博热搜榜前50条热搜名称、链接及其实时热度，并将获取到的数据通过邮件的形式，每20秒发送到个人邮箱中。
没有解决我的问题, 去提问