snakesama 2021-07-25 16:34 采纳率: 100%
浏览 42
已结题

python爬虫的节点选择器无效

如下图:
img
在节点内

img

我想爬取href的数据,既/tjgb/20gx/36169.html
但是我代码写content_all = soup.find_all.table(class_="box") 时却什么也爬不下来,结果是个空列表。
请问应该怎么准确定位到包含href内容的那个节点呢?
网站的网址是 http://tjcn.org/tjgb/20gx/index.html
以下是我写的代码
import re
import requests
from bs4 import BeautifulSoup

for page in range(0,10):

url = f"http://www.tjcn.org/tjgb/20gx/index_{page}.html"

if page == 0:
    url = "http://www.tjcn.org/tjgb/20gx/index.html"
print(url)

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"}

response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
html = response.text

soup = BeautifulSoup(html, "lxml")

content_all = soup.find_all.table(class_="box")
print(content_all)
  • 写回答

3条回答 默认 最新

  • 芒果去核 2021-07-25 18:49
    关注

    改下定位操作就行了。

    
    ```python
    import re
    import requests
    from bs4 import BeautifulSoup
    
    for page in range(0,10):
        url = f"http://www.tjcn.org/tjgb/20gx/index_{page}.html"
        if page == 0:
            url = "http://www.tjcn.org/tjgb/20gx/index.html"
        #print(url)
        headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"}
        response = requests.get(url, headers=headers)
        response.encoding = response.apparent_encoding
        html = response.text
        #print(html)
        soup = BeautifulSoup(html, "lxml")
        # content_all = soup.find_all.table(class_="box")
        # print(content_all)
        
        #定位到<ul>标签
        items = soup.find_all('ul')
        for li in items:
            #获取<a>标签下的href
            href = li.find('a').get('href')
            print(href)
           
    
    
    

    ```

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 8月3日
  • 已采纳回答 7月26日
  • 创建了问题 7月25日

悬赏问题

  • ¥15 公交车和无人机协同运输
  • ¥15 stm32代码移植没反应
  • ¥15 matlab基于pde算法图像修复,为什么只能对示例图像有效
  • ¥100 连续两帧图像高速减法
  • ¥15 组策略中的计算机配置策略无法下发
  • ¥15 如何绘制动力学系统的相图
  • ¥15 对接wps接口实现获取元数据
  • ¥20 给自己本科IT专业毕业的妹m找个实习工作
  • ¥15 用友U8:向一个无法连接的网络尝试了一个套接字操作,如何解决?
  • ¥30 我的代码按理说完成了模型的搭建、训练、验证测试等工作(标签-网络|关键词-变化检测)