顽空 2021-04-20 22:35 采纳率: 50%
浏览 82
已采纳

最近学习爬虫,可是代码出来之后效果很不对劲,有大神看看出了什么问题,谢谢了……

import requests
from bs4 import BeautifulSoup

url = 'https://699pic.com/qingnianshenghuo.html'

resp = requests.get(url)
resp.encoding='utf-8'

main_page= BeautifulSoup(resp.text, 'html.parser')

alist = main_page.find_all("div", class_="photo-tag")
child_href_list=[]
for a in alist:


    w=a.find("a")

    hrefs = "https:"+w.get("href")
    child_href_list.append(hrefs)
    
    for href in child_href_list:
        child_page_resp = requests.get(href)
        child_page_resp.encoding="utf_8"
        child_page_text = child_page_resp.text
        child_page=BeautifulSoup(child_page_text,"html.parser")
        p = child_page.find("a", class_="photo-img-link")

        img = p.find("img")



        print("https:"+img.get("src"))

主要是抓取的图片重复的太厉害,尤其是第一张图片,没有规律的循环重复……

  • 写回答

4条回答 默认 最新

  • CSDN专家-HGJ 2021-04-20 22:51
    关注
    for href in child_href_list:
            child_page_resp = requests.get(href)
            child_page_resp.encoding="utf_8"
            child_page_text = child_page_resp.text
            child_page=BeautifulSoup(child_page_text,"html.parser")
            p = child_page.find("a", class_="photo-img-link")
    
            img = p.find("img")
    
    
    
            print("https:"+img.get("src"))

    这段代码不要放到for a in alist:循环里,提到外面就可以了

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(3条)

报告相同问题?

悬赏问题

  • ¥15 装 pytorch 的时候出了好多问题,遇到这种情况怎么处理?
  • ¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
  • ¥15 手机接入宽带网线,如何释放宽带全部速度
  • ¥30 关于#r语言#的问题:如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测
  • ¥15 ETLCloud 处理json多层级问题
  • ¥15 matlab中使用gurobi时报错
  • ¥15 这个主板怎么能扩出一两个sata口
  • ¥15 不是,这到底错哪儿了😭
  • ¥15 2020长安杯与连接网探
  • ¥15 关于#matlab#的问题:在模糊控制器中选出线路信息,在simulink中根据线路信息生成速度时间目标曲线(初速度为20m/s,15秒后减为0的速度时间图像)我想问线路信息是什么