Sanmu_mumu 2021-08-27 15:54 采纳率: 83.3%
浏览 85
已结题

用Python爬取智慧树问题时,没办法入到soup.find_all()的for循环中

现在需要爬取智慧树(需要登陆)网站上的问题内容和学生的回答

用Python爬取出现了一系列的问题

首先是从网页中复制的cookie在粘贴到他处的时候cookie貌似被编译了(复制前是一串字符,复制后出现了括号,出现了该账号的昵称,以至于我没办法从代码里加入cookie)

其次存在一个问题就是无法进入for循环,个人觉得有可能是两个方面出了问题,一个方面是该网页大概需要动态爬取,另一个方面可能是cookie的原因以至于无法登录进去

import sqlite3
from bs4 import BeautifulSoup  # 网页解析
import re  # 正则表达式,进行文字匹配
import urllib.request, urllib.error  # 指定URL,获取网页数据
import xlwt  # 进行表格操作

def main():
    baseurl = "https://qah5.zhihuishu.com/qa.html#/web/home/1000010562?role=2&recruitId=48192&VNK=575f239e"
    datalist = getDate(baseurl)


# 爬取网页
def getDate(baseurl):
    # 调用单个页面的内容
    url = baseurl
    html = askURL(url)  # 执行一次拿到一页内容
    # 2.解析数据
    soup = BeautifulSoup(html, "html.parser")
    for item in soup.find_all('div', class_="title"):  # 在一定的范围内进行查找
        #   for item in soup.find_all('span',class_="title"):
        item = str(item)
        print(item)


# 得到指定一个URL的网页内容
def askURL(url):     
    head = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.55"

    }
    # 换头,伪装
    request = urllib.request.Request(url, headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html


if __name__ == "__main__":
    main()
    print("爬取完毕")


  • 写回答

1条回答 默认 最新

  • 咕泡-Tony 2021-08-27 20:47
    关注

    因为你数据没有抓取到, 所以打印没输出

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 9月7日
  • 已采纳回答 8月30日
  • 创建了问题 8月27日

悬赏问题

  • ¥15 keil 5 编程智能家具,风扇台灯开关,人体感应等
  • ¥100 找一名渗透方面的专家
  • ¥20 使用Matlab gui设计一个插补小程序
  • ¥15 evo评估时曲线出现问题
  • ¥15 eNSP拓扑图配置实验
  • ¥20 有没有兄弟会替换fmod studio的.bank文件内的音效?
  • ¥20 如何解决访问网址被屏蔽的情况
  • ¥15 本地运行的vue2项目,使用内网穿透,前端界面一直转圈圈
  • ¥20 powerbuilder datawindow控件导出Excel数据,可不可以不自动覆盖原数据,而是在后面新插入入数据。
  • ¥15 telegram 问题