Sanmu_mumu 2021-08-27 15:54 采纳率: 83.3%
浏览 85
已结题

用Python爬取智慧树问题时,没办法入到soup.find_all()的for循环中

现在需要爬取智慧树(需要登陆)网站上的问题内容和学生的回答

用Python爬取出现了一系列的问题

首先是从网页中复制的cookie在粘贴到他处的时候cookie貌似被编译了(复制前是一串字符,复制后出现了括号,出现了该账号的昵称,以至于我没办法从代码里加入cookie)

其次存在一个问题就是无法进入for循环,个人觉得有可能是两个方面出了问题,一个方面是该网页大概需要动态爬取,另一个方面可能是cookie的原因以至于无法登录进去

import sqlite3
from bs4 import BeautifulSoup  # 网页解析
import re  # 正则表达式,进行文字匹配
import urllib.request, urllib.error  # 指定URL,获取网页数据
import xlwt  # 进行表格操作

def main():
    baseurl = "https://qah5.zhihuishu.com/qa.html#/web/home/1000010562?role=2&recruitId=48192&VNK=575f239e"
    datalist = getDate(baseurl)


# 爬取网页
def getDate(baseurl):
    # 调用单个页面的内容
    url = baseurl
    html = askURL(url)  # 执行一次拿到一页内容
    # 2.解析数据
    soup = BeautifulSoup(html, "html.parser")
    for item in soup.find_all('div', class_="title"):  # 在一定的范围内进行查找
        #   for item in soup.find_all('span',class_="title"):
        item = str(item)
        print(item)


# 得到指定一个URL的网页内容
def askURL(url):     
    head = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.55"

    }
    # 换头,伪装
    request = urllib.request.Request(url, headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html


if __name__ == "__main__":
    main()
    print("爬取完毕")


  • 写回答

1条回答 默认 最新

  • 咕泡-Tony 2021-08-27 20:47
    关注

    因为你数据没有抓取到, 所以打印没输出

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 9月7日
  • 已采纳回答 8月30日
  • 创建了问题 8月27日

悬赏问题

  • ¥15 如何处理复杂数据表格的除法运算
  • ¥15 如何用stc8h1k08的片子做485数据透传的功能?(关键词-串口)
  • ¥15 有兄弟姐妹会用word插图功能制作类似citespace的图片吗?
  • ¥200 uniapp长期运行卡死问题解决
  • ¥15 请教:如何用postman调用本地虚拟机区块链接上的合约?
  • ¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题:[h264 @ 000000004faf7500]no frame?
  • ¥15 乘性高斯噪声在深度学习网络中的应用
  • ¥15 关于docker部署flink集成hadoop的yarn,请教个问题 flink启动yarn-session.sh连不上hadoop,这个整了好几天一直不行,求帮忙看一下怎么解决
  • ¥15 深度学习根据CNN网络模型,搭建BP模型并训练MNIST数据集
  • ¥15 C++ 头文件/宏冲突问题解决