Sanmu_mumu 2021-08-27 15:54 采纳率: 83.3%
浏览 87
已结题

用Python爬取智慧树问题时,没办法入到soup.find_all()的for循环中

现在需要爬取智慧树(需要登陆)网站上的问题内容和学生的回答

用Python爬取出现了一系列的问题

首先是从网页中复制的cookie在粘贴到他处的时候cookie貌似被编译了(复制前是一串字符,复制后出现了括号,出现了该账号的昵称,以至于我没办法从代码里加入cookie)

其次存在一个问题就是无法进入for循环,个人觉得有可能是两个方面出了问题,一个方面是该网页大概需要动态爬取,另一个方面可能是cookie的原因以至于无法登录进去

import sqlite3
from bs4 import BeautifulSoup  # 网页解析
import re  # 正则表达式,进行文字匹配
import urllib.request, urllib.error  # 指定URL,获取网页数据
import xlwt  # 进行表格操作

def main():
    baseurl = "https://qah5.zhihuishu.com/qa.html#/web/home/1000010562?role=2&recruitId=48192&VNK=575f239e"
    datalist = getDate(baseurl)


# 爬取网页
def getDate(baseurl):
    # 调用单个页面的内容
    url = baseurl
    html = askURL(url)  # 执行一次拿到一页内容
    # 2.解析数据
    soup = BeautifulSoup(html, "html.parser")
    for item in soup.find_all('div', class_="title"):  # 在一定的范围内进行查找
        #   for item in soup.find_all('span',class_="title"):
        item = str(item)
        print(item)


# 得到指定一个URL的网页内容
def askURL(url):     
    head = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.55"

    }
    # 换头,伪装
    request = urllib.request.Request(url, headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html


if __name__ == "__main__":
    main()
    print("爬取完毕")


  • 写回答

1条回答 默认 最新

  • 咕泡-Tony 2021-08-27 20:47
    关注

    因为你数据没有抓取到, 所以打印没输出

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 9月7日
  • 已采纳回答 8月30日
  • 创建了问题 8月27日

悬赏问题

  • ¥15 网络科学导论,网络控制
  • ¥15 metadata提取的PDF元数据,如何转换为一个Excel
  • ¥15 关于arduino编程toCharArray()函数的使用
  • ¥100 vc++混合CEF采用CLR方式编译报错
  • ¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误,如何解决?
  • ¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
  • ¥15 c#逐行读取txt文本,但是每一行里面数据之间空格数量不同
  • ¥50 如何openEuler 22.03上安装配置drbd
  • ¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
  • ¥15 无线连接树莓派,无法执行update,如何解决?(相关搜索:软件下载)