让我躺一下 2022-01-20 14:16 采纳率: 88.9%
浏览 44

用爬虫爬头条,返回如下结果



```python
import re
import requests
from bs4 import BeautifulSoup
from lxml import etree
url="https://www.toutiao.com/"
header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36"}
res=requests.get(url=url,headers=header)
patt='<div class="feed-card-article-l"><a href="(.*?)" target="_blank" rel="noopener class="title" aria-lable="(.*?)"><h2 title="(.*?)"</h2></a>'
res=re.findall(pattern=patt,string=res.text,flags=re.S)
print(res)


上面为源代码,下面是输出结果
[]
我尝试了几次,都没效果,希望有人能解答一下
  • 写回答

3条回答 默认 最新

  • 不会翻墙的泰隆 2022-01-20 14:46
    关注

    打印res.text你看看返回的是什么!把Cookie加进去

    评论 编辑记录

报告相同问题?

问题事件

  • 创建了问题 1月20日

悬赏问题

  • ¥15 求差集那个函数有问题,有无佬可以解决
  • ¥15 MATLAB动图问题
  • ¥15 【提问】基于Invest的水源涵养
  • ¥20 微信网友居然可以通过vx号找到我绑的手机号
  • ¥15 寻一个支付宝扫码远程授权登录的软件助手app
  • ¥15 解riccati方程组
  • ¥15 display:none;样式在嵌套结构中的已设置了display样式的元素上不起作用?
  • ¥15 使用rabbitMQ 消息队列作为url源进行多线程爬取时,总有几个url没有处理的问题。
  • ¥15 Ubuntu在安装序列比对软件STAR时出现报错如何解决
  • ¥50 树莓派安卓APK系统签名