MAYA821 2023-11-25 14:27 采纳率: 0%
浏览 40

使用Python爬取安居客房产网站的网页数据需要绕过下面的反爬机制,关于#python#的问题,请各位专家解答!(相关搜索:python爬虫)

img

img

我已经添加了headers跟cookies,现在还是爬不了,只要一刷新就会需要验证


```python
import requests
from lxml import etree
url='https://cd.fang.anjuke.com/?from=AF_Home_switchcity'
cook={'Cookie':
'aQQ_ajkguid=A5732A3A-F490-A6B9-C29A-867BE43A63FA;'
' ajk-appVersion=; id58=CrIcnGVUbVG0LwRCOBJkAg==; isp=true;'
' 58tj_uuid=72b4c361-41de-43f5-8c45-8a89d8d4505c; als=0;'
' sessid=C89D1AED-C4B2-E71D-870F-SX1125123403; obtain_by=2;'
' twe=2; init_refer=https%253A%252F%252Fcn.bing.com%252F;'
' new_uv=2; ctid=15; new_session=0'}
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                     'AppleWebKit/537.36 (KHTML, like Gecko)'
                     ' Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'}
refer={'https://chengdu.anjuke.com/?from=HomePage_City'}
# proxy = {
#     'https':'https://182.46.113.194:9999',
#     'https':'https://112.85.150.220:9999'
# }
res=requests.get(url,headers=header,cookies=cook)
html=etree.HTML(res.text)
title=html.xpath('//*[@class="infos"]//a/span/text()')
print(res.status_code)
print(res.text)

```

  • 写回答

2条回答 默认 最新

  • DTcode7 前端领域优质创作者 2024-05-15 15:09
    关注

    答案引用自chatgpt生成,望对题主有所帮助/启发;若有帮助,还望采纳!

    要使用Python爬取安居客房产网站的网页数据并绕过反爬机制,可以采用以下方法:

    1. 设置User-Agent:模拟浏览器访问,避免被识别为爬虫。
    2. 使用代理IP:避免因访问频率过高而被封IP。
    3. 设置请求头:添加Referer、Accept等字段,增加请求的合法性。
    4. 使用cookie:登录后获取cookie,保持会话状态。
    5. 使用动态加载技术:如Selenium、PhantomJS等,模拟浏览器行为。

    以下是一个简单的示例代码:

    import requests
    from bs4 import BeautifulSoup
    
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
        'Referer': 'https://www.anjuke.com/',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    }
    
    url = 'https://www.anjuke.com/fangjia/'
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 解析网页数据,提取所需信息
    # ...
    

    注意:以上代码仅作为示例,实际操作时需要根据具体需求进行调整。同时,爬虫可能会对网站造成压力,请合理使用。

    评论

报告相同问题?

问题事件

  • 修改了问题 11月25日
  • 请提交代码 11月25日
  • 创建了问题 11月25日

悬赏问题

  • ¥30 YOLO检测微调结果p为1
  • ¥20 求快手直播间榜单匿名采集ID用户名简单能学会的
  • ¥15 DS18B20内部ADC模数转换器
  • ¥15 做个有关计算的小程序
  • ¥15 MPI读取tif文件无法正常给各进程分配路径
  • ¥15 如何用MATLAB实现以下三个公式(有相互嵌套)
  • ¥30 关于#算法#的问题:运用EViews第九版本进行一系列计量经济学的时间数列数据回归分析预测问题 求各位帮我解答一下
  • ¥15 setInterval 页面闪烁,怎么解决
  • ¥15 如何让企业微信机器人实现消息汇总整合
  • ¥50 关于#ui#的问题:做yolov8的ui界面出现的问题