MAYA821 2023-11-25 14:27 采纳率: 0%
浏览 29

使用Python爬取安居客房产网站的网页数据需要绕过下面的反爬机制,关于#python#的问题,请各位专家解答!(相关搜索:python爬虫)

img

img

我已经添加了headers跟cookies,现在还是爬不了,只要一刷新就会需要验证


```python
import requests
from lxml import etree
url='https://cd.fang.anjuke.com/?from=AF_Home_switchcity'
cook={'Cookie':
'aQQ_ajkguid=A5732A3A-F490-A6B9-C29A-867BE43A63FA;'
' ajk-appVersion=; id58=CrIcnGVUbVG0LwRCOBJkAg==; isp=true;'
' 58tj_uuid=72b4c361-41de-43f5-8c45-8a89d8d4505c; als=0;'
' sessid=C89D1AED-C4B2-E71D-870F-SX1125123403; obtain_by=2;'
' twe=2; init_refer=https%253A%252F%252Fcn.bing.com%252F;'
' new_uv=2; ctid=15; new_session=0'}
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                     'AppleWebKit/537.36 (KHTML, like Gecko)'
                     ' Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'}
refer={'https://chengdu.anjuke.com/?from=HomePage_City'}
# proxy = {
#     'https':'https://182.46.113.194:9999',
#     'https':'https://112.85.150.220:9999'
# }
res=requests.get(url,headers=header,cookies=cook)
html=etree.HTML(res.text)
title=html.xpath('//*[@class="infos"]//a/span/text()')
print(res.status_code)
print(res.text)

```

  • 写回答

2条回答 默认 最新

  • DTcode7 前端领域优质创作者 2024-05-15 15:09
    关注

    答案引用自chatgpt生成,望对题主有所帮助/启发;若有帮助,还望采纳!

    要使用Python爬取安居客房产网站的网页数据并绕过反爬机制,可以采用以下方法:

    1. 设置User-Agent:模拟浏览器访问,避免被识别为爬虫。
    2. 使用代理IP:避免因访问频率过高而被封IP。
    3. 设置请求头:添加Referer、Accept等字段,增加请求的合法性。
    4. 使用cookie:登录后获取cookie,保持会话状态。
    5. 使用动态加载技术:如Selenium、PhantomJS等,模拟浏览器行为。

    以下是一个简单的示例代码:

    import requests
    from bs4 import BeautifulSoup
    
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
        'Referer': 'https://www.anjuke.com/',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    }
    
    url = 'https://www.anjuke.com/fangjia/'
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 解析网页数据,提取所需信息
    # ...
    

    注意:以上代码仅作为示例,实际操作时需要根据具体需求进行调整。同时,爬虫可能会对网站造成压力,请合理使用。

    评论

报告相同问题?

问题事件

  • 修改了问题 11月25日
  • 请提交代码 11月25日
  • 创建了问题 11月25日

悬赏问题

  • ¥100 复现论文:matlab仿真代码编写
  • ¥15 esp32驱动GC9A01循环播放视频
  • ¥15 惠普360g9的最新bios
  • ¥30 这个功能用什么软件发合适?
  • ¥60 微信小程序,取消订单,偶尔订单没有改变状态
  • ¥15 用pytorch实现PPO算法
  • ¥15 关于调制信号的星座图?
  • ¥30 前端传参时,后端接收不到参数
  • ¥15 这是有什么问题吗,我检查许可证了但是显示有呢
  • ¥15 机器学习预测遇到的目标函数问题