使用scrapy框架爬取网页信息,状态码是200,但是获取不到信息??

这是我的代码:

运行结果是这样:

经过我自己的分析,可能有两个原因,第一个是前程无忧网站设置的反爬虫机制,第二个是在写爬虫规则是,正则表达式有误,我发出来,麻烦大家帮我看一下,到底是哪里出了问题???

我要解析的页面的url是:https://jobs.51job.com/chengde/127289472.html?s=01&t=0,这里边只有中间的“chengde/127289472”是变化的,其他的部分都是固定的,然后我写的正则表达式是:r'https://jobs.51job.com/.+/\d+\.html.+',不知道这个正则表达式是否有误?

查看全部
weixin_46029722
weixin_46029722
2020/11/26 16:31
  • python
  • 点赞
  • 收藏
  • 回答
    私信

1个回复