Python+XPath网页爬虫问题

我希望制作百度贴吧的一个小爬虫，爬取内容包括一个帖子中的发帖人、发帖内容，测试网页为https://tieba.baidu.com/p/3905531791，爬取1-5页的内容，代码如下：

 # -*- coding:utf-8 -*-
from lxml import etree
from multiprocessing.dummy import Pool as ThreadPool
import requests
import re
# import json
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

def write(content):
    f.writelines(u'回帖人:'+str(content['user_name'])+'\n')
    f.writelines(u'回帖内容:'+unicode(content['content'])+'\n')

def spider(url):
    html = requests.get(url)
    # print html.text
    selector = etree.HTML(html.text)
    content_field = selector.xpath('//div[@class="l_post l_post_bright j_l_post clearfix  "]')
    item = {}
    for each in content_field:
        print content_field[0]
        print each
        author = each.xpath('//*/li[@class="d_name"]/a/text()')[0]
        content = each.xpath('//*/div[@class="p_content  "]/cc/div/text()')[0]
        num = each.xpath('//*/div[@class="post-tail-wrap"]/span[@class="tail-info"]/text()')
        print content
        print author
        item['user_name'] = author
        item['content'] = content
        write(item)**


if __name__ == '__main__':
    pool = ThreadPool(4)
    f = open('content.txt','w')
    page=[]
    for i in range(1,6):
        newpage = 'https://tieba.baidu.com/p/3905531791?pn=' + str(i)
        page.append(newpage)

    results = pool.map(spider,page)

    pool.close()
    pool.join()
    f.close()

但问题出现在，每次for循环中提取的信息都一样，每一页的发帖人和发帖内容都一样
如下：
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:lis945945
回帖内容: 马克一下。
回帖人:lis945945
回帖内容: 马克一下。
回帖人:lis945945
回帖内容: 马克一下。
回帖人:lis945945
回帖内容: 马克一下。
回帖人:lis945945
回帖内容: 马克一下。
回帖人:lis945945
回帖内容: 马克一下。
回帖人:lis945945
回帖内容: 马克一下。
回帖人:lis945945
回帖内容: 马克一下。
不知道哪里出了问题。。。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
1000001000，，，， 2017-08-25 09:08
关注
先检查爬取的网页源代码，看是否正确，是否与原网站一致；
考虑是否需要添加cookie信息

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python+selenium+xpath如何定位网页table表格中的数据 python selenium 有问必答爬虫
2022-02-25 12:44

回答 2 已采纳使用last()定位最后一个tr节点，再用索引获取。示例： from lxml import etree with open('a.html','r',encoding='utf-8') as f:
python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
Python爬虫 xpath 列表为空 python 有问必答爬虫
2022-03-08 08:32

回答 2 已采纳第二个li的div下少了结束标签导致etree解析出错了少了div结束标签后，etree将建筑类别后的几点全部归类到第二li下了，改下面这样就可以了 import requests from lxm
火狐老版本+xpath插件(适合python+xpath爬虫使用)
2018-06-19 16:01

里面有：火狐老版本的浏览器，xpath插件（适用于火狐），适合xpath爬虫的
python爬虫xpath解析返回为空有什么解决方法吗 python 爬虫
2021-12-10 11:12

回答 1 已采纳为空的地方xpath主要是为了拿到什么数据，贴一下网页和要拿到的数据，帮你写一下xpath。上面图上的xpath那么长那么绝对路径，大概率拿不到数据的。
有谁能够解答吗 Python爬虫 XPath python 爬虫
2021-11-21 00:19

回答 2 已采纳你需要先确定返回的响应内容中有没有这些分类信息，有的话则是xpath没写对。没有分类信息的话，需要在请求时构造和浏览器相同的请求头信息。爬虫逆向社区-爬虫逆向论坛-
Python爬虫 XPath 爬取的数据为空 python
2021-11-20 15:43

回答 2 已采纳
电商网站python爬虫(selenium+xpath+peewee)
2023-06-30 09:54

电商网站python爬虫过程说明： 1. selenium以chromedriver驱动chrome浏览器打开目标站（真浏览器，比curl或requests访问更难被察觉） 2. beautifulsoup4解析结果dom，提取有用字段 3. peewee存结果到数据库 4. 同时...
python使用xpath提取属性值不完整 python 爬虫
2022-05-30 23:15

回答 2 已采纳不知道是不是有个逗号的原因，然后把后面给截断了，可以试试正则去提取 import requests,re url = 'https://www.renren.com/login' rep=reque
python爬虫通过xpath无法正常解析欲爬取元素 html python 爬虫
2022-01-04 18:04

回答 2 已采纳我是JAVA的xpath html.xpath("//table[@id='main_table_countries_today']/tbody/tr[@style=' ']").你看着修改下
Python爬虫只解析了一部分网页？ python 爬虫
2021-11-19 14:39

回答 1 已采纳第一个问题，你用html.xpath('//div[@class="co_content8"]/ul/table')找不到，是因为在table那一类，有很多分支标签，所以定位不到具体的元素。第二个问题
爬虫技术系列课+Python+爬虫基础知识爬虫实例反爬机制+自学课程
2024-04-04 17:31

内容概要：Python爬虫系列课程，共10个章节，深入浅出掌握Python爬虫的基础知识，了解爬虫实例，熟悉反爬机制，小的系列课程。适合人群：基础小白入门系列，想了解Python爬虫基础知识的同学，属于入门级课程，可以...
python爬虫运行问题 python 数据挖掘爬虫
2023-01-06 11:14

回答 1 已采纳 pip install openpyxl 安装下这个openpyxl库。望采纳哦！！！！
Python爬虫课程作业，requests+xpath学习
2023-05-08 11:44

能学到什么：Python爬虫基础，requests基础，xpath数据提取。适用人群：软件开发与爬虫学习人群，具有一定的编程技术使用场景：爬虫学习与研究阅读建议：此资源在于综合学习Python爬虫技术，不仅是代码编写实现也...
python+vue实现网站爬虫&数据分析案例
2022-04-19 13:15

python_spiders -- 爬虫后台项目 python_spiders_web -- 爬虫前台项目运行环境 python 3.8.3 + nginx + mysql 项目技术(必填) Python 3.8.3 + flask + vue 2.6.11 + element-ui 2.13.1 + echarts + jquery 依赖包...
没有解决我的问题, 去提问

悬赏问题

¥17 pro*C预编译“闪回查询”报错SCN不能识别
¥15 微信会员卡接入微信支付商户号收款
¥15 如何获取烟草零售终端数据
¥15 数学建模招标中位数问题
¥15 phython路径名过长报错不知道什么问题
¥15 深度学习中模型转换该怎么实现
¥15 HLs设计手写数字识别程序编译通不过
¥15 Stata外部命令安装问题求帮助！
¥15 从键盘随机输入A-H中的一串字符串，用七段数码管方法进行绘制。提交代码及运行截图。
¥15 TYPCE母转母，插入认方向

Python+XPath网页爬虫问题

1条回答 默认 最新

悬赏问题

1条回答默认最新