Python+XPath网页爬虫问题

我希望制作百度贴吧的一个小爬虫,爬取内容包括一个帖子中的发帖人、发帖内容,测试网页为https://tieba.baidu.com/p/3905531791,爬取1-5页的内容,代码如下:

 # -*- coding:utf-8 -*-
from lxml import etree
from multiprocessing.dummy import Pool as ThreadPool
import requests
import re
# import json
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

def write(content):
    f.writelines(u'回帖人:'+str(content['user_name'])+'\n')
    f.writelines(u'回帖内容:'+unicode(content['content'])+'\n')

def spider(url):
    html = requests.get(url)
    # print html.text
    selector = etree.HTML(html.text)
    content_field = selector.xpath('//div[@class="l_post l_post_bright j_l_post clearfix  "]')
    item = {}
    for each in content_field:
        print content_field[0]
        print each
        author = each.xpath('//*/li[@class="d_name"]/a/text()')[0]
        content = each.xpath('//*/div[@class="p_content  "]/cc/div/text()')[0]
        num = each.xpath('//*/div[@class="post-tail-wrap"]/span[@class="tail-info"]/text()')
        print content
        print author
        item['user_name'] = author
        item['content'] = content
        write(item)**


if __name__ == '__main__':
    pool = ThreadPool(4)
    f = open('content.txt','w')
    page=[]
    for i in range(1,6):
        newpage = 'https://tieba.baidu.com/p/3905531791?pn=' + str(i)
        page.append(newpage)

    results = pool.map(spider,page)

    pool.close()
    pool.join()
    f.close()

但问题出现在,每次for循环中提取的信息都一样,每一页的发帖人和发帖内容都一样
如下:
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:末日灬圣帝君王
回帖内容: 这个支持一下
回帖人:lis945945
回帖内容: 马克一下。
回帖人:lis945945
回帖内容: 马克一下。
回帖人:lis945945
回帖内容: 马克一下。
回帖人:lis945945
回帖内容: 马克一下。
回帖人:lis945945
回帖内容: 马克一下。
回帖人:lis945945
回帖内容: 马克一下。
回帖人:lis945945
回帖内容: 马克一下。
回帖人:lis945945
回帖内容: 马克一下。
不知道哪里出了问题。。。

1个回答

先检查爬取的网页源代码,看是否正确,是否与原网站一致;
考虑是否需要添加cookie信息

jing980704
Mr_Ljin 爬取的网页源代码没有问题 我试着用正则表达式可以成功的提取信息完成爬取,获取网页源码都是通过requests.get(url)的方式完成的
接近 3 年之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Python+XPath网页爬虫问题

我希望制作百度贴吧的一个小爬虫,爬取内容包括一个帖子中的发帖人、发帖内容,测试网页为https://tieba.baidu.com/p/3905531791,爬取1-5页的内容,代码如下: ``` # -*- coding:utf-8 -*- from lxml import etree from multiprocessing.dummy import Pool as ThreadPool import requests import re # import json import sys reload(sys) sys.setdefaultencoding('utf-8') def write(content): f.writelines(u'回帖人:'+str(content['user_name'])+'\n') f.writelines(u'回帖内容:'+unicode(content['content'])+'\n') def spider(url): html = requests.get(url) # print html.text selector = etree.HTML(html.text) content_field = selector.xpath('//div[@class="l_post l_post_bright j_l_post clearfix "]') item = {} for each in content_field: print content_field[0] print each author = each.xpath('//*/li[@class="d_name"]/a/text()')[0] content = each.xpath('//*/div[@class="p_content "]/cc/div/text()')[0] num = each.xpath('//*/div[@class="post-tail-wrap"]/span[@class="tail-info"]/text()') print content print author item['user_name'] = author item['content'] = content write(item)** if __name__ == '__main__': pool = ThreadPool(4) f = open('content.txt','w') page=[] for i in range(1,6): newpage = 'https://tieba.baidu.com/p/3905531791?pn=' + str(i) page.append(newpage) results = pool.map(spider,page) pool.close() pool.join() f.close() ``` 但问题出现在,每次for循环中提取的信息都一样,每一页的发帖人和发帖内容都一样 如下: 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 不知道哪里出了问题。。。

python爬虫xpath选择多个属性

python爬虫我需要获取商品的产地, tree.xpath( "//div[@class='p-parameter']/ul[@class='parameter2 p-parameter-list']/li[4]/text()") 这样写是没问题的,但是如果到了下一个产品,产地就可能不是在第四个位置了,可能在第三个位置了,所以按照这个xpath写法,获取的可能就不是产地了,这要如何解决呢?而且这个title会根据商品的不同一直变化的 目前我想到的可能的解决方案: 1.我查了半天,看下xpath能否支持通配符的匹配。 tree.xpath( "//div[@class='p-parameter']/ul[@class='parameter2 p-parameter-list']/li[@title='*省*]/text()") 以上操作不行,本意是为了让xpath查找所有的title里是否有包含‘省’的title,如果有,就提取text()文件 2.更笨的办法,把所有的省市都列举出来,用“|”符号,这样实在太麻烦了,而且我不知道到底有多少个省市 所以想问下有没有其他的解决方法? Python

requests+xpath爬虫关于url翻页问题

``` from lxml import etree import requests import xlwt import xlrd class qunawang(object): def __init__(self): self.f = xlwt.Workbook() # 创建工作薄 self.sheet1 = self.f.add_sheet(u'景点信息', cell_overwrite_ok=True) # 命名table self.rowsTitle = [u'编号',u'景点名', u'景点介绍', u'景点价格', u'景点地址', u'景点网址'] # 创建标题 for i in range(0, len(self.rowsTitle)): # 最后一个参数设置样式 self.sheet1.write(0, i, self.rowsTitle[i], self.set_style('Times new Roman', 220, True)) # Excel保存位置 self.f.save('F:/information/viewspot.xlsx') def set_style(self, name, height, bold=False): style = xlwt.XFStyle() # 初始化样式 font = xlwt.Font() # 为样式创建字体 font.name = name font.bold = bold font.colour_index = 2 font.height = height style.font = font return style def getUrl(self): #加入自动换Url功能 url = ('http://piao.qunar.com/ticket/list.htm?keyword=%E5%8D%97%E4%BA%AC&region=&from=mpl_search_suggest&page=2') self.spiderPage(url) def spiderPage(self,url): if url is None: return None try: data=xlrd.open_workbook('F:/information/viewspot.xlsx') table=data.sheets()[0] rowCount=table.nrows#获取行数 user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36' headers={'User-Agent':user_agent} respon=requests.get(url,headers=headers) htmltext=respon.text s = etree.HTML(htmltext) trs = s.xpath('//*[@id="search-list"]/div') m=0 for tr in trs: data=[] title = tr.xpath('./div/div[2]/h3/a/text()') location = tr.xpath('./div/div[2]/div/p/span/text()') introduce = tr.xpath('./div/div[2]/div/div[2]/text()') price = tr.xpath('./div/div[3]/table/tr[1]/td/span/em/text()') website = tr.xpath('./div/div[2]/h3/a/@href') title=title[0] if title else '' location=location[0] if location else '' introduce=introduce[0] if introduce else '' price=price[0] if price else '' website=website[0] if website else '' data.append(rowCount+m) data.append(title) data.append(introduce) data.append(price) data.append(location) data.append(website) for i in range(len(data)): self.sheet1.write(rowCount+m,i,data[i]) m+=1 print(m) print(title, introduce, price, location, website) finally: self.f.save('F:/information/viewspot.xlsx') if '_main_': qn=qunawang() qn.getUrl() ``` 刚刚接触爬虫,参考了网上的一些代码,爬取的是去哪网南京的景点,我想加入可以翻页的功能,该如何添加

python 爬虫 用xpath抓取多行文本,如何实现多重遍历?

萌新学习python爬虫,在爬取网贷之家平台信息的时候,通过xpath将某一平台的网友印象三个关键词保存在一个数组中,输出到excel中。 现在我希望能够把该页面上25个平台信息都爬取到并保存,请问xpath怎么写循环?这里的25个信息代码结构是一模一样的,只有li从[1]-[25]。谢谢 ``` import requests import pandas as pd from lxml import etree from fake_useragent import UserAgent ua = UserAgent() headers['User-Agent']=ua.random url = 'https://www.wdzj.com/dangan/search?filter=e1&currentPage=1' response = requests.get(url,headers = headers).text s = etree.HTML(response) file_yinxiang = [] file_yinxiang1 = s.xpath('//*[normalize-space(@id)="showTable"]/ul/li[1]/div[2]/a/div[5]/span/text()')#实现li从1-25的循环 file_yinxiang.append(file_yinxiang1) df = pd.DataFrame(file_yinxiang) df.to_excel('wdzj_p2p.xlsx') ``` 网上查了很多资料,并不是很清楚,目前不循环是这个结果: ![图片说明](https://img-ask.csdn.net/upload/201903/18/1552887724_381412.png) 这是网页上我要爬取的内容: ![图片说明](https://img-ask.csdn.net/upload/201903/18/1552887858_653935.png)

python爬虫中用xpath总是获取不到内容,希望大家帮我看看这两个网页中所需内容如何定位?谢谢~

用python爬虫,代码用xpath总是获取不到内容,希望大家帮我看看这两个网页中所需内容如何定位? 1.想要获取下面网址中的 债券基本信息 ,试了很多xpath的路径都失败了,都是空的_(¦3」∠)_,下面贴出测试用的代码,希望大家能帮我看下xpath那部分为什么不对(倒数第二行),也可能是其他问题o(╥﹏╥)o ``` import requests from lxml import html url = 'http://www.chinamoney.com.cn/chinese/zqjc/?bondDefinedCode=1000040278' page = requests.Session().get(url) tree = html.fromstring(page.text) result = tree.xpath('//tbody//tr//th/text()') print(result) ``` 2.想要获取下面网址中的一个href属性 (截图中阴影部分,就是查询结果的网址),也试了很多xpath的路径也都失败了,不知道@href前应该写什么。 ![图片说明](https://img-ask.csdn.net/upload/201903/27/1553648799_758977.png) ``` url = 'http://www.chinamoney.com.cn/chinese/qwjsn/?searchValue=14中关村集MTN001' ``` 第一次提问,有什么不合适的希望谅解,工作需要,时间比较急切,麻烦大家了。━((*′д`)爻(′д`*))━!!!!

python爬虫网站信息乱码问题

uesr_agent = 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0' headers = {'User-agent':uesr_agent} req = urllib.request.Request(url, headers = headers) html_1 = urllib.request.urlopen(req, timeout=120).read() #html = str(response.read(),'utf-8') encoding_dict = chardet.detect(html_1) #print encoding web_coding = encoding_dict['encoding'] print (web_coding) if web_coding == 'utf-8' or web_coding =='UTF-8': html = html_1 else: html = html_1.decode('gbk','ignore').encode('utf-8') print (html) 网站地址: http://nc.mofcom.gov.cn/channel/gxdj/jghq/jg_list.shtml?par_craft_index=13075&craft_index=20413&startTime=2014-01-01&endTime=2014-03-31&par_p_index=&p_index=&keyword=&page=1 显示信息:![图片说明](https://img-ask.csdn.net/upload/201703/22/1490160982_691178.png) 用的python3,把网上的方法都试了一遍,还是不行,不知道怎么办了,求助

Xpath爬虫获取数据不完整

尝试学习Xpath爬虫,通过Xpath helper获得数据99条,其中最后一条为“$PORT”,如图 ![图片说明](https://img-ask.csdn.net/upload/202001/15/1579057925_476322.png) 代码如下,使用这个Xpath路径只能返回"$PORT",其他98条数据没了....... ``` import requests import csv from lxml import etree url = 'https://www.msccruisesusa.com/webapp/wcs/stores/servlet/MSC_SearchCruiseManagerRedirectCmd?storeId=12264&langId=-1004&catalogId=10001&monthsResult=&areaFilter=MED%40NOR%40&embarkFilter=&lengthFilter=&departureFrom=01.11.2020&departureTo=04.11.2020&ships=&category=&onlyAvailableCruises=true&packageTrf=false&packageTpt=false&packageCrol=false&packageCrfl=false&noAdults=2&noChildren=0&noJChildren=0&noInfant=0&dealsInput=false&tripSpecificationPanel=true&shipPreferencesPanel=false&dealsPanel=false' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36'} source = requests.get(url,headers=headers).content.decode('UTF-8') html = etree.HTML(source) portList = html.xpath('//*[@class="cr-city-name"]') for port in portList: print(port.xpath('string()')) ``` 求各位大神搭救,不知道是哪里出了问题......网上遍寻不到相似的情况

python网络爬虫遇到空值如何处理

爬取58同城招聘信息是xpath遇到空值。无法继续爬取。 ``` import requests #导入requests库 from lxml import etree#导入lxml库 import csv#输出文件类型 import time#时间函数 def spider(): headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.80 Safari/537.36'}#定义头部 pre_url = 'https://hc.58.com/job/pn'#构造URL for x in range(1,2):#使用for循环构造前几页URL地址并GET请求 html=requests.get(pre_url+str(x),headers=headers) time.sleep(2)#休眠时间 selector = etree.HTML(html.text)#初始化etree job_list = selector.xpath("//*[@id='list_con']/li")#获取工作列表 for job in job_list: dizhi = job.xpath("div[1]/div[1]/a/span[1]/text()")[0]#公司地址 gongsi = job.xpath("div[2]/div[1]/a/text()")[0]#公司名称 gangwei = job.xpath("div[2]/p/span[1]/text()")[0]#所需岗位 leixing = job.xpath("div[1]/div[1]/a/span[2]/text()")[0]#人员类型 xueli = job.xpath("div[2]/p/span[2]/text()")[0]#员工学历 jingyan = job.xpath("div[2]/p/span[3]/text()")[0]#员工经验 gongzi = job.xpath("div[1]/p/text()")[0]#员工工资 daiyu = job.xpath("div[1]/div[2]/text()")[0]#福利待遇 item = [dizhi, gongsi, gangwei,leixing, xueli, jingyan, gongzi,daiyu ] #所要爬取的数据 data_writer(item)#保存数据 print('正在抓取', dizhi) def data_writer(item): with open('581河池.csv', 'a',encoding='utf-8',newline='') as csvfile: writer = csv.writer(csvfile) writer.writerow(item) if __name__ == '__main__':#主函数 spider() ``` ![图片说明](https://img-ask.csdn.net/upload/201907/07/1562462726_523125.png)![图片说明](https://img-ask.csdn.net/upload/201907/07/1562462735_260881.png)

python3.7爬虫 使用 selector.xpath('')爬取-线上等

我想用正则取以下的 LANEIGE (兰芝) Deep Pore Cleansing Foam 字串即可,请用我用python selector.xpath('') 的语法要怎么写呢 ''''''''''''''''''''''''''''''''''''''''''''''' <div class="col-md-10" > <div style="margin:10px 0px; float:left;width:100%;"> <div style="float:left;margin-left:10px;margin-top:20px;"> <p> <span class="fullName">LANEIGE (兰芝) Deep Pore Cleansing Foam</span> <span class="certificate"> </span> </p> <p class="member"> <span class="createDttm"> 更新于:&nbsp;2018-12-02 ,&nbsp;资料来源: 其他(非官方)网站 </span> </p> </div> </div> ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, www.cosgua.com/cosmetic/1000(原网址)

为什么xpath()方法就提取不了a标签中的href属性内容呢?

我的代码是这样的: 方案一(详细版): ``` file = response.xpath('//*[@id="main-xm-content"]/table/tbody/tr[2]/td/table/tbody/tr[3]/td/table/tbody/tr/td/table/tbody/tr[3]/td[2]/a/@href').extract() ``` 方案二(精简准确版): ``` file = response.xpath(''//div[@id="main-xm-content"]/table//table//table//table//a//@href') ``` 网页结构大致是这样的: ``` <table width="900" border="0" cellspacing="0" cellpadding="0"> <tbody> <tr>...</tr> <tr>...</tr> <tr> <td width="25">&nbsp;</td> <td height="20"> <a href="this_is_a_link.gif">这是文本内容.pdf</a> </td> </tr> </tbody> </table> ``` 但是两种操作的结果不约而同地都是这样的: ``` >>> file >>>[] ``` 我很纳闷,这个办法用在其他网页都没出过问题,怎么一到这里就提取不了了呢?

XPath无法准确获取怎么办

参照《从零开始学网络爬虫》案例,爬取豆瓣图书Top250的信息 https://book.douban.com/top250 爬取前需要用XPath获取书名、作者等标签信息,在浏览器中检查网页信息,并右击,copy XPath获取元素的XPath ![图片说明](https://img-ask.csdn.net/upload/202002/15/1581778537_466127.png) 书中原版代码如下 ``` import csv from lxml import etree import requests headers = { 'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36' } urls = ['https://book.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)] wenben = open('E:\demo.csv','wt',newline='',encoding='utf-8') writer = csv.writer(wenben) writer.writerow(('name','url','author','publisher','date','price','rate','comment')) for url in urls: html = requests.get(url,headers=headers) selector = etree.HTML(html.text) infos = selector.xpath('//tr[@class="item"]') for info in infos: name = info.xpath('td/div/a/@title')[0] url = info.xpath('td/div/a/@href')[0] book_infos = info.xpath('td/p/text()')[0] author = book_infos.split('/')[0] publisher = book_infos.split('/')[-3] date = book_infos.split('/')[-2] price = book_infos.split('/')[-1] rate = info.xpath('td/div/span[2]/text()')[0] comments = info.xpath('td/div/span[2]/text()')[0] comment = comments[0] if len(comments) != 0 else "空" writer.writerow((name,url,author,publisher,date,price,rate,comment)) print(name) wenben.close() print("输出完成!") ``` 可以发现,以书名为例,原版中获取的XPath如下 ``` 'td/div/a/@title' ``` 但是我通过浏览器检查元素获取到的XPath如下 ``` *[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div[1]/a ``` 而且按照自己获取的XPath进行爬取,并不能爬取到网页信息。只有按照原版的XPath才能正确爬取到网页信息。 请问各位大神,为什么从浏览器端获取的XPath与案例并不一致,如何自行获取正确的XPath

python爬虫获取源码与网页不同

使用requests和bs4库 静态爬取页面[2017年数据](http://www.zuihaodaxue.com/zuihaodaxuepaiming2017.html "") Soup获得部分源码如图 ![图片说明](https://img-ask.csdn.net/upload/201709/29/1506692129_124729.png) 对应网页源码如图 ![图片说明](https://img-ask.csdn.net/upload/201709/29/1506692155_28545.png) 可见,该tr中第一个&lt;td&gt1&lt;/td&gt;;在Soup中变成了&lt;td&gt;1&lt;td&gt; ,而末尾处也多了一个&lt;/td&gt; 该问题发生在每一个tr中,但爬取[2016年数据](http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html "")并没有出现该问题。 代码照抄教程,应该不存在问题

渣渣请教python爬虫xpath问题

各位大神,小弟我最近爬取闲鱼商品的时候出现个问题: 这个是网页源码截图,我想爬取里面这个赞数: ![图片说明](https://img-ask.csdn.net/upload/201609/15/1473950224_39834.jpg) 网页链接:https://2.taobao.com/item.htm?id=538626368021 下面是我的源码: ``` #! /usr/bin/env python #coding=utf-8 import urllib from bs4 import BeautifulSoup import re from lxml import etree """ https://s.2.taobao.com/list/list.htm?\ spm=2007.1000337.0.0.WOjjAq&st_trust=1&page=3&q=%C0%D6%B8%DF&ist=0 """ def get_html(page=1, q="lego"): """获取商品列表页源代码,返回源代码content""" params = { "spm":"2007.1000337.0.0.WOjjAq", "st_trust":"1", "page":page, "q":q, "ist":"0" } info = urllib.urlencode(params) url = "https://s.2.taobao.com/list/list.htm?" + info html = urllib.urlopen(url) content = html.read() html.close() return content def get_url(content): """从商品列表页源代码中获取商品页url,返回url的列表""" soup = BeautifulSoup(content, "lxml") div_box = soup.find_all('div', class_='item-info') url_list = [] for div in div_box: url=div.find('h4', class_='item-title').a['href'] url_c = "https:" + url url_list.append(url_c) return url_list def get_product(url): html = urllib.urlopen(url) content = html.read() html.close() content1 = content.decode('gbk').encode('utf-8') rempat = re.compile('&') content1 = re.sub(rempat,'&amp;',content1) root = etree.fromstring(content1) zan = root.xpath('.//div[@id="J_AddFav"]/em/text()]') return zan if __name__ == '__main__': content = get_html(1,"lego") url_list = get_url(content) url1 = url_list[1] print url1 print get_product(url1) ``` 问题出现在这里: ``` root = etree.fromstring(content1) ``` ![图片说明](https://img-ask.csdn.net/upload/201609/15/1473950415_793148.jpg) 除了将&替换成&amp;外没有对网页源码进行改动,不知为何源码会报错…… 谢谢各位大神了,我是技术渣(我是学化学的……最近工作需要,拿闲鱼来练手,结果卡在这里一天了)

xpath无法定位,一直返回空列表

用xpath定位时一直无法定位,爬虫运行后li_list一直返回为空列表。但是,在谷歌浏览器中用xpath组件 可以定位到。检查了好久,一直没有找到问题所在,请大佬们帮忙看看。 python3.6版本 ``` def parse(self, response): #解析内容 li_list=response .xpath('//div[@class="dlzplistcon"]/ul') print(li_list ) #遍历列表,取出需要的数据 for oli in li_list : # 创建一个item item = JiuyeItem() #获取工作名称 jobname=oli.xpath('./li/div/a/text())').extract() print(jobname ) #获取工作链接 job_src=oli.xpath ('./li/div/a/@href').extract() print(job_src ) #获取公司名称 company=oli.xpath ('./li/div/div/a/text()').extract() #获取工作地点 place=oli .xpath ('./li/span[@class="r"]/text()').extract() #获取工资 pay=oli .xpath ('./li/span[@class="m"]text()').extract() ``` 爬取的网站是云南招聘网,下面是网站源码截图 ![图片说明](https://img-ask.csdn.net/upload/201905/14/1557843684_596262.png) 附上网站URL:http://www.ynzp.com/all/all/p5/?qtype=jobname&query=ktv

Python爬取网页requests乱码

之前有在裁判文书上爬取数据,这段时间重新运行爬虫后发现无法获取网页数据,找了一下发现requests网页源码返回的是乱码 (如下截取一部分返回的数据:<meta http-equiv="Content-Type" content="text/html; charset=utf-8"><meta id="JLyKZlWgYjpTkAsEt9LnA" ) 不知道是不是网站对网页内容进行了加密,请问如何解决这个问题?谢谢!

用selector.xpath爬取某些网页

请用selector.xpath爬取以下链接内容 链接如下: http://yulan.dearedu.com/?furl=z_ZodN0jnHicxgikMIZBST2THLMe45nPod8uurDWkr0uJIxNzdCEy5gdS0I@8OsuP3toR4qphEI= 如若成功,必有重谢

Python爬虫结果为空TT

新手修改了网上代码,想要爬百度新闻的标题和简介,不知道为什么运行结果是空。在mac自带的python2上运行: ``` from urllib import urlopen import csv import re from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding("utf-8") for k in range(1,36): url = "http://news.baidu.com/ns?word=低保&pn=%s&cl=2&ct=1&tn=news&rn=20&ie=utf-8&bt=0&et=0"% ((k-1)*20) csvfile = file("Dibao.csv", "ab+") writer = csv.writer(csvfile) content = urlopen(url).read() soup = BeautifulSoup(content,"lxml") list0 = [] list1 = [] list2 = [] list3 = [] for i in range(1,20): hotNews = soup.find_all("div", {"class", "result"})[i] a1=hotNews.find(name="a", attrs={"target": re.compile("_blank")}) list0.append(a1.text) a2=hotNews.find(name="p", attrs={"class": re.compile("c-author")}) t1=a2.text.split()[0] list1.append(t1) t2 = a2.text.split()[1] list2.append(t2) if t2.find(u"年") == 4: t3 = a2.text.split()[2] list3.append(t3) else: list3.append(" ") #将数据写入csv data = [] for i in range(0,20): data.append((list0[i], list1[i], list2[i],list3[i])) writer.writerows(data) csvfile.close() print "第" + str(k) + "页完成" ``` 报错: Traceback (most recent call last): File "<stdin>", line 12, in <module> IndexError: list index out of range 不懂参数过范围什么意思,新闻一共37页,每页20条。 希望有大神能帮忙看一下,多谢啦~

python如何模拟点击一个网页的按钮

比如 如下代码 我打开一个了百度首页 然后在打开以后模拟点击百度一下 这个怎么实现 import webbrowser webbrowser.open("http://www.baidu.com")

爬虫的结构很乱,这是为什么

这是网页里的代码 ![图片说明](https://img-ask.csdn.net/upload/202003/03/1583238191_651826.png) 这是爬虫打印出来的结构,很乱。。,为什么 ![图片说明](https://img-ask.csdn.net/upload/202003/03/1583238198_90116.png)

python爬虫出现中文乱码,求助大神!

最近在爬取一组网页数据时发现中文乱码,但是以前没有见过类似的乱码。 而且在同级网页中只有个别出现中文乱码现象,其他网页均正常。 乱码字符如下图 ![图片说明](https://img-ask.csdn.net/upload/201710/06/1507275786_926647.png) 求助!

大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了

大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频学习网站、非视频学习网站、软件下载、面试/求职必备网站。 注意:文中提到的所有资源,文末我都给你整理好了,你们只管拿去,如果觉得不错,转发、分享就是最大的支持了。 一、电子书搜索 对于大部分程序员...

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

Java基础知识面试题(2020最新版)

文章目录Java概述何为编程什么是Javajdk1.5之后的三大版本JVM、JRE和JDK的关系什么是跨平台性?原理是什么Java语言有哪些特点什么是字节码?采用字节码的最大好处是什么什么是Java程序的主类?应用程序和小程序的主类有何不同?Java应用程序与小程序之间有那些差别?Java和C++的区别Oracle JDK 和 OpenJDK 的对比基础语法数据类型Java有哪些数据类型switc...

我以为我学懂了数据结构,直到看了这个导图才发现,我错了

数据结构与算法思维导图

String s = new String(" a ") 到底产生几个对象?

老生常谈的一个梗,到2020了还在争论,你们一天天的,哎哎哎,我不是针对你一个,我是说在座的各位都是人才! 上图红色的这3个箭头,对于通过new产生一个字符串(”宜春”)时,会先去常量池中查找是否已经有了”宜春”对象,如果没有则在常量池中创建一个此字符串对象,然后堆中再创建一个常量池中此”宜春”对象的拷贝对象。 也就是说准确答案是产生了一个或两个对象,如果常量池中原来没有 ”宜春” ,就是两个。...

技术大佬:我去,你写的 switch 语句也太老土了吧

昨天早上通过远程的方式 review 了两名新来同事的代码,大部分代码都写得很漂亮,严谨的同时注释也很到位,这令我非常满意。但当我看到他们当中有一个人写的 switch 语句时,还是忍不住破口大骂:“我擦,小王,你丫写的 switch 语句也太老土了吧!” 来看看小王写的代码吧,看完不要骂我装逼啊。 private static String createPlayer(PlayerTypes p...

Linux面试题(2020最新版)

文章目录Linux 概述什么是LinuxUnix和Linux有什么区别?什么是 Linux 内核?Linux的基本组件是什么?Linux 的体系结构BASH和DOS之间的基本区别是什么?Linux 开机启动过程?Linux系统缺省的运行级别?Linux 使用的进程间通信方式?Linux 有哪些系统日志文件?Linux系统安装多个桌面环境有帮助吗?什么是交换空间?什么是root帐户什么是LILO?什...

Linux命令学习神器!命令看不懂直接给你解释!

大家都知道,Linux 系统有非常多的命令,而且每个命令又有非常多的用法,想要全部记住所有命令的所有用法,恐怕是一件不可能完成的任务。 一般情况下,我们学习一个命令时,要么直接百度去搜索它的用法,要么就直接用 man 命令去查看守冗长的帮助手册。这两个都可以实现我们的目标,但有没有更简便的方式呢? 答案是必须有的!今天给大家推荐一款有趣而实用学习神器 — kmdr,让你解锁 Linux 学习新姿势...

和黑客斗争的 6 天!

互联网公司工作,很难避免不和黑客们打交道,我呆过的两家互联网公司,几乎每月每天每分钟都有黑客在公司网站上扫描。有的是寻找 Sql 注入的缺口,有的是寻找线上服务器可能存在的漏洞,大部分都...

史上最全的 python 基础知识汇总篇,没有比这再全面的了,建议收藏

网友们有福了,小编终于把基础篇的内容全部涉略了一遍,这是一篇关于基础知识的汇总的文章,请朋友们收下,不用客气,不过文章篇幅肯能会有点长,耐心阅读吧爬虫(七十)多进程multiproces...

讲一个程序员如何副业月赚三万的真实故事

loonggg读完需要3分钟速读仅需 1 分钟大家好,我是你们的校长。我之前讲过,这年头,只要肯动脑,肯行动,程序员凭借自己的技术,赚钱的方式还是有很多种的。仅仅靠在公司出卖自己的劳动时...

女程序员,为什么比男程序员少???

昨天看到一档综艺节目,讨论了两个话题:(1)中国学生的数学成绩,平均下来看,会比国外好?为什么?(2)男生的数学成绩,平均下来看,会比女生好?为什么?同时,我又联想到了一个技术圈经常讨...

85后蒋凡:28岁实现财务自由、34岁成为阿里万亿电商帝国双掌门,他的人生底层逻辑是什么?...

蒋凡是何许人也? 2017年12月27日,在入职4年时间里,蒋凡开挂般坐上了淘宝总裁位置。 为此,时任阿里CEO张勇在任命书中力赞: 蒋凡加入阿里,始终保持创业者的冲劲,有敏锐的...

总结了 150 余个神奇网站,你不来瞅瞅吗?

原博客再更新,可能就没了,之后将持续更新本篇博客。

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

MySQL数据库面试题(2020最新版)

文章目录数据库基础知识为什么要使用数据库什么是SQL?什么是MySQL?数据库三大范式是什么mysql有关权限的表都有哪几个MySQL的binlog有有几种录入格式?分别有什么区别?数据类型mysql有哪些数据类型引擎MySQL存储引擎MyISAM与InnoDB区别MyISAM索引与InnoDB索引的区别?InnoDB引擎的4大特性存储引擎选择索引什么是索引?索引有哪些优缺点?索引使用场景(重点)...

新一代神器STM32CubeMonitor介绍、下载、安装和使用教程

关注、星标公众号,不错过精彩内容作者:黄工公众号:strongerHuang最近ST官网悄悄新上线了一款比较强大的工具:STM32CubeMonitor V1.0.0。经过我研究和使用之...

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

大学一路走来,学习互联网全靠这几个网站,最终拿下了一把offer

大佬原来都是这样炼成的

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

为什么你不想学习?只想玩?人是如何一步一步废掉的

不知道是不是只有我这样子,还是你们也有过类似的经历。 上学的时候总有很多光辉历史,学年名列前茅,或者单科目大佬,但是虽然慢慢地长大了,你开始懈怠了,开始废掉了。。。 什么?你说不知道具体的情况是怎么样的? 我来告诉你: 你常常潜意识里或者心理觉得,自己真正的生活或者奋斗还没有开始。总是幻想着自己还拥有大把时间,还有无限的可能,自己还能逆风翻盘,只不是自己还没开始罢了,自己以后肯定会变得特别厉害...

什么时候跳槽,为什么离职,你想好了么?

都是出来打工的,多为自己着想

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

你期望月薪4万,出门右拐,不送,这几个点,你也就是个初级的水平

先来看几个问题通过注解的方式注入依赖对象,介绍一下你知道的几种方式@Autowired和@Resource有何区别说一下@Autowired查找候选者的...

面试了一个 31 岁程序员,让我有所触动,30岁以上的程序员该何去何从?

最近面试了一个31岁8年经验的程序猿,让我有点感慨,大龄程序猿该何去何从。

大三实习生,字节跳动面经分享,已拿Offer

说实话,自己的算法,我一个不会,太难了吧

程序员垃圾简历长什么样?

已经连续五年参加大厂校招、社招的技术面试工作,简历看的不下于万份 这篇文章会用实例告诉你,什么是差的程序员简历! 疫情快要结束了,各个公司也都开始春招了,作为即将红遍大江南北的新晋UP主,那当然要为小伙伴们做点事(手动狗头)。 就在公众号里公开征简历,义务帮大家看,并一一点评。《启舰:春招在即,义务帮大家看看简历吧》 一石激起千层浪,三天收到两百多封简历。 花光了两个星期的所有空闲时...

立即提问
相关内容推荐