2 genglanggenglang genglanggenglang 于 2016.09.19 09:27 提问

爬取网页得到此类信息如何处理?
<td width="40%" class="td1">发明名称:</td>
<td width="60%"><span name="record_zlx:zhuanlimc" title="pos||">
<span id="bfdf53c5dacb4879bf57accbf9b0f739" class="nlkfqirnlfjerldfgzxcyiuro">检测装置</span>
<span id="ba6b32cd86c84d8d9450da43dc178a64" class="nlkfqirnlfjerldfgzxcyiuro">一种气体</span>
<span id="b7220fbcc44e41f5974a320a2dfda9bc" class="nlkfqirnlfjerldfgzxcyiuro">一种气体</span>
<span id="71806fa951fa4247b8aa2089ed7cc513" class="nlkfqirnlfjerldfgzxcyiuro">检测装置</span>
<span id="c83b17ce47054961a3b73d6a176f687c" class="nlkfqirnlfjerldfgzxcyiuro">一种气体</span>
<span id="1cc6dcf217f24a3ab8d91cd808f11228" class="nlkfqirnlfjerldfgzxcyiuro">检测装置</span>
<span id="727fed1d41fd499b90743629ccc246e0" class="nlkfqirnlfjerldfgzxcyiuro">及其使用方法</span>
<span id="285e5de9d8db42ef88c2c27c62abab9c" class="nlkfqirnlfjerldfgzxcyiuro">检测装置</span>
<span id="4ef795a61c9746219caac7d220d7c4ab" class="nlkfqirnlfjerldfgzxcyiuro">及其使用方法</span>
<span id="6cd4b49ac6af4fa2ad193c0bc9b7b42e" class="nlkfqirnlfjerldfgzxcyiuro">及其使用方法</span>
</span></td>


想要匹配到的信息是:一种气体检测装置及其使用方法

5个回答

caozhy
caozhy   Ds   Rxr 2016.09.19 09:51

正则表达式过滤掉span标签

genglanggenglang
genglanggenglang 回复caozhy: 貌似是不行的吧!你这样得到的信息不是:“检测装置一种气体及其使用方法”?
接近 2 年之前 回复
caozhy
caozhy 回复3s誓言: 如果就这个例子来说,直接去掉重复保持原有顺序就是了。
接近 2 年之前 回复
genglanggenglang
genglanggenglang 去掉标签文字的顺序怎么处理呢?
接近 2 年之前 回复
hi_chen_xingwang
hi_chen_xingwang   Rxr 2016.09.19 09:52

如果是批量导出,分析类似页面的信息排序,取第一个符合要求的字符串序列,类似这个取 span标签下的 2,4,7......

hi_chen_xingwang
hi_chen_xingwang 回复3s誓言: 能把原网页地址贴出来看看么
接近 2 年之前 回复
genglanggenglang
genglanggenglang 排序是不规则的,我要代码自动识别,怎么办
接近 2 年之前 回复
Marksinoberg
Marksinoberg   Ds   Rxr 2016.09.19 10:29

id与后面的内容作为key-value进行提取,会比较有用吧,其他的数据有冗余。

genglanggenglang
genglanggenglang 可以具体点吗?新人不太懂什么意思
接近 2 年之前 回复
yun1019511571
yun1019511571   2016.09.19 11:08

可以用Jsoup去解析.

genglanggenglang
genglanggenglang 谢谢!我是用.net的,用类似Jsoup的Nsoup解析代码得到的代码没有变化,仍然是这样的
接近 2 年之前 回复
genglanggenglang
genglanggenglang   2016.09.20 14:03

这个我已经解决了,谢谢大家的帮忙!

cjp0209
cjp0209 也碰到这个问题了,请问怎么解决的,谢谢
11 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
python爬取网页信息
最近在学习python,发现通过python爬取网页信息确实方便,以前用C++写了个简单的爬虫,爬取指定网页的信息,代码随便一写都几百行,而要用python完成相同的工作,代码量相当少。前几天看到了一个博客上讲解如何使用python写的爬虫爬取成绩信息,看了之后,自己实战了一番,并且达到了相同的效果。 整个过程和那篇博客所写的过程相同,不过由于我们学校的成绩查询系统要输入验证码,所以步骤稍微
Python爬取网页的编码处理
不是中秋节的中秋快乐!!!背景中秋的时候,一个朋友给我发了一封邮件,说他在爬链家的时候,发现网页返回的代码都是乱码,让我帮他参谋参谋(中秋加班,真是敬业= =!),其实这个问题我很早就遇到过,之前在爬小说的时候稍微看了一下,不过没当回事,其实这个问题就是对编码的理解不到位导致的。问题很普通的一个爬虫代码,代码是这样的:# ecoding=utf-8 import re import requests
Python爬虫爬取网页信息
本资源是本人根据慕课网的视频教程整理的一份代码,已调试通过。目的是爬取百度百科1000个词条的网页信息,编程环境是Python3.5.
如何爬取动态网页信息①
我们以选股宝为例子来进行讲解。
nodeJs 实现爬取网页信息
'use strict';// 引入模块 var https = require('https'); var fs = require('fs'); var path = require('path'); var cheerio = require('cheerio');// 爬虫的 URL 信息 var opt = { hostname: 'movie.douban.com', p
python爬虫(1)——简单的爬取网页的信息
获取网上真实的语料数据,本身对Py的掌握不是很好,记录下自己学习的过程,希望对你有帮助。 #python3 获得taoeba的语料(不知道从哪翻到的这个网站,有各国语言的句子,访问速度较慢 # -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup as BS import time import re
爬取网页的两种方法(python3)
'''一''' import urllib.request response=urllib.request.urlopen("http://www.baidu.com/") html=response.read() print(html.decode("utf8")) '''二''' import urllib.request req=urllib.request.Request
python根据标签爬取网页信息
这里以豆瓣TOP250为案例,爬取网页信息import requests#python HTTP客户端库,编写爬虫和测试服务器响应数据会用到的类库 import re from bs4 import BeautifulSoup print('正在从豆瓣电影TOP250爬取数据……') # url网址 = 'https://movie.douban.com/top250?start=0' (第一...
网络爬虫(第一集:爬取网页信息)
BeautifulSoup对网页进行解析 from bs4 import BeautifulSoup path = './web/new_index.html' data = [] with open(path, 'r', encoding='gbk') as f: Soup = BeautifulSoup(f.read(), 'lxml') titles = Soup....
c#.net——c#.net异步实现网页信息爬取
之前研究各种语言异步的时候就想做一个C#版本的异步,但是毕竟好久不做了(也就是在大学期间用asp.net做了几个管理系统) 语法类库什么的完全蒙蔽了,研究了好几天,也参考了网上许多资料,终于写出了几行low逼代码 实现内容:异步并发爬取网页信息 首先异步的语法和其他语言都大同小异,async、await,定义异步方法的话要加async修饰符,如果你想在await调用,