使用PHP（XPath），PHP / Python（Regex）或Python（XPath）从html中提取信息

I have approx. 40k+ html documents where I need to extract information from. I have tried to do so using PHP+Tidy(because most files are not well-formed)+DOMDocument+XPath but it is extremely slow.... I am advised to use regexp but the html files are not marked up semantically (table based layout, with meaning-less tag/classes used everywhere) and I don't know where i should start...

Just being curious, is using regexp (PHP/Python) faster than using Python's XPath library? Is Xpath library for Python generally faster than PHP's counterpart?

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dongsheng1238 2009-10-12 13:10
关注
If speed is a requirement have a look at lxml. lxml is a pythonic binding for the libxml2 and libxslt C libraries. Using the C libraries is much faster than any pure php or python version.

There are some impressive benchmarks from Ian Bicking:

In Conclusion

I knew lxml was fast before I started these benchmarks, but I didn’t expect it to be quite this fast.

Parsing Results:

Parsing Resutls http://1.2.3.9/bmi/blog.ianbicking.org/wp-content/uploads/images/parsing-results.png

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

Python使用正则表达式获取网页中所需要的信息
2021-01-20 04:47

使用正则表达式的几个步骤： 1、用import re 导入正则表达式模块； 2、用re.compile()函数创建一个Regex对象； 3、用Regex对象的search()或findall()方法，传入想要查找的字符串，返回一个Match对象； 4、调用Match...
python_爬虫 05 XPath语法和lxml模块
2021-06-02 18:43

思想流浪者的博客 xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。二、XPath开发工具 Chrome插件XPath Helper。 Firefox插件Try XPath。三、XPath语法 ...
python中xpath中加随机数_python-在xpath中剥离附加项
2021-01-12 10:25

Pseudorandomness的博客我正在尝试从this website刮下这些物品.项目包括：品牌,型号和价格.由于页面结构的复杂性,Spider正在使用2个xpath选择器.品牌和型号项目来自一个xpath,价格来自另一个xpath.我使用@ har07建议的(|)运算符.对每个项目...
XPath与正则双引擎解析：高效提取豆瓣电影评分+短评情感分析
2025-07-23 11:19

程序员威哥的博客本文介绍了如何利用XPath和正则表达式从豆瓣电影页面提取电影评分和短评数据，并进行情感分析。首先通过XPath精准定位评分元素，然后使用正则表达式匹配短评内容。最后结合SnowNLP库对短评进行情感倾向分析，判断...
python简单爬虫抓取新闻板块网页内容实例
2024-06-04 21:29

在爬虫中，可以使用Python的`re`模块，配合`re.search()`或`re.findall()`方法，从HTML字符串中提取新闻内容。 7. **异常处理**：网络请求可能会遇到各种问题，如超时、连接错误等。良好的爬虫程序应该包含异常处理...
【Python爬虫进阶】使用正则表达式高效提取HTML网页内容
2025-04-26 23:19

Python爬虫项目的博客本篇将从基础到实战，全面讲解如何使用正则表达式高效解析HTML内容，并配合最新Python3标准库，以及结合真实案例，教你掌握“用Regex高效提取HTML”的全部技巧。正则表达式的优势：特别适合：常见正则语法：例子： ...
Python成长之路——regex，bs4，xpath，jsonpath的使用
2019-04-19 12:36

有所为有所不为的博客 [aoe] [a-w] 匹配集合中任意一个字符 \d 数字[0-9] \D 非数字 \w 数字、字母、下划线、中文 \W 非\w \s 所有的空白字符 \S 非空白数量修饰类型说明 *...
Python正则表达式入门：从国防科大招生网页中提取结构化数据
2025-08-19 12:16

blockchain9miner的博客本文以从国防科大招生网页提取结构化数据为例，详细介绍了Python正则表达式的实战应用。通过解析HTML表格、编写精准匹配规则、进行数据清洗与验证，构建了一套完整的网页抓取与信息提取方案，帮助读者高效处理非结构...
python爬虫源码QunarSpider-master.zip
2024-06-13 09:25

学习XPath语法和如何在Python中使用它是理解此项目的关键。 4. **BeautifulSoup库**：另一种常用的HTML解析库是`BeautifulSoup`，它提供了更直观的方式来查找和操作HTML元素。掌握如何通过标签、类名或ID选择器选取...
Python爬虫实战教程：基础数据清洗之HTML标签去除
2025-05-25 22:07

Python爬虫项目的博客 requests：网络请求库，易用且功能强大httpx：支持异步请求的现代HTTP客户端：HTML/XML解析器，提取网页数据lxml：高性能HTML/XML解析器Scrapy：功能完备的爬虫框架re：正则表达式，文本模式匹配工具：Python内置的...
没有解决我的问题, 去提问

使用PHP（XPath），PHP / Python（Regex）或Python（XPath）从html中提取信息

3条回答 默认 最新

3条回答默认最新