用于提取元数据的正则表达式

I have retrieved html page using cURL, now I want to extract the specific meta content from the meta data. i.e. <meta name="ids" content="123nsdfsdfAS">.

What I did as follows:

function file_get_contents_curl($url)
{
$agent= 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:17.0) Gecko/20100101 Firefox/17.0';

$ch = curl_init();

curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_USERAGENT, $agent);
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);

$data = curl_exec($ch);
curl_close($ch);

return $data;
}

$html = file_get_contents_curl("http://example.com");

So, I want to extract a specific meta content i.e. <meta name="ids" content="123nsdfsdfAS"> from $html using preg_match_all or preg_match or related any function and regular expression. I have written a regex but that is not good, so I did not mention here.

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
douliu1092 2015-07-03 06:28
关注
Well, here it's fairly easy:

/<meta[^>]+>/

will match any meta tag.

/<meta name="ids"[^>]+>/

will match only the meta tag with the name ids.

If you only want the content in this

/<meta name="ids" content="([^"]+)">/
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

使用正则表达式提取文本数据，正则表达式如何写 python 有问必答正则表达式爬虫
2021-10-25 18:26

回答 2 已采纳 regex = r"('gender':\s*{[^}]+})|('glasses':\s*{[^}]+})|('emotion':.+.jpg')" 不清楚是否你每个文件都是类似的，如果不行，再
用于提取元数据的正则表达式 php
2015-07-03 06:24

回答 3 已采纳 Well, here it's fairly easy: /<meta[^>]+>/ will match any meta tag. /<meta name="i
C#正则表达式提取字符串 asp.net c# 正则表达式
2020-04-20 15:33

回答 3 已采纳 ``` (?<=$)\w+ \w+(?=$) ```
网页数据提取 -- 正则表达式
2023-10-29 14:22

糯米不开花ぴ的博客 Regular Expression，译作正则表达式或正规表示法，表示有规则的表达式，意思是说，描述一段文本排列规则的表达式。正则表达式并不是Python的一部分。而是一套独立于编程语言，用于处理复杂文本信息的强大的高级文本...
怎么用正则表达式来提取一段话的不同数据，并把他们分别放入excel中？ python 正则表达式
2022-06-27 17:34

回答 1 已采纳拿得用后端来做。前端做不到。先读取文件。然后用正则、字符串分割提取数据（存起来）。再然后用插件生成 excel . 你这个 txt 感觉没啥统一的规律。得统一才能用
正则表达式如何写，在一段字符串中提取指定的内容。 python 正则表达式
2022-05-03 20:38

回答 8 已采纳 import re text = """福建省2022年道路交通事故人身损害赔偿相关数据【福建一般地区（除厦门外）】 1、全省城镇居民人均年可支配收入 51140元2、全省农村居民人均年可支配收
求一个php正则表达式 php 正则表达式
2022-01-23 19:47

回答 1 已采纳试试这个import repattern = re.compile (r'(?:money=)\d+.?\d*')pattern.findall(string)
php使用正则表达式获取域名,php 域名正则表达式
2021-04-14 11:58

weixin_39782832的博客域名注册服务 Domains域名注册是华为云提供的集域名查询，购买，续费，管理，转入/转出等功能于一体的域名服务，包含多种主流后缀域名，满足您各种建站诉求.com首购23元|.cn首购8.9元域名注册服务 Domain域名注册是...
C#正则表达式查找非纯数字的字符 c# 正则表达式
2022-04-27 01:53

回答 6 已采纳 (([a-zA-Z_])([a-zA-Z0-9_])+)|(([0-9])([a-zA-Z_])+)
想使用正则表达式匹配，提取文本中特定的内容。 python 正则表达式
2022-01-19 16:23

回答 2 已采纳这应该就是你想要的功能： import os, re def GetMiddleStr(content,startStr,endStr): '''提取字符串content当中，startStr
正则表达式怎么提取可能出现的字符但不包括这个字符的内容正则表达式
2022-03-08 18:56

回答 2 已采纳 (?<=(x-main=")|(x-main=))[^"].*?(?=("|$))
php正则表达式详解,PHP正则表达式详解
2021-03-23 18:15

油葫芦阅金经的博客一、什么是正则表达式 简单的说，正则表达式是一种可以用于模式匹配和替换的强大工具。在几乎所有的基于UNIX/LINUX系统的软件工具中找到正则表达式的痕迹，例如：Perl或PHP脚本语言。此外，JavaScript这种...
请教一个PHP正则表达式的问题 php 有问必答正则表达式
2021-08-24 09:13

回答 2 已采纳这样？有帮助麻烦点个采纳【本回答右上角】，谢谢~~ <?php $s=<<<str 1.\$foo->\$bar['baz'] 主要想用两个正则表达式，放入编辑器以查询
php正则表达式 结尾,php正则表达式的基本语法总结
2021-04-07 08:06

funny 灵魂的博客在PHP中加入了正则表达式的支持，让我们可以十分方便的进行数据匹配。 2 什么是正则表达式：简单的说，正则表达式是一种可以用于模式匹配和替换的强大工具。在几乎所有的基于UNIX/LINUX系统的软件工具中找到正则...
php正则表达式判断形如,PHP正则表达式教程(转载)
2021-04-29 08:31

weixin_39637457的博客 1、入门简介简单的说，正则表达式是一种可以用于模式匹配和替换的强有力的工具，主要用于字符串的模式分割、匹配、查找及替换操作。我们可以在几乎所有的基于UNIX系统的工具中找到正则表达式的身影，例如，vi编辑器...
没有解决我的问题, 去提问

悬赏问题

¥16 Qphython 用xlrd读取excel报错
¥15 单片机学习顺序问题！！
¥15 ikuai客户端多拨vpn，重启总是有个别重拨不上
¥20 关于#anlogic#sdram#的问题，如何解决？(关键词-performance)
¥15 相敏解调 matlab
¥15 求lingo代码和思路
¥15 公交车和无人机协同运输
¥15 stm32代码移植没反应
¥15 matlab基于pde算法图像修复，为什么只能对示例图像有效
¥100 连续两帧图像高速减法

用于提取元数据的正则表达式

3条回答 默认 最新

悬赏问题

3条回答默认最新