如何匹配正则表达式直到2个换行符

I'm trying to strip metadata from some news articles I got from Lexis Nexis. I'm currently having some trouble with stripping multiline meta data, that is: my pattern only matches the first line.

I suspect this could be fixed with a negative lookahead that looks for multiple line breaks, but so far I've not been able to work it out.

$article = "SECTION: Media; Blz. 33

LENGTH: 355 woorden

HIGHLIGHT: Verkiezingen Robert Jensen keert vanaf vandaag terug op de
Nederlandse televisie. In 'Jensen kiest voor Amerika' onderzoekt hij de
aantrekkingskracht van Donald Trump. Is hij definitief terug of lonkt misschien
een oude liefde?

Waarom ben je Jensen kiest voor Amerika gaan maken?

,,Ik vind Amerika al mijn hele leven een fascinerend land, ben er vaak en volg
de verkiezingen als fenomeen. Toen Trump maar bleef winnen, begon het idee voor
een tv-programma te leven. Ik wilde alles van die Trump-aanhangers weten want
daar hoor je weinig over.''";

preg_match_all( "/[A-Z\h-]+: *[^]+/", $article, $matches);

var_dump( $matches[0] );
die();

Results in:

array(3) { [0]=> string(23) "SECTION: Media; Blz. 33" [1]=> string(19) "LENGTH: 355 woorden" [2]=> string(70) "HIGHLIGHT: Verkiezingen Robert Jensen keert vanaf vandaag terug op de" }

As you can only the first line of the highlight data is matched.

I've also put a full article (with multiple examples of multiline metadata) up on regex101.

Edit:

After two answers I realise that my question may not have been totally clear -- sorry about that.

I'm trying to strip/remove the meta data from $article so that only the body of the article is left. In my example I'm using preg_match_all(). Once I can correctly match the meta tags, I'll use preg_replace() to replace it with an empty string. I considered using preg_split(), but than I'd have to guess which of the array items is the actual body -- a meta tag could be longer then the actual body, although that's not a likely scenario.

So what is meta tag? A meta tag always starts with [A-Z\h-]+: and ends with a blank line, i.e. two line breaks.

If you take the aforementioned example and put the tags in an array and the article body in a separate variable it'd look like this:

<?php
$meta_tags = [
"SECTION"   => "Media; Blz. 33",
"LENGTH"    => "355 woorden",
"HIGHLIGHT" => "Verkiezingen Robert Jensen keert vanaf vandaag terug op de
Nederlandse televisie. In 'Jensen kiest voor Amerika' onderzoekt hij de
aantrekkingskracht van Donald Trump. Is hij definitief terug of lonkt misschien
een oude liefde?"
];

$article_body = "Waarom ben je Jensen kiest voor Amerika gaan maken?

,,Ik vind Amerika al mijn hele leven een fascinerend land, ben er vaak en volg
de verkiezingen als fenomeen. Toen Trump maar bleef winnen, begon het idee voor
een tv-programma te leven. Ik wilde alles van die Trump-aanhangers weten want
daar hoor je weinig over.''";

Additional note: There may also be some more meta tags after the body's article, but the preg_replace() on meta tags should also take care of that.

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
douqiang5933 2016-11-28 16:32
关注
Since you have no complex matching to do, you could also go with a simple preg_split() that targets the metadata keys as delimiters, and not worry about look-aheads etc.:

$matches = preg_split( '/\v*([A-Z\h-]+):\h?/', $article, -1, PREG_SPLIT_DELIM_CAPTURE|PREG_SPLIT_NO_EMPTY);

Gives you:

array(6) { [0]=> string(7) "SECTION" [1]=> string(14) "Media; Blz. 33" [2]=> string(6) "LENGTH" [3]=> string(11) "355 woorden" [4]=> string(9) "HIGHLIGHT" [5]=> string(556) "Verkiezingen Robert Jensen keert vanaf vandaag terug op de Nederlandse televisie. In 'Jensen kiest voor Amerika' onderzoekt hij de aantrekkingskracht van Donald Trump. Is hij definitief terug of lonkt misschien een oude liefde? Waarom ben je Jensen kiest voor Amerika gaan maken? /...snip/" }

... which I'm sure you can process onward easily enough, evens are keys and odds are values. ^_^

But if you do want to use a look-ahead, here's an example:

preg_match_all('/[A-Z\h-]+:.*?(?=\s*(?:[A-Z\h-]+:|\Z))/s', $article, $matches);

This matches anything that starts with your meta-key, followed by anything that's followed by another meta-key or the end of your data. Better not worry about matching line-breaks here, match what matters instead. The look-ahead could be simplified further to simply (?=[A-Z\h-]+:|\Z), but the \s* trims the trailing space in the values. (And that's why the subsequent actual look-ahead group is specified as ?: non-capture, we don't want to clutter the output now do we.) Result:

array(3) { [0]=> string(23) "SECTION: Media; Blz. 33" [1]=> string(19) "LENGTH: 355 woorden" [2]=> string(567) "HIGHLIGHT: Verkiezingen Robert Jensen keert vanaf vandaag terug op de Nederlandse televisie. In 'Jensen kiest voor Amerika' onderzoekt hij de aantrekkingskracht van Donald Trump. Is hij definitief terug of lonkt misschien een oude liefde? Waarom ben je Jensen kiest voor Amerika gaan maken? /...snip/" }

But if you want to make it nice, rather do this:

preg_match_all('/([A-Z\h-]+):\h*(.*?)(?=\s*(?:[A-Z\h-]+:|\Z))/s', $article, $matches); $parsed = array_combine($matches[1], $matches[2]);

That is, we're adding capture-groups for the key and the value, and then combining them into an associative array. (Do check if you have matches before trying to combine.) Result:

array(3) { ["SECTION"]=> string(14) "Media; Blz. 33" ["LENGTH"]=> string(11) "355 woorden" ["HIGHLIGHT"]=> string(556) "Verkiezingen Robert Jensen keert vanaf vandaag terug op de Nederlandse televisie. In 'Jensen kiest voor Amerika' onderzoekt hij de aantrekkingskracht van Donald Trump. Is hij definitief terug of lonkt misschien een oude liefde? Waarom ben je Jensen kiest voor Amerika gaan maken? /...snip/" }

Edit If all you really want is the body text (now that it's clear where the body text begins: after a one-para highlight meta), and you have no use for the metadata, then just clean up the article with preg_replace matching all sections that start with the meta-key, and match everything 'til the first double (or more) linebreak. (Use \v to match any vertical space.)

$article = preg_replace('/([A-Z\h-]+):\h*(.*?)[\v]{2,}/s', '', $article);
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

如何匹配正则表达式直到2个换行符 php
2016-11-28 16:10

回答 2 已采纳 Since you have no complex matching to do, you could also go with a simple preg_split() that target
正则表达式匹配 正则表达式匹配 c语言
2021-11-11 23:14

回答 1 已采纳 public static boolean matchDP1(char[] str, char[] pattern) { if(str == null || pattern == n
想要个正则表达式按照指定10字符或者20个字去换行教程 php 有问必答正则表达式
2021-07-27 00:09

回答 1 已采纳 1 查找 ([^\n]{10}) 替换为 $1\n 2 查找[，。？：；‘’！“”—……、]替换为空格替换为这里是普通的字符串，要直接写空格“ ” 不能是正则表达式\s 3 删除多余空白行查
php正则表达式匹配用户名,正则表达式匹配用户名的复杂条件 - php
2021-03-23 17:52

xiq11113的博客我需要检查字符串是否具有以下指定以外的...长度从4到35个角色，不多不少其他所有不应该在此字符串中都有我坚持这一点：preg_match('/^[\w]{4,35}$/i', $username)参考方案preg_match('/^[\w]{4,35}$/i', $username)...
正则表达式嵌套匹配替换问题 java 正则表达式
2022-12-19 16:29

回答 8 已采纳 正则表达式改为 \$\{\s*if([\s\S]*?)\} *号在正则表达式中是贪婪匹配，如果想非贪婪匹配，要配合?问号一起使用。具体来说，在你的例子中，正则表达式 ${\s*if([\s\S]*)
Python 如何用正则表达式只保留字符串中汉字和换行符？ python
2019-09-18 10:51

回答 2 已采纳 https://blog.csdn.net/qq_39314099/article/details/88355445 https://blog.csdn.net/mp624183768/articl
正则表达式如何匹配指定的行有问必答正则表达式
2021-11-24 17:40

回答 2 已采纳分多次匹配,分别匹配大写,小写,数字,并计数匹配成功的次数,如果一行成功次数为2,则认为该行符合要求有帮助望采纳~
php 两个单词 正则表达式字符前_PHP正则表达式详解（二）
2020-12-30 20:18

李晓舟的博客前言：在本文中讲述了正则表达式中的组与向后引用，先前向后查看，条件测试，单词边界，选择符等表达式及例子，并分析了正则引擎在执行匹配时的内部机理。本文是Jan Goyvaerts为RegexBuddy写的教程的译文，版权归原...
正则表达式 匹配正负整数和正负小数或者空有问必答正则表达式
2021-08-25 15:28

回答 6 已采纳已私聊解决
求一个php正则表达式 php 正则表达式
2022-01-23 19:47

回答 1 已采纳试试这个import repattern = re.compile (r'(?:money=)\d+.?\d*')pattern.findall(string)
python 正则表达式一次性替换多个字符串且替换的值不同 python 正则表达式
2021-07-20 20:10

回答 1 已采纳我有一篇代码一变三的文章，你可以看一下，里面有个替换代码的描述，可能会对你有帮助
php正则表达式怎么验证,关于php：我如何验证正则表达式？
2021-04-12 15:03

weixin_39612110的博客我想在PHP中测试正则表达式的有效性，最好是在使用它之前。唯一的方法是尝试一个preg_match()，看看它是否返回FALSE？是否有更简单/正确的方法来测试有效的正则表达式？您的意思是：stackoverflow....
正则表达式以匹配不同的分隔符
2018-07-27 13:00

回答 1 已采纳 You may use (?:\[|->)(.*?)[\\\]] See the regex demo In Go, declare as var re = regexp.Must
Python正则表达式常用匹配以及组合
2022-04-27 20:57

爬虫选手_不懂就问的博客正则的语法：使用元字符进行排列组合用来匹配字符串，在线测试表达式可直接点击下面的链接在线正则表达式测试OSCHINA.NET在线工具,ostools为开发设计人员提供在线工具，提供jsbin在线 CSS、JS 调试，在线 Java API...
正则表达式
2022-05-22 17:00

安全天天学的博客使用PCRE正则表达式，每个表达式必须包含在一对分隔符中。你可以选择任何非字母、数字、“\”或空格的字符作为分隔符。字符串的开始和结束必须有匹配的分隔符。 2.分隔符最常用的分隔符是“/”。匹配“shop”...
没有解决我的问题, 去提问

悬赏问题

¥15 请问读取环境变量文件失败是什么原因？
¥15 在若依框架下实现人脸识别
¥15 网络科学导论，网络控制
¥100 安卓tv程序连接SQLSERVER2008问题
¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比，为什么Snetinel-2计算的结果最小值特别小，而Lansat8就很平均
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载

如何匹配正则表达式直到2个换行符

Edit:

2条回答 默认 最新

悬赏问题

2条回答默认最新