HTML解析错误：服务乱序 - 尝试解析网站时

i want to parse a website but i always get an Error: service out of order.

No matter what start or end string i give. I also tried to use an other URL and i copied full examples from other users that works for them but not for me. I also tried to increase the Size to 20000. But nothing is working.

Here is my php-Script:

<?php
// URL, die durchsucht werden soll
$url = "http://cordis.europa.eu/project/rcn/85400_en.html";

// Zeichenfolge vor relevanten Einträgen
$startstring = "<div class='tech'><p>";

// bis zum nächsten html tag bzw. Zeichenfolge nach relevanten Einträgen
$endstring = "<"; 

$file = @fopen ($url,"r");

if($file)
{
    echo "URL found<br>";
}

if (trim($file) == "") {
    echo "Service out of order - File:".$file."<br>";
    } else {
    $i=0;
    while (!feof($file)) {

        // Wenn das File entsprechend groß ist, kann es unter Umständen
        // notwendig sein, die Zahl 2000 entsprechend zu erhöhen. Im Falle
        // eines Buffer-Overflows gibt PHP eine entsprechende Fehlermeldung aus.

        $zeile[$i] = fgets($file,20000);
        $i++;
    }
    fclose($file);
}

// Data filtering

for ($j=0;$j<$i;$j++) {
    if ($resa = strstr($zeile[$j],$startstring)) {
        $resb = str_replace($startstring, "", $resa);
        $endstueck = strstr($resb, $endstring);
        $resultat .= str_replace($endstueck,"",$resb);
        $resultat .= "; ";
    }
}

// Data output

echo ("Result = ".$resultat."<br>");
return $resultat;

Any help is appreciate. thanks in advance

EDIT: The URL is found and file has a value: Resource id #3

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

doudong8713 2015-09-07 10:48

关注

Use this it will give expected output.

<?php
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL,"http://cordis.europa.eu/project/rcn/85400_en.html");
curl_setopt($ch, CURLOPT_GET, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_ENCODING, ''); 

$headers = array();
$headers[] = 'Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8';
$headers[] = 'Accept-Encoding:gzip, deflate, sdch';
$headers[] = 'Accept-Language:en-US,en;q=0.8';
$headers[] = 'Cache-Control:max-age=0';
$headers[] = 'Connection:keep-alive';
$headers[] = 'Cookie:CORDIS=14.141.177.158.1441621012200552; PHPSESSID=jrf2e3t4vu56acdkf9np0tat06; WT_FPC=id=14.141.177.158-1441621016.978424:lv=1441605951963:ss=1441604805004
Host:cordis.europa.eu';
$headers[] = 'User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.134 Safari/537.36';
$headers[] = 'Host:cordis.europa.eu';
$headers[] = 'Request URL:http://cordis.europa.eu/project/rcn/85400_en.html';

curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);
$server_output = curl_exec($ch);
curl_close($ch);

$dom = new DOMDocument;
$dom->loadHTML($server_output);
$xpath = new DomXpath($dom);

$div = $xpath->query("//*[@class='tech']")->item(0);
$data = trim($div->textContent);
echo $data;
?>

Output

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

无法解析插件spring-boot-maven-plugin ? intellij-idea spring 有问必答
2021-05-25 20:58

回答 3 已采纳正常是要加版本号的，之前报错可能是网络原因，只下载了一部分。jar包没有下载到
Python pop3连接出现:poplib.error_proto: b'-ERR Unknown message' python
2023-03-11 10:53

回答 1 已采纳可以查看手册：python-poplib --- POP3 协议客户端中的内容
XML 解析错误：格式不佳 xml
2017-08-02 00:42

回答 3 已采纳 aspx要发布网站通过http协议访问，你是直接拖进浏览器查看了吧，被当做xml解析了。。后缀aspx解析web服务器没有配置好被当做html发送到客户端了
C# HTML解析类库（含Demo，手册）
2016-05-09 16:22

5. **错误处理与容错性**：HTMLParser库具有良好的错误处理机制，面对不规范的HTML，它能尽可能地恢复并继续解析，而不是立即抛出异常，这样可以处理互联网上常见的不标准HTML文档。 6. **Demo与手册**：提供的Demo...
求解析：若有条件表达式（exp）？a++：b--，则以下表达式中能完全等价于表达式（exp）的是（） c语言
2021-12-17 20:42

回答 1 已采纳 c里面非0为真(true)
PHP错误：解析错误：语法错误，意外' - >'[重复] html mysql php
2019-03-24 01:48

回答 2 已采纳 /*you have forgotten the dollars*/ mysqli should become $mysqli->real_escape_string($_GET['post
mp-html解析图片失真 css html5 前端
2023-02-28 17:52

回答 1 已采纳图片失真通常是因为图像被缩放或拉伸导致的。在处理富文本中的图片时，有几个可能的原因：图片被压缩：如果图片被压缩过度，它可能会失去很多细节，从而导致模糊。基于Monster 组和GPT的调写：图片被
Node.js-真`无乱序微博客户端
2019-08-09 23:29

【Node.js-真`无乱序微博客户端】 Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境，以其非阻塞I/O、事件驱动的特性在开发高性能网络应用，尤其是实时Web应用时备受青睐。在这个项目“真`无乱序微博...
导入新的java项目构建错误：不可解析的父POM eclipse java maven
2018-02-09 17:02

回答 11 已采纳 jar包有问题重新编译下呢
SOAP-ERROR：解析WSDL：无法加载 - 但适用于WAMP php
2014-02-18 17:28

回答 6 已采纳 For some versions of php, the SoapClient does not send http user agent information. What php versi
Cannot resolve org.thymeleaf:thymeleaf-spring5:2.5.2.RELEASE idea maven spring boot
2022-01-26 16:17

回答 1 已采纳首先更换为国内下载源试试 maven 换阿里云的源将maven源改为国内阿里云镜像 - 麦克斯-侯 - 博客园由于众所周知的原因，mav
浏览器解析html页面短暂错乱,网页错位怎么解决？
2021-06-11 11:15

weixin_39591386的博客常常我们会遇到我们要设置在一行显示的布局，却因为种种原因造成了错位，看到结果是在一行的最后一个盒子...一、宽度计算错误解决方法宽度计算错误，假如总宽度为500px，有3个盒子，分别css宽度为200px、200px、100p...
基础知识：计算机网络--《趣谈网络协议》读书笔记
2022-04-22 14:53

ZhiZDK的博客序号：为了解决乱序问题，确认哪个包先来，哪个包后来。确认序号：解决不丢包的问题，发出的包应该有确认，如果没有收到就应该重新发送，直到送达。状态位：TCP 是面向连接的，因而双方要维护连接的状态，...
探索高效HTML处理新境界：html5gum项目解析与推荐
2024-08-28 09:11

乔如黎的博客探索高效HTML处理新境界：html5gum项目解析与推荐 html5gumA WHATWG-compliant HTML5 tokenizer and tag soup parser项目地址:https://gitcode.com/gh_mirrors/ht/html5gum 项目介绍在HTML处理的广阔天地里，一款...
没有解决我的问题, 去提问

悬赏问题

¥15 乌班图ip地址配置及远程SSH
¥15 怎么让点阵屏显示静态爱心，用keiluVision5写出让点阵屏显示静态爱心的代码，越快越好
¥15 PSPICE制作一个加法器
¥15 javaweb项目无法正常跳转
¥15 VMBox虚拟机无法访问
¥15 skd显示找不到头文件
¥15 机器视觉中图片中长度与真实长度的关系
¥15 fastreport table 怎么只让每页的最下面和最顶部有横线
¥15 java 的protected权限，问题在注释里
¥15 这个是哪里有问题啊？

码龄粉丝数原力等级 --

HTML解析错误：服务乱序 - 尝试解析网站时

2条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

HTML解析错误：服务乱序 - 尝试解析网站时

2条回答 默认 最新

悬赏问题

2条回答默认最新