PHP DOMDocument使用HTML5 doctype正确加载HTML UTF-8编码

I am using PHP's DOMDocument class with HTML 5 document. But when I do, some utf-8 characters are "changed". I got &ensp;, ’, é etc....

Here is my code.

    $parsedUrl = 'http://www.futursparents.com/';

    $curl = curl_init();
    @curl_setopt_array($curl, [
            CURLOPT_RETURNTRANSFER => 1,
            CURLOPT_TIMEOUT => 60,
            CURLOPT_CONNECTTIMEOUT => 30,
            CURLOPT_FOLLOWLOCATION => TRUE,
            CURLOPT_MAXREDIRS => 5,
            CURLOPT_AUTOREFERER => FALSE,
            CURLOPT_HEADER => TRUE, // FALSE
            CURLOPT_PROTOCOLS => CURLPROTO_HTTP | CURLPROTO_HTTPS,
            CURLOPT_REDIR_PROTOCOLS => CURLPROTO_HTTP | CURLPROTO_HTTPS,
            CURLOPT_CERTINFO => TRUE,
            CURLOPT_LOW_SPEED_LIMIT => 200,
            CURLOPT_LOW_SPEED_TIME => 50,
            CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
            CURLOPT_PROXYTYPE => CURLPROXY_HTTP,
            CURLOPT_ENCODING => 'gzip,deflate',
            CURLOPT_URL => $parsedUrl,
        ]);
    $response = curl_exec($curl);
    $info = curl_getinfo($curl);
    $error = curl_error($curl);
    $headers = trim(substr($response, 0, curl_getinfo($curl, CURLINFO_HEADER_SIZE)));
    $content = substr($response, curl_getinfo($curl, CURLINFO_HEADER_SIZE));

    curl_close($curl);

    libxml_use_internal_errors(true);

    $domDoc = new DOMDocument();
    print_r($domDoc->encoding); // It's OK => UTF-8
    // Got &ensp; or s&rsquo; or &eacute etc....
    print_r($domDoc->saveHTML());

It seem to be an HTML5 doctype with a meta element like so <meta charset=utf-8">

If I add the charset meta tag <meta http-equiv="Content-Type" content="text/html; charset=utf-8">, It's seem to be OK.

$domDoc->loadHTML('<meta http-equiv="Content-Type" content="text/html; charset=utf-8">' . $content);
// No &ensp; or s&rsquo; or &eacute etc....
print_r($domDoc->saveHTML());

Do you think this is the right solution?

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
douxiuyu2028 2017-03-13 18:11
关注
I found why.

The DOM extension was built on libxml2 whose HTML parser was made for HTML 4. If an HTML5 doctype and a meta element like so <meta charset="utf-8"> HTML code will get interpreted as ISO-8859-something and non-ASCII chars will get converted into HTML entities.

However the HTML4-like version will work <meta http-equiv="Content-Type" content="text/html; charset=utf-8">

Reference: UTF-8 with PHP DOMDocument loadHTML?

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

PHP DomDocument无法处理utf-8字符（☆） php
2012-07-03 10:40

回答 3 已采纳 DOMDocument::loadHTML() expects a HTML string. HTML uses the ISO-8859-1 encoding (ISO Latin Alpha
PHP使用DOMDocument和/或Regex从HTML中提取URL php
2018-09-26 15:31

回答 1 已采纳 I think you can use regex to fetch this value which will be easier. $txt = <<<TXT <ht
关于html dom document对象错误的是 html5 javascript
2021-06-14 17:50

回答 2 已采纳 C
HTML-知识点考核
2024-07-13 13:59

John-Yong的博客列举了HTML中的常考知识点
使用DOMDocument解析HTML时的Rogue元素 html php
2018-01-29 07:23

回答 1 已采纳 It comes from the line : <script type"text/javascript" src="/includes/js/video-js/video.js"&gt
如何使用PHP DOMDocument（）检索子元素中的值？ php
2019-06-17 18:20

回答 1 已采纳 What you can do is to look at the next element from the <img> tag (using nextSibling) and if
vue3 v-html 插入dom 正确的写法请教？ javascript vue.js 前端有问必答
2022-05-23 14:23

回答 6 已采纳你可以了解下动态组件 components is 循环一下组件名这种，应该是能满足你的需求的 v-html并不能写自定义组件楼上给出答案了
HTML的基础教程（二）-- HTML表单
2023-03-13 10:23

ʚ 王也 ɞ的博客只介绍了常用的html表单的部分属性，通俗易懂，适合小白
DOM解析UTF-8编码的xml文件时出错 xml
2013-04-22 13:27

回答 4 已采纳有些编辑器，比如windows的记事本在保存utf8时，会加上bom。可能是导致那个异常的原因。基本上你需要换个编辑器，保存时有without bom选项的即可。比如notepad +
如何使用DOMDocument排除body标签中的特定html块？ html php
2017-07-19 11:54

回答 1 已采纳 Please look at the accepted answer on this one, PHP DOM: Get NodeValue excluding the child nodes
无法使用php5 domdocument加载网页内容 php
2012-04-23 07:19

回答 3 已采纳 The DOMDocument class is obviously not a string; you can iterate it, perform operations on it, but
前端三剑客（html、css、js）面试题
2023-04-19 21:02

weixin_45754783的博客 html5：添加了许多具有语义化的标签，如：
2023前端面试题汇总
2023-03-09 17:58

下雪不过冬天的博客 2023前端基础面试题汇总
【自编教材】16万8千字的HTML+CSS基础适合从0到1-可收藏
2021-12-12 23:40

jason的java世界的博客 1.2.1前端 1.2.2后台 1.2.3 浏览器 1.3 纯文本和超文本的使用 1.4 开发工具的使用 1.4.1常见开发工具简介 1.4.2 Visual Studio Code 1.4.3 编写第一个HTML文件 1.5 HTML骨架 1.5.1 DTD 1.5.2 html标签 1.5.3 字符集 ...
HTML5教程（学完html的，这个可以快速过一遍）
2020-06-18 18:20

麦田上的字节的博客 HTML5 教程 HTML5 浏览器支持 HTML5 新元素 HTML5 语义元素 HTML5 代码规范 HTML5 MathML HTML5 Web SQL数据库 HTML5 迁移 HTML5 Canvas HTML5 内联 SVG HTML5 Canvas VS svg HTML5 多媒体 HTML5 Object...
没有解决我的问题, 去提问

悬赏问题

¥15 乌班图ip地址配置及远程SSH
¥15 怎么让点阵屏显示静态爱心，用keiluVision5写出让点阵屏显示静态爱心的代码，越快越好
¥15 PSPICE制作一个加法器
¥15 javaweb项目无法正常跳转
¥15 VMBox虚拟机无法访问
¥15 skd显示找不到头文件
¥15 机器视觉中图片中长度与真实长度的关系
¥15 fastreport table 怎么只让每页的最下面和最顶部有横线
¥15 R语言卸载之后无法重装，显示电脑存在下载某些较大二进制文件行为，怎么办
¥15 java 的protected权限，问题在注释里

PHP DOMDocument使用HTML5 doctype正确加载HTML UTF-8编码

1条回答 默认 最新

悬赏问题

1条回答默认最新