PHP DOMDocument使用HTML5 doctype正确加载HTML UTF-8编码

I am using PHP's DOMDocument class with HTML 5 document. But when I do, some utf-8 characters are "changed". I got &ensp;, ’, é etc....

Here is my code.

    $parsedUrl = 'http://www.futursparents.com/';

    $curl = curl_init();
    @curl_setopt_array($curl, [
            CURLOPT_RETURNTRANSFER => 1,
            CURLOPT_TIMEOUT => 60,
            CURLOPT_CONNECTTIMEOUT => 30,
            CURLOPT_FOLLOWLOCATION => TRUE,
            CURLOPT_MAXREDIRS => 5,
            CURLOPT_AUTOREFERER => FALSE,
            CURLOPT_HEADER => TRUE, // FALSE
            CURLOPT_PROTOCOLS => CURLPROTO_HTTP | CURLPROTO_HTTPS,
            CURLOPT_REDIR_PROTOCOLS => CURLPROTO_HTTP | CURLPROTO_HTTPS,
            CURLOPT_CERTINFO => TRUE,
            CURLOPT_LOW_SPEED_LIMIT => 200,
            CURLOPT_LOW_SPEED_TIME => 50,
            CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
            CURLOPT_PROXYTYPE => CURLPROXY_HTTP,
            CURLOPT_ENCODING => 'gzip,deflate',
            CURLOPT_URL => $parsedUrl,
        ]);
    $response = curl_exec($curl);
    $info = curl_getinfo($curl);
    $error = curl_error($curl);
    $headers = trim(substr($response, 0, curl_getinfo($curl, CURLINFO_HEADER_SIZE)));
    $content = substr($response, curl_getinfo($curl, CURLINFO_HEADER_SIZE));

    curl_close($curl);

    libxml_use_internal_errors(true);

    $domDoc = new DOMDocument();
    print_r($domDoc->encoding); // It's OK => UTF-8
    // Got &ensp; or s&rsquo; or &eacute etc....
    print_r($domDoc->saveHTML());

It seem to be an HTML5 doctype with a meta element like so <meta charset=utf-8">

If I add the charset meta tag <meta http-equiv="Content-Type" content="text/html; charset=utf-8">, It's seem to be OK.

$domDoc->loadHTML('<meta http-equiv="Content-Type" content="text/html; charset=utf-8">' . $content);
// No &ensp; or s&rsquo; or &eacute etc....
print_r($domDoc->saveHTML());

Do you think this is the right solution?

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
douxiuyu2028 2017-03-13 18:11
关注
I found why.

The DOM extension was built on libxml2 whose HTML parser was made for HTML 4. If an HTML5 doctype and a meta element like so <meta charset="utf-8"> HTML code will get interpreted as ISO-8859-something and non-ASCII chars will get converted into HTML entities.

However the HTML4-like version will work <meta http-equiv="Content-Type" content="text/html; charset=utf-8">

Reference: UTF-8 with PHP DOMDocument loadHTML?

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

PHP DOMDocument使用HTML5 doctype正确加载HTML UTF-8编码 html5 php
2017-03-13 17:37

回答 1 已采纳 I found why. The DOM extension was built on libxml2 whose HTML parser was made for HTML 4. I
PHP DomDocument无法处理utf-8字符（☆） php
2012-07-03 10:40

回答 3 已采纳 DOMDocument::loadHTML() expects a HTML string. HTML uses the ISO-8859-1 encoding (ISO Latin Alpha
PHP使用DOMDocument和/或Regex从HTML中提取URL php
2018-09-26 15:31

回答 1 已采纳 I think you can use regex to fetch this value which will be easier. $txt = <<<TXT <ht
HTML的基础教程（二）-- HTML表单
2023-03-13 10:23

ʚ 王也 ɞ的博客只介绍了常用的html表单的部分属性，通俗易懂，适合小白
关于html dom document对象错误的是 html5 javascript
2021-06-14 17:50

回答 2 已采纳 C
使用DOMDocument解析HTML时的Rogue元素 html php
2018-01-29 07:23

回答 1 已采纳 It comes from the line : <script type"text/javascript" src="/includes/js/video-js/video.js"&gt
如何使用PHP DOMDocument（）检索子元素中的值？ php
2019-06-17 18:20

回答 1 已采纳 What you can do is to look at the next element from the <img> tag (using nextSibling) and if
前端三剑客（html、css、js）面试题
2023-04-19 21:02

weixin_45754783的博客 html5：添加了许多具有语义化的标签，如：
vue3 v-html 插入dom 正确的写法请教？ javascript vue.js 前端有问必答
2022-05-23 14:23

回答 6 已采纳你可以了解下动态组件 components is 循环一下组件名这种，应该是能满足你的需求的 v-html并不能写自定义组件楼上给出答案了
DOM解析UTF-8编码的xml文件时出错 xml
2013-04-22 13:27

回答 4 已采纳有些编辑器，比如windows的记事本在保存utf8时，会加上bom。可能是导致那个异常的原因。基本上你需要换个编辑器，保存时有without bom选项的即可。比如notepad +
如何使用DOMDocument排除body标签中的特定html块？ html php
2017-07-19 11:54

回答 1 已采纳 Please look at the accepted answer on this one, PHP DOM: Get NodeValue excluding the child nodes
2023前端面试题汇总
2023-03-09 17:58

下雪不过冬天的博客 2023前端基础面试题汇总
无法使用php5 domdocument加载网页内容 php
2012-04-23 07:19

回答 3 已采纳 The DOMDocument class is obviously not a string; you can iterate it, perform operations on it, but
【自编教材】16万8千字的HTML+CSS基础适合从0到1-可收藏
2021-12-12 23:40

jason的java世界的博客 1.2.1前端 1.2.2后台 1.2.3 浏览器 1.3 纯文本和超文本的使用 1.4 开发工具的使用 1.4.1常见开发工具简介 1.4.2 Visual Studio Code 1.4.3 编写第一个HTML文件 1.5 HTML骨架 1.5.1 DTD 1.5.2 html标签 1.5.3 字符集 ...
HTML5教程（学完html的，这个可以快速过一遍）
2020-06-18 18:20

孙叫兽的博客 HTML5 教程 HTML5 浏览器支持 HTML5 新元素 HTML5 语义元素 HTML5 代码规范 HTML5 MathML HTML5 Web SQL数据库 HTML5 迁移 HTML5 Canvas HTML5 内联 SVG HTML5 Canvas VS svg HTML5 多媒体 HTML5 Object...
没有解决我的问题, 去提问

悬赏问题

¥15 微信会员卡等级和折扣规则
¥15 微信公众平台自制会员卡可以通过收款码收款码收款进行自动积分吗
¥15 随身WiFi网络灯亮但是没有网络，如何解决？
¥15 gdf格式的脑电数据如何处理matlab
¥20 重新写的代码替换了之后运行hbuliderx就这样了
¥100 监控抖音用户作品更新可以微信公众号提醒
¥15 UE5 如何可以不渲染HDRIBackdrop背景
¥70 2048小游戏毕设项目
¥20 mysql架构，按照姓名分表
¥15 MATLAB实现区间[a,b]上的Gauss-Legendre积分

PHP DOMDocument使用HTML5 doctype正确加载HTML UTF-8编码

1条回答 默认 最新

悬赏问题

1条回答默认最新