PHP：使用过滤器删除XML中的无效utf-8字符

I have a large file, so I have created a filter for removing invalid utf-8 characters from XML.

class ValidUTF8XMLFilter extends php_user_filter {

    protected static $pattern = '/([\x09\x0A\x0D\x20-\x7E]|[\xC2-\xDF][\x80-\xBF]|\xE0[\xA0-\xBF][\x80-\xBF]|[\xE1-\xEC\xEE\xEF][\x80-\xBF]{2}|\xED[\x80-\x9F][\x80-\xBF]|\xF0[\x90-\xBF][\x80-\xBF]{2}|[\xF1-\xF3][\x80-\xBF]{3}|\xF4[\x80-\x8F][\x80-\xBF]{2})|./x';

    function filter($in, $out, &$consumed, $closing)
    {
        while ($bucket = stream_bucket_make_writeable($in)) {
            $bucket->data = preg_replace(self::$pattern, '$1', $bucket->data);
            $consumed += $bucket->datalen;
            stream_bucket_append($out, $bucket);
        }
        return PSFS_PASS_ON;
    }
}

This filter will remove also utf-8 characters not only invalid in xml, but also in utf-8. The regex is taken from Multilingual form encoding. The class was taken from this answer: How to skip invalid characters in XML file using PHP and rewritten. The pattern in that answer won't work for invalid utf-8 characters, eg. 0x1D.

Will this filter work, in situation, where invalid bytes starts at the end of buffer and ends in beginning of next filtering? Is this situation possible?

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
doujia7517 2010-11-19 03:21
关注
No, I don't think it will work. It will strip valid sequences of code units that happen to be split between several buckets.

It should not consume potentially incomplete sequences in the end (and, if necessary, it should pass nothing and return PSFS_FEED_ME).

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

golang XML结束解析并显示“无效的UTF-8”错误 xml
2016-10-17 14:59

回答 2 已采纳 Reader that filters out invalid UTF-8 characters package main import ( "bufio" "io"
使用UTF-8在PHP中打开XML文件时出错 php xml
2012-12-04 09:39

回答 1 已采纳 Try: $xml = simplexml_load_file("users/" .rawurlencode($f->name)."/data.xml");
PHP&XML解码问题（utf-8/GB2312） php xml
2015-10-21 02:46

回答 2 已采纳看一下自己的php脚本文件的编码格式是不是utf8
php 十六进制打开文件,使用php从xml文件中删除十六进制字符
2021-04-24 17:37

Ramaswamy的博客这些文件需要循环访问并检查某些"无法识别"的十六进制字符，并用普通的UTF-8文本或某种占位符替换。我尝试遍历文件并使用str_replace和preg_replace替换了十六进制代码，但是没有运气。我的最终问题是，当尝试使用...
当我需要UTF-8时PHP以ASCII输出XML [重复] php xml
2014-10-09 12:21

回答 3 已采纳 It seems that your MySQL database does not contain UTF-8 encoded data. As a result it's output is
UTF-8特殊字符作为奇怪的字符插入表中[重复] mysql php xml
2013-06-27 02:56

回答 2 已采纳 a) the extension providing the mysql_* functions is marked as deprecated. Better to start with pdo
从UTF-8 XML数据中删除不可见的字符 php
2013-08-06 06:32

回答 3 已采纳 I just found this regex (untested) $xml_data = preg_replace("/>\s+</", "><", $xml_dat
UNICODE与UTF-8的转换详解
2014-12-18 02:37

xunzhaoxusanduo的博客 UNICODE与UTF-8的转换详解 1 编码在计算机中，各种信息都是以二进制编码的形式存在的，也就是说，不管是文字、图形、声音、动画，还是电影等各种信息，在计算机中都是以０和１组成的二进制代码表示...
如何使用simpleXML解析PHP中不在utf-8中的xml文件？ php xml
2011-02-25 14:01

回答 2 已采纳 Assuming that you want to get the same charset out, I would use DomDocument. But if you want simp
生成xml,需去除<?xml version="1.0" encoding="UTF-8"?>，求解答！！ java xml
2023-02-22 12:03

回答 4 已采纳用如下试试： OutputFormat format = new OutputFormat(); format.setSuppressDeclaration(true); // true 不添加 XM
来自xml的php utf-8解码返回问号 php xml
2013-04-30 12:11

回答 1 已采纳 Okay the following is now a bit rough/verbose, especially as you already tried so much. Just try t
php字符怎么换行符,php 字符串中的\n换行符无效、不能换行的解决方法
2021-04-21 15:46

Certain Y的博客 php 字符串中的\n换行符无效、不能换行的解决方法例如下面的代码：复制代码代码如下:echo 'hello\n';echo 'world';?>程序的中的换行符\n会直接输出，无法正确换行，解决方法是把单引号改为双引号：复制代码代码...
您如何在PHP中解析和处理HTML / XML？
2019-12-04 02:40

asdfgh0077的博客如何解析HTML / XML并从中提取信息？
php 文件设置编码,PHP: 运行时配置 - Manual
2021-03-23 17:28

weixin_39861627的博客运行时配置这些函数的行为受 php.ini 中的设置影响。mbstring 配置选项名字默认可修改范围更新日志"neutral"PHP_INI_ALLPHP_INI_PERDIR 位于 PHP <... 中移除，使用 zend.script_encoding 代替。"0"PHP_I...
php sphinx使用教程,Sphinx安装配置应用，sphinx安装配置_PHP教程
2021-04-17 22:38

痛苦是在走上坡路的博客 Sphinx安装配置应用，sphinx安装配置Sphinx 是由俄罗斯人Andrew ...当前系统内置的MysqL和PostgreSQL数据库数据源的支持，也支持从标准输入读取特定格式的xml数据。通过修改源码，可以自行增加新的数据源(例如：...
没有解决我的问题, 去提问

PHP：使用过滤器删除XML中的无效utf-8字符

1条回答 默认 最新

1条回答默认最新