ISO 8859 1八进制恢复正常字符

I'm currently converting our old project database into a new format/new database. There are some old data, which were probably escaped by a smartphone app. Now the entry looks like this:

Tak hur\341 v posteli po pr\341ci a jde se sp\355nkat

now the real entry should look like this:

Tak hurá v posteli po práci a jde se spinkat

There are also entries like

Som nen\\355 ja len chodiaca kapuc\\341 pra\\u0161iva ignorujuca

which don't seem like ISO 8859 1, especially the \\u0161 part.

Any thoughts on any PHP function I may use to convert this back to readable version? Thanks!

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

duanjun7801 2016-01-21 23:37

关注

Simple workaround:

The first string is only octal iso-8859-1, while the second one is double slashed iso-8859-1 with mixed utf-16 characters (why? now that is the question). The code below takes octal codes, converts to hex, packs them to binary and encodes them into utf-8. The utf-16 codes are already in hex, so they are only packed and encoded into utf-8.

For future info reference on charsets: http://www.fileformat.info/info/charset/index.htm

<?php
        $string = "Tak hur\341 v posteli po pr\341ci a jde se sp\355nkat";
        $string2 = "Som nen\\355 ja len chodiaca kapuc\\341 pra\\u0161iva ignorujuca";

        print decode_str($string2)."<br>";
        print decode_str($string);


        function decode_str($string){
            return utf16_to_utf8(iso_to_utf8($string));
        }

        function iso_to_utf8($string){
            preg_match_all('#\\\\[0-9]{3}#',$string,$matches);

            foreach($matches[0] as $match){
                $char = preg_replace("#(\\\)#","",$match);
                $a = pack("H*" , base_convert($char,8,16));
                $string = preg_replace('#(\\\\)'.$char.'#',$a,$string);
            }
            return mb_convert_encoding($string,"UTF-8","ISO-8859-1");   
        }

        function utf16_to_utf8($string){
            preg_match_all('#\\\u[a-z0-9]{4}#',$string,$matches);

            foreach($matches[0] as $match){
                $char = preg_replace("#\\\\u#","",$match);
                $a = pack("H*" , $char);
                $a = mb_convert_encoding($a,"UTF-8","UTF-16");
                $string = preg_replace('#'.preg_quote($match).'#',$a,$string);
            }

            return $string;
        }

    ?>

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

ISO 8859 1八进制恢复正常字符 laravel php
2016-01-21 21:25

回答 1 已采纳 Simple workaround: The first string is only octal iso-8859-1, while the second one is double sla
八进制转十进制求修改 c++
2022-10-04 10:28

回答 3 已采纳我想到有2个更改的方法：第1种： num += (long long)pow(8,(s.size()-i-1))((long long)(s[i]-'0')); 加上类型转换第2种：把 pow(8,
-16为什么不是正确的八进制或十六进制数 c语言
2022-01-03 20:54

回答 1 已采纳 八进制以0开头十六进制以0x开头对于整数，0x后最多可以跟16个16进制数字，最大是0xffffffffffffffff，即0x后跟16个f。
PHP的进制转换与字符串的编码解码
2020-07-24 10:40

ppxin的博客 1、转换为十进制时类型为整数，而转换为二进制和十六进制时为字符串 2、进制转换的对象，仅为整数例子： <?php /** * PHP进制转换函数 * 十进制 88 = 十六进制 58 = 二进制 1011000 */ $d.
字符串转二进制和十六进制字符串 c语言有问必答
2021-11-15 10:56

回答 2 已采纳代码如下： #include <stdio.h> //转2进制字符串 void fun(char ch,char buf[]) { int i,t,n=7; for(i=0
八进制换算 C语言 八进制八进制 c语言
2022-01-06 16:22

回答 2 已采纳 \102是8进制的66，为B的ASCLL码，表示B
输入一个十进制整数，输出其对应的八进制数和十六进制数 python
2021-11-12 11:04

回答 1 已采纳 a = int(input()) print("0o{:o} 0x{:x}".format(a, a))
php转字符串函数名,php 转换字符串函数有哪些
2021-04-28 09:34

算法诗韵者的博客 php转换字符串函数有：1、addcslashes函数；2、addslashes函数；3、bin2hex函数；4、chr函数；5、convert_uuencode函数等等。PHP字符串转换函数addcslashes：以C语言风格使用反斜杠转义给定字符串中属于给定列表中的...
十进制转为八进制和十六进制 c++ 有问必答
2022-01-21 15:18

回答 3 已采纳因为你第一次循环后，进制还保留着最后的hex进制啊。当你再次输出n时，由于没有指定进制，会默认使用最后一次输出的进制改为cout<<dec<<n
把8进制的字符串转化成汉字 java
2018-11-26 11:14

回答 1 已采纳 ``` import java.io.UnsupportedEncodingException; public class HelloWorld { public stati
八进制小数
2016-12-30 16:23

回答 2 已采纳 http://www.cnblogs.com/lcchuguo/p/4533135.html
php 字符串的表达方式,PHP字符串
2021-04-22 02:52

SMS Parry的博客表达方式：1)单引号：不解析变量2)双引号解析字符 \n \r \t \v \e \f \\ \$ \"\[0-7]{1,3} 八进制方式表达的字符\x[0-9a-Fa-f]{1,2} 十六进制方式表达的字符3)heredoc1:标识符的名称和变量名的要求一样.2:heredoc的...
k进制的子字符串问题 c++ c语言
2023-02-23 19:40

回答 1 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ这道题可以通过枚举k的值，将str(n,k)转换为10进制，然后判断给定的字符串s是否是这个10进制数的子串来解决。具体来说，我们可以从2到16枚举k，对于每一个k，将s
php mysql 字符串转义_php中字符串转义函数
2021-02-02 20:14

椰子大魔头的博客 = 4.0.3, PHP 5, PECL mysql:1.0)mysql_escape_string — 转义一个字符串用于 mysql_query说明string mysql_escape_string ( string $unescaped_string )本函数将 unescaped_string 转义，使之可以安全用于 mysql...
php移动字符串,php操作字符串函数
2021-04-23 09:28

weixin_39533174的博客 // addcslashes(str, charlist):函数在指定的字符前加反斜杠// 注释：在对 0，r，n 和 t 应用 addcslashes() 时要小心。// 在 PHP 中，\0，\r，\n 和 \t 是预定义的转义序列。//stripcslashes(string):删除由addcsl....
没有解决我的问题, 去提问

悬赏问题

¥15 扩散模型sd.webui使用时报错“Nonetype”
¥15 stm32流水灯＋呼吸灯＋外部中断按键
¥15 将二维数组，按照假设的规定，如0/1/0 == "4"，把对应列位置写成一个字符并打印输出该字符
¥15 NX MCD仿真与博途通讯不了啥情况
¥15 win11家庭中文版安装docker遇到Hyper-V启用失败解决办法整理
¥15 gradio的web端页面格式不对的问题
¥15 求大家看看Nonce如何配置
¥15 Matlab怎么求解含参的二重积分？
¥15 苹果手机突然连不上wifi了？
¥15 cgictest.cgi文件无法访问

码龄粉丝数原力等级 --

ISO 8859 1八进制恢复正常字符

1条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

ISO 8859 1八进制恢复正常字符

1条回答 默认 最新

悬赏问题

1条回答默认最新