钻石中的两个问号而不是颠倒的感叹号

I'm processing some text files with Spanish text in php with eclipse-php on my Mac OS X 10. I have the encoding set to UTF-8, and everything works great except for one small problem. All of the ¡ (upside-down exclamation marks) are replaced with � � (two black diamonds with questions marks separated by a space) in the output text file. None of the other characters (¿ñáéíóúü) are giving me any trouble. I had a similar problem with my Windows Vista machine (it would replace all ¡ with é). Any ideas why this one character is bugging out in UTF-8 and how I can fix it?

Here's the code I'm using. I didn't include it originally because it is so long and I'm not sure where the problem lies. As you can see I've tried to incorporate shiplu.mokadd.im's suggestion, but I'm still getting the � �.

<?php

ini_set("auto_detect_line_endings", true);

$sourceH = fopen("MainInput.txt", "r") or die("Can't open MainInput.txt.");
$sourceData = array();
$tracker = 0;

while (!feof($sourceH)){
    $sourceData[$tracker] = fgets($sourceH);
    $sourceData[$tracker] = preg_split("/\t/", $sourceData[$tracker]);
    $tracker++;
}

$i = $tracker--;

$chars_hi = 'ABCDEFGHIJKLMNÑOPQRSTUVWXYZÁÉÍÓÚÜ';
$chars_lo = 'abcdefghijklmnñopqrstuvwxyzáéíóúü';
$characters = "ABCDEFGHIJKLMNÑOPQRSTUVWXYZÁÉÍÓÚÜabcdefghijklmnñopqrstuvwxyzáéíóúü1234567890'-";

function lowercase($s) {
    global $chars_hi, $chars_lo;
    return strtr($s, $chars_hi, $chars_lo);
}

$myNewFile = "Processing/Prepared.txt";
$fhNew = fopen($myNewFile, 'w') or die("can't open Prepared
");
$newText = "";

for ($n = 1; $n < $i; $n++) {

    $myFile = $sourceData[$n][1];
    $fh = fopen($myFile,'r') or die("can't open file ".$sourceData[$n][1]."
");
    fwrite($fhNew, "

StartFile ".$sourceData[$n][0]."

");
    $position = 0;
    $speaker = ">>u";

    while (!feof($fh)){
        $newText = fgets($fh);
        $isLast = false;
        $isFirst = true;
        $new = "";
        if (mb_strpos($newText, ">> i") !== false or mb_strpos($newText, ">>i") !== false or mb_strpos($newText, ">i") !== false or mb_strpos($newText, "> i") !== false) {
            $speaker = ">>i";
        }
        elseif (mb_strpos($newText, ">> s") !== false or mb_strpos($newText, ">>s") !== false or mb_strpos($newText, ">s") !== false or mb_strpos($newText, "> s") !== false) {
            $speaker = ">>s";
        }
        for ($in = 0; $in < mb_strlen($newText); $in++) {
            if (mb_strpos($characters, $newText[$in]) !== false) {
                if ($isFirst == true) {
                    $new = $new." ".$newText[$in];
                    $isFirst = false;
                    $isLast = true;
                }
                else {
                    $new = $new.$newText[$in];
                }
            }
            elseif ($isLast == true) {
                $isLast = false;
                $isFirst = true;
                $new = $new."   ".($in + $position)."   ".$speaker."    ".$newText[$in];
            }
            else {
                $new = $new.$newText[$in];
            }
        }
        $position += mb_strlen($newText);
        $newText = $new;
        $newText = lowercase($newText);
        fwrite($fhNew, $newText."
");
    }
    fclose($fh);
}
fclose($fhNew);

?>

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
douguan1887 2012-12-20 01:30
关注
You cannot do stuff like this:

$new = $new." ".$newText[$in];

Specifically, $newText[$in]. That does byte level access, but when using UTF-8, characters consist of multiple bytes. So when you hack and slash bytes like this, you will separate the UTF-8 bytes that belong together, resulting in �.

For example, run this PHP script (Saved in text editor as UTF-8):

<?php header("Content-Type: text/html; charset=UTF-8"); $text = "ä"; echo $text[0] . " " . $text[1];

The result is � �.

You must fix all of your code where you are doing [] access on strings. You can replace $string[$i] with mb_substr( $string, $i, 1, "UTF-8" );

Also, have you set mb_internal_encoding to "UTF-8"? Otherwise it will most likely not default to UTF-8 when you call mb_* functions without explicit encoding.

I also recommend using something like mb_convert_case($str, MB_CASE_LOWER, "UTF-8"); over your custom lowercase function.
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

钻石中的两个问号而不是颠倒的感叹号 eclipse php
2012-12-19 20:28

回答 1 已采纳 You cannot do stuff like this: $new = $new." ".$newText[$in]; Specifically, $newText[$in]. That
怎么在jdbc配置文件中url中携带两个问号 java
2022-05-23 20:15

回答 2 已采纳
去除字符串中的感叹号和问号，字符串不变 python
2023-04-07 19:51

回答 3 已采纳 import re def remove_special(content): """去除!和？""" # 方式一：replace # return content.repla
java中使用句号问号和感叹号分割_逗号，句号，感叹号和问号
2021-03-10 04:03

姜白的树洞的博客 2011年12月6日星期二天气：阴雨逗号，句号，感叹号和问号进入到12月份，成都的冬天也随之而来，学习任务不断加重，天气也日渐寒冷，这是对一年级孩子身心的考验。在这里再简要说一下这学期语文的教学安排：1---7单元...
java设置gb2312中文变成问号 java xml
2017-12-06 12:27

回答 5 已采纳 java默认的字符串编码是utf-8;所以你对response写入的内容必须先解码再编码 Sting content = "你的字符串内容"; content = new String(Encod
cmd编译java成功后sublime里中文变问号 java
2022-07-30 23:03

回答 3 已采纳文件编码格式问题，在sublime中左下角可以查看文件编码格式为GBK，说明无法正常查看中文编码格式，要确定你的记事本保存的编码格式为utf-8，然后用sublime打开显示为utf-8就可以了
输入两个字符输出时第二个变成问号 c语言
2022-10-12 16:29

回答 1 已采纳 scanf_s("%c%c",&a,1,&b,1);用scanf_s输入字符时，字符变量后面必须加上参数1才行。
java乱码中文变为问号_转 java 中文乱码问号
2021-02-13 02:20

weixin_28916013的博客转自：http://blog.csdn.net/frank520/article/details/6865001java乱码的原因,原理,解决方法.String odsStr = "测试";...最近在编写Java程序的时候，偶尔会遇到中文字乱码的问题，或者偏僻字不能正常显示的...
那什么价值一个亿的ai代码中，为什么问号替换不了感叹号，其余都能替换呢。 java 有问必答
2021-09-10 11:41

回答 3 已采纳 ```java package com.Tank.method; import java.util.Scanner; public class AI { public static v
想问一下怎么解决学java在cmd输入中文变问号 java
2022-10-18 14:48

回答 1 已采纳可以参考下这个 http://t.csdn.cn/oCsWo
为什么idea 中 docx 文件有蓝色问号? java 前端
2022-01-07 15:51

回答 2 已采纳 idea应该是不支持.docx的文件,不支持的文件图标都是?
Java操作数据库插入中文数据，竟变成问号？你需知道的解决方法！
2022-05-21 00:00

bug菌¹的博客解决:为何Java执行插入sql到数据库中文内容会自动变成问号??详细解决方案，只愿能帮到你。
Java如何判断字符是不是在“”引号中 java
2022-02-06 06:06

回答 3 已采纳使用正则表达式替换处理，参考以下文章：https://www.liaoxuefeng.com/wiki/1252599548343744/1306046817632290如有帮助，请采纳！
python语言编程中的感叹号_python 感叹号
2020-11-24 16:17

weixin_39643244的博客 python装饰器python装饰器本质上就是一个函数，它可以让其他函数在不需要做任何代码变动的前提下增加额外的功能，装饰器的返回值也是一个函数对象（函数的指针）。装饰器函数的外部函数传入我要装饰的函数名字，...
TypeScript 中的问号+冒号、双问号、问号+点、感叹号+点
2022-03-01 18:44

冰雪奇缘lb的博客 //7 举例：有一个数据 data，它的属性值可能为 null，undefined，通常我们的写法是直接上 if 判断啥的，然后再取 data 中的属性，但是有了问号点 ?. 写法就简单很多了 !. !. 的意思是断言，告诉 ts 该对象里一定有...
js中使用两个问号
2022-03-23 07:09

_处女座程序员的日常的博客用??代替||，用于判断运算符左侧的值为null或undefined时，才返回右侧的值。...而??必须运算符左侧的值为null或undefined时，才会返回右侧的值。因此0||1的结果为1，0??1的结果为0 const response = { settings: { .
TS中的感叹号和问号的用法
2021-11-30 09:36

CN-Dust的博客用法只能读操作而不能写操作，对一个可能为空的属性赋值是不会被编译通过的，此时还需用用到类型断言 interface IDemo { x: number } // 编译报错，不能赋值给可选属性 const demo = (parma?: IDemo) => { parma?.x ...
TS中的感叹号,问号的使用
2022-05-14 13:50

黎理的博客今天在代码中发现有双感叹号的使用，当时有点蒙圈了不知道!!代表什么意思，有什么含义，下面是我查到相关解释记录一下方便日后自己查看 ! 用法：无论是js还是ts 我们最熟知的就是用在变量前表示对这个变量取反...
三元三木运算符多个问号两个问号两个冒号
2020-11-22 11:18

不懂人情世故的博客今天看到别人写的没见过的一种语法,两个问号,两个冒号,猜测是三元表达式之类的,遂写了个测试类 public static void main(String[] args) { String d; d = true?true?"1":"2":"3"; System.out.println(d); d = ...
Java泛型中的问号是什么意思
2022-08-12 16:48

光明、小飞侠的博客 Java泛型中的问号是什么意思
没有解决我的问题, 去提问

悬赏问题

¥40 万年历缺少农历，需要和阳历同时显示
¥250 雷电模拟器内存穿透、寻基址和特征码的教学
¥200 比特币ord程序wallet_constructor.rs文件支持一次性铸造1000个代币，并将它们分配到40个UTXO上（每个UTXO上分配25个代币），并设置找零地址
¥15 关于Java的学习问题
¥15 如何使用chatgpt完成文本分类任务？
¥15 已知速度v关于位置s的等式，怎么转化为已知位置求速度v的等式
¥15 我有个餐饮系统,用wampserver把环境配置好了,但是后端的网页却进去,是为什么,能不能帮远程一下？
¥15 R运行没有名称为"species"的插槽对于此对象类"SDMmodelCV"
¥20 基于决策树的数字信号处理，2ask 2psk 2fsk的代码，检查下报错的原因
¥15 wincc已组态的变量过多

钻石中的两个问号而不是颠倒的感叹号

1条回答 默认 最新

悬赏问题

1条回答默认最新