如何区分汉字"錒"和其他英文字符

实验用文档
程序所用文档如图，我需要处理这些数据，把它变成
预期结果
我的代码是这样的

#include <iostream>
#include <string>
#include <fstream>
#include <map>
#include <cstdlib>

using namespace std;

bool isLetterOrNumber(const char &word);
bool isChinese(const char &word);


int main(int argc, char* argv[])
{
    // 首先要打开这个文件，用二进制形式
    ifstream ifs("list_t.txt", ios::binary);
    // 需要把结果写入一个目标文件
    ofstream ofs("hz_pinyin.txt", ios::binary);
    // 需要一个临时存储字符
    char word;
    // 需要一个字符串存拼音
    string pinyin;
    // 需要一个字符串存汉字
    string chinese;
    // 我们需要通过汉字来检索拼音，所以需要一个从string到string的map
    map<string, string> table;

    // 错误处理，如果ifs指向NULL，结束程序
    if (!ifs)
    {
        cerr << "文件打开错误，请检查" << endl;
        exit(0);
    }
    // 打开文件后看见了下面这一行
    // a1 阿啊锕呵吖腌錒

    // 文件指针开始移动
    while (!ifs.eof())
    {
        // 先读取当前位置的字符
        ifs.read((char*)&word, 1);
        // 判断读到的字符是不是英文字符和数字(因为拼音是由英文字符和数字组成的)
        if (isLetterOrNumber(word)) // 錒的后一个字节内容是48h，到这一句会判断为真，连入pinyin，造成后面乱码
            // 放入pinyin字符串
            pinyin += word;
        // 判断读到的字符是不是中文
        else if (isChinese(word))
        {
            // 放入chinese字符串
             chinese += word;
            // 判断中文字符串长度是否为2，如果为2，chinese为索引，pinyin为对应值，存入map
            if (chinese.size() == 2)    
            {
                table[chinese] = pinyin;
                // 以<中文><拼音>形式存入新的文件
                ofs.write(chinese.c_str(), chinese.size());
                ofs.write(pinyin.c_str(), pinyin.size());
                // 接着清空chinese字符串，以迎接下一个汉字
                chinese.clear();
                // 往目标文件写入一个回车
                ofs.write("\r", 1);
                // 往目标文件写入一个换行
                ofs.write("\n", 1);
            }
        }
        // 如果读到了0x0D，那么清空pinyin字符串，并接着读一个0x0A
        else if (word == 0x0D)
        {
            pinyin.clear();
            ifs.read((char*)&word, 1);
        }
    }

    ifs.close();
    ofs.close();
    return 0;
}

bool isLetterOrNumber(const char &word)
{
    if ((word >= '0' && word <= '9') || (word >= 'a' && word <= 'z')
        || (word >= 'A' && word <= 'Z'))
        return true;
    return false;
}

bool isChinese(const char &word)
{
    if ((!isLetterOrNumber(word)) && (word != ' ') && (word != '\r')
        && (word != '\n'))
        return true;
    return false;
}

生成的结果是乱码。我用winhex查看了一下，问题发生在“錒”这个字上。錒的编码是"E5 48"它第二个字节的48正好是ASCII码中'H'的位置，也就是说，当word是"錒"的第二个字节，并且处理到

if (isLetterOrNumber(word))

会返回true，这个48就会按照英文来处理，放到拼音字符串中。

但是问题来了：既然"錒"的第二个字节是48，而48也在ASCII中，那么怎么才能区分出我想要的这个48是"錒"的第二字节，而不是'H'ASCII字符？

PS：我感觉我的markdown语法好像没有错，为什么代码没有高亮

图片说明

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Ensue 2016-12-09 03:12
关注
逻辑改一下:
if (isChinese(word))
{
chinese = word;
ifs.read((char*)&word, 1); //既然是汉字，就得读两次组成一个汉字。
chinese += word;
现在肯定是汉字，无需判断是否等于2
}
else if (isLetterOrNumber(word)) // 排除汉字后才处理字符和数字
// 放入pinyin字符串
pinyin += word;

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

printf输出的时候是如何区分汉字和英文字符？ c++ c语言开发语言
2022-11-19 08:50

回答 2 已采纳在C语言中汉字采用的是gb2312编码，每个汉字占两个字节。一个char对应一个字节，这个数组每两位对应一个汉字。一个汉字占用两个字节，单独读取一个字节的ASCII码为负数，因而可以通过判断ASCII
输入一行字符，分别统计出其中的英文字母、空格和其他字符的个数，不区分大小写。 c语言
2021-12-27 11:20

回答 4 已采纳 #include <stdio.h> #include <string.h> int main() { char c; int letter = 0, ot
关于汉字字符串比较和排序 c++
2022-12-12 09:43

回答 3 已采纳长度用strlen就行比较 #include <stdio.h> #include <string.h> int main() { char s[6][100],t[1
前端js实现中文转五笔和拼音首字母
2021-04-14 14:22

机智的成大的博客项目中使用到中文转五笔的功能，在网上找了到该代码，但是没有对特殊字符和数字进行处理。五笔简码的字库来源：https://blog.csdn.net/Celebrity_Senior/article/details/52727926 // 汉字拼音首字母列表本列表...
python统计字符串中数字，大小写字母和其他字符数目 python
2022-04-13 21:14

回答 2 已采纳我估计你是要自定义一个函数吧，我按这个思路给了个例子，s是字符串，f代表统计内容，0表示数字，1大写，2小写，3其它字符 az = 'abcdefghigklmnopqrstuvwxyz' AZ =
C语言给定一行字符，分别统计出其中英文字母、空格、数字和其他字符的个数。 c语言
2021-10-14 11:45

回答 2 已采纳 scanf函数遇到空格就读取结束了。要读取包含空格的字符或字符串，不能用scanf函数。也可以用下面的方法：char buf[20];gets(buf);//这样一次性读取一行数据，遇到回车符结束
本题要求实现一个函数，统计给定字符串中英文字母、空格或回车、数字字符和其他字符的个数。 c++ c语言
2022-04-06 13:16

回答 1 已采纳 s是字符串的首地址，建议你把字符串看成一个字符数组来编程，像你的s应该是运行不了的，应该改成（s+i),i的值根据字符变化
mysql 模糊匹配比自己短潆字符_根据中文字符串查询拼音声母
2021-01-19 12:29

假装在东京的博客 C#精髓第四讲 GridVie#region 汉字首字母列表private static string[] strChineseCharList ={"A阿啊锕嗄厑哎哀唉埃挨溾锿鎄啀捱皑凒溰嘊敳皚癌毐昹嗳矮蔼躷噯藹譪霭靄艾伌爱砹硋隘嗌塧嫒愛碍暧瑷僾壒嬡...
编写一个函数，把字符串中的数字字符、英文字母字符和其它字符分开。 c语言有问必答
2021-12-27 11:53

回答 6 已采纳 #include <iostream> #include <map> #include <string> using namespace std; map<
python 统计不同字符的个数。用户从键盘输入一行字符，编写一个程序，统计并输出英文字符、数字、空格和其他字符的个数。 python
2021-09-06 11:52

回答 5 已采纳 1－首先python语法不加;2－你的变量名重复，导致input,被第六行重新赋值成03－如果想将i变量定义为字符语法为str(i) 整数为int(i)如有帮助望采纳，谢谢
Keil5汉字字符串问题 51单片机 c语言
2023-03-14 22:57

回答 3 已采纳 keil对中文支持不好，遇到0xfd有bug。“三”对应的内码是 C8 FD，正好撞上了keil的bug。你可以网上搜个keil的0xfd补丁修复一下还有另外一个方式https://www.stcai
字体包压缩（汉字字符7000）
2024-03-19 19:19

脑袋与心的距离的博客常用汉字数字字符字母（7000左右）一乛乙二十丁厂七丨卜丿八人入乂儿九匕几刁了乃刀力又乜三干亍于亏士土工才下寸丈大兀与万弋上小口山巾千乞川亿彳个么久勺丸夕凡及丶广亡门丫义之尸已巳弓己卫孑子孓也女飞刃习叉...
ascii码所有字符对照表(包含汉字和外国文字)
2018-05-21 10:28

sad_s的博客 //128-256：对应的字符无法单个显示，但两个结合在一起为各国语言字符 15 for (i=129;i;i++) 16 { 17 for (j=129;j;j++) 18 { 19 fprintf (stream, "%d + %d -> %c%c " ,i,j,i,j); 20 if ((j...
Java比较汉字字符串排序与C++比较汉字排序
2014-05-30 01:00

CodingSir的博客 // Collator 类是用来执行区分语言环境的 String 比较的，这里选择使用CHINA Comparator cmp = Collator.getInstance(java.util.Locale.CHINA); TreeMap tree=new TreeMap(cmp); String[] arr = {"张三...
GB2312汉字编码字符集对照表
2018-03-26 14:34

flybirding10011的博客第01区 +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F A1A0 、。・ ˉ ˇ ¨ 〃々 ― ～...
没有解决我的问题, 去提问

悬赏问题

¥15 做个有关计算的小程序
¥15 MPI读取tif文件无法正常给各进程分配路径
¥15 如何用MATLAB实现以下三个公式（有相互嵌套）
¥30 关于#算法#的问题：运用EViews第九版本进行一系列计量经济学的时间数列数据回归分析预测问题求各位帮我解答一下
¥15 setInterval 页面闪烁，怎么解决
¥15 如何让企业微信机器人实现消息汇总整合
¥50 关于#ui#的问题：做yolov8的ui界面出现的问题
¥15 如何用Python爬取各高校教师公开的教育和工作经历
¥15 TLE9879QXA40 电机驱动
¥20 对于工程问题的非线性数学模型进行线性化

如何区分汉字"錒"和其他英文字符

2条回答 默认 最新

悬赏问题

2条回答默认最新