泱生 2021-09-25 23:41 采纳率: 0%
浏览 47

python抓取gb2312编码的网页日文乱码

      爬取一个网页的内容,该网页是gb2312的编码格式,浏览网页程序,其中的日文显示姑且算是正常的。
      シン・エヴァンゲリオン劇場版:│▌这是网页程序显示的
    (シン・エヴァンゲリオン乱码霭乱码:│乱码)这是我抓取的,抓取格式也是gb2312,保存为CSV文件格式是UTF-8,别的格式会报错('gb2312' codec can't encode character '\uFFFd' in position 18: illegal multibyte sequence),只能用这个格式。setting设置的格式也是gb2312,所以我保存下来的样子是这样的。
    我都猜想是这样的,网页整体格式是gb2312,这几个日文会不会是别的编码格式。一整个页面都是统一格式,几个日文单独使用其他格式,是怎么实现的?
  • 写回答

3条回答 默认 最新

  • 关注

    这几个日文是在网页源代码中的吗??有日文是不应该用gb2312编码的。
    还是说日文是用ajax加载的外部数据。这个外部数据不是gb2312编码。

    评论

报告相同问题?

问题事件

  • 创建了问题 9月25日

悬赏问题

  • ¥20 verilog状态机方法流水灯
  • ¥15 pandas代码实现不了意图
  • ¥15 GD32H7 从存储器到外设SPI传输数据无法重复启用DMA
  • ¥25 LT码在高斯信道下的误码率仿真
  • ¥45 渲染完成之后将物体的材质贴图改变,自动化进行这个操作
  • ¥15 yolov5目标检测并显示目标出现的时间或视频帧
  • ¥15 电视版的优酷可以设置电影连续播放吗?
  • ¥50 复现论文;matlab代码编写
  • ¥30 echarts 3d地图怎么实现一进来页面散点数据和卡片一起轮播
  • ¥15 数字图像的降噪滤波增强