iteye_18007 2010-12-21 21:54
浏览 338
已采纳

new DomDocument 或者 new DOMXpath,php抓取网页段落乱码问题

代码是这样的:
[code="php"]<?php
$url = "http://news.sise.com.cn/show.php?id-1611.html";
//$html = file_get_contents($url);
$html=iconv("gb2312", "utf-8",file_get_contents($url));
//echo $html;
$doc=new DomDocument('1.0','utf-8');
$doc->loadHTML($html);
$xpath=new DOMXpath($doc);

$flag = "//p[@class='MsoNormal']";

foreach($xpath->query($flag) as $node){
$link = $node->nodeValue;
echo $link . "\n";
}

?>[/code]

帮忙看看怎样修改才能不乱码?

  • 写回答

2条回答 默认 最新

  • iteye_20685 2010-12-28 09:45
    关注

    访问这个页面:http://news.sise.com.cn/show.php?id-1611.html
    看看页面编码是什么。
    再决定
    iconv("gb2312", "utf-8",file_get_contents($url)); 还是
    iconv("utf-8", "gb2312",file_get_contents($url));

    $doc=new DomDocument('1.0','utf-8');

    还是
    $doc=new DomDocument('1.0','gb2312');

    实在不知道了,就来回换着试几次就知道了,反正也就几种情况

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 如何在scanpy上做差异基因和通路富集?
  • ¥20 关于#硬件工程#的问题,请各位专家解答!
  • ¥15 关于#matlab#的问题:期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707,使系统具有较小的超调量
  • ¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
  • ¥30 截图中的mathematics程序转换成matlab
  • ¥15 动力学代码报错,维度不匹配
  • ¥15 Power query添加列问题
  • ¥50 Kubernetes&Fission&Eleasticsearch
  • ¥15 報錯:Person is not mapped,如何解決?
  • ¥15 c++头文件不能识别CDialog