司徒晟昱 2019-04-12 11:44 采纳率: 60%
浏览 321
已采纳

如何使用C#提取新浪博客的某篇文章

如题,现在我能做到的就是提取目标网页的源码,但是如何将标签剔除,直接获取到博文正文这个问题一直无法解决,网上说可以用正则表达式,但是我尝试了一下发现还是不行。

例如这片博文:http://blog.sina.com.cn/s/blog_50afcbdf0102z6w7.html?tj=1

提取出目标中的博文标题以及正文,其他的内容筛除。

各位大佬能否提供一个参考的代码解决上述问题,非常感谢!

  • 写回答

1条回答 默认 最新

  • 老鱼大鱼小鱼 2019-04-12 15:42
    关注

    试试用HtmlAgilityPack这个包然后XPath解析路径呢?

                string titleStr="", contentStr="";
                var web1 = new HtmlWeb();
                HtmlAgilityPack.HtmlDocument doc = web1.LoadFromBrowser(@"http://blog.sina.com.cn/s/blog_50afcbdf0102z6w7.html?tj=1");
                //标题
                HtmlNode nodeHead = doc.DocumentNode.SelectSingleNode(@"//h2[@class='titName SG_txta']");
                if (nodeHead!=null)
                    titleStr = nodeHead.InnerText;
                //内容
                HtmlNode nodeContent = doc.DocumentNode.SelectSingleNode(@"//div[@id='sina_keyword_ad_area2']");
                if (nodeContent != null)
                    contentStr = nodeContent.InnerText;
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥15 请提供一个符合要求的网页链接。
  • ¥20 用HslCommunication 连接欧姆龙 plc有时会连接失败。报异常为“未知错误”
  • ¥15 网络设备配置与管理这个该怎么弄
  • ¥20 机器学习能否像多层线性模型一样处理嵌套数据
  • ¥20 西门子S7-Graph,S7-300,梯形图
  • ¥50 用易语言http 访问不了网页
  • ¥50 safari浏览器fetch提交数据后数据丢失问题
  • ¥15 matlab不知道怎么改,求解答!!
  • ¥15 永磁直线电机的电流环pi调不出来
  • ¥15 用stata实现聚类的代码