司徒晟昱 2019-04-12 11:44 采纳率: 60%
浏览 321
已采纳

如何使用C#提取新浪博客的某篇文章

如题,现在我能做到的就是提取目标网页的源码,但是如何将标签剔除,直接获取到博文正文这个问题一直无法解决,网上说可以用正则表达式,但是我尝试了一下发现还是不行。

例如这片博文:http://blog.sina.com.cn/s/blog_50afcbdf0102z6w7.html?tj=1

提取出目标中的博文标题以及正文,其他的内容筛除。

各位大佬能否提供一个参考的代码解决上述问题,非常感谢!

  • 写回答

1条回答 默认 最新

  • 老鱼大鱼小鱼 2019-04-12 15:42
    关注

    试试用HtmlAgilityPack这个包然后XPath解析路径呢?

                string titleStr="", contentStr="";
                var web1 = new HtmlWeb();
                HtmlAgilityPack.HtmlDocument doc = web1.LoadFromBrowser(@"http://blog.sina.com.cn/s/blog_50afcbdf0102z6w7.html?tj=1");
                //标题
                HtmlNode nodeHead = doc.DocumentNode.SelectSingleNode(@"//h2[@class='titName SG_txta']");
                if (nodeHead!=null)
                    titleStr = nodeHead.InnerText;
                //内容
                HtmlNode nodeContent = doc.DocumentNode.SelectSingleNode(@"//div[@id='sina_keyword_ad_area2']");
                if (nodeContent != null)
                    contentStr = nodeContent.InnerText;
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥15 DIFY API Endpoint 问题。
  • ¥20 sub地址DHCP问题
  • ¥15 delta降尺度计算的一些细节,有偿
  • ¥15 Arduino红外遥控代码有问题
  • ¥15 数值计算离散正交多项式
  • ¥30 数值计算均差系数编程
  • ¥15 redis-full-check比较 两个集群的数据出错
  • ¥15 Matlab编程问题
  • ¥15 训练的多模态特征融合模型准确度很低怎么办
  • ¥15 kylin启动报错log4j类冲突