如何使用C#提取新浪博客的某篇文章

如题，现在我能做到的就是提取目标网页的源码，但是如何将标签剔除，直接获取到博文正文这个问题一直无法解决，网上说可以用正则表达式，但是我尝试了一下发现还是不行。

例如这片博文：http://blog.sina.com.cn/s/blog_50afcbdf0102z6w7.html?tj=1

提取出目标中的博文标题以及正文，其他的内容筛除。

各位大佬能否提供一个参考的代码解决上述问题，非常感谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

老鱼大鱼小鱼 2019-04-12 15:42

关注

试试用HtmlAgilityPack这个包然后XPath解析路径呢？

            string titleStr="", contentStr="";
            var web1 = new HtmlWeb();
            HtmlAgilityPack.HtmlDocument doc = web1.LoadFromBrowser(@"http://blog.sina.com.cn/s/blog_50afcbdf0102z6w7.html?tj=1");
            //标题
            HtmlNode nodeHead = doc.DocumentNode.SelectSingleNode(@"//h2[@class='titName SG_txta']");
            if (nodeHead!=null)
                titleStr = nodeHead.InnerText;
            //内容
            HtmlNode nodeContent = doc.DocumentNode.SelectSingleNode(@"//div[@id='sina_keyword_ad_area2']");
            if (nodeContent != null)
                contentStr = nodeContent.InnerText;

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

如何使用C#提取新浪博客的某篇文章 c#
2019-04-12 11:44

回答 1 已采纳试试用HtmlAgilityPack这个包然后XPath解析路径呢？ ``` string titleStr="", contentStr="";
C#正则表达式提取字符串 asp.net c# 正则表达式
2020-04-20 15:33

回答 3 已采纳 ``` (?<=\()\w+ \w+(?=\)) ```
C# winform中chart使用tooltip显示Y轴坐标 c# 有问必答
2022-05-18 10:20

回答 3 已采纳改下面就行，效果如下 private void chart1_MouseMove(object sender, MouseEventArgs e) {
C#毕业设计——基于C#+asp.net+sqlserver的搜索引擎设计与实现（毕业论文+程序源码）——搜索引擎
2022-07-12 09:35

毕业设计方案专家的博客大家好，今天给大家介绍基于C#+asp.net+sqlserver的搜索引擎设计与实现，文章末尾附有本毕业设计的论文和源码下载地址哦。文章目录：项目难度：中等难度适用场景：相关题目的毕业设计配套论文字数：8952个字23页 ...
C#关于正则匹配并提取txt文件中正负小数的问题 c#
2018-12-10 15:46

回答 2 已采纳参考网上的资源，最后编译成功了 string f; if (openFileDialog1.ShowDialog() == DialogResult.OK)
C#中如何读取byte数据的某一位数值？ c# visual studio
2019-12-12 14:11

回答 2 已采纳你需要灵活的使用位运算，以下是我写的版本 ``` byte U8byte = 2; //方法的参数 int bit = 1; //方法的参数 U8byte = (byte)(U8byte
ftp服务器C#连接使用求相关文章 c#
2016-04-19 08:22

回答 2 已采纳 ftp协议不支持修改文件，只能下载修改再上传。先找本书把ftp协议是怎么回事看一下。在C#中，对ftp的封装是ftpwebrequest，自己google下或者看下msdn 这里随便给你几个
常见的一些C#开源框架或者开源项目
2019-08-16 16:46

张云勇的博客 Json.Net 是一个读写Json效率比较高的.Net框架.Json.Net 使得在.Net环境下使用Json更加简单。通过Linq To JSON可以快速的读写Json，通过JsonSerializer可以序列化你的.Net对象。让你轻松实现.Net中所有类型(对象,...
c#如何提取提取淘宝或者京东的一些产品信息 c# 动态规划
2015-02-06 07:42

回答 3 已采纳利用HttpClient或者HttpRequest等和网络相关的类拿到网页数据，此时应该是HTML的，然后利用正则提取出来就可以了
c# 使用中文变量和函数名是否会存在问题 asp.net c# microsoft visual studio
2019-05-27 16:31

回答 5 已采纳 c# 与.net 在设置的时候并没进行硬性规定只能用英文字母来命名,因为 c#的需经过两次编译才能运行，相信.net framework 在设计的时候肯定考虑过这个问题。所以用中文命名变量是没有
C#使用EF框架，连表新增和修改问题 c# visual studio
2019-08-26 11:37

回答 1 已采纳没有办法，插入的时候可以用对象初始化器，修改的时候只能分行写。你要非要写一行，可以自己定义一个函数。
c#学习笔记.txt
2008-12-15 14:01

/* 你能看得出来，这不是一篇正规的技术文章，所以若你不小心从里边读到了一个爱情故事，可不要奇怪。有很多人用程序来表述爱情，在其中我能看到有Money，有Girl，有一些还涉及到Sex,但是我没有找到Love，我始终相信...
C#使用EF框架，事务调用已有方法 c# visual studio
2019-09-30 16:50

回答 2 已采纳 https://www.cnblogs.com/yyy116008/p/6802796.html
基于SMTP协议的E-MAIL电子邮件发送客户端软件C#实现
2020-06-11 14:45

互联网搬砖老肖的博客越来越多的人在使用它。而且用它的人数势必会继续增加。虽然，现在已经有很多的邮件收发软件例如著名的FoxMail 但是对于大多数的非专业的人来说它还是有点难度稍嫌负责。因此，我们就利用SMTP和Pop协议从底层开发了...
Eastmount博客导读：专栏系统分类和博客归纳总结
2019-09-28 20:20

Eastmount的博客为了更好地帮助博友学习作者的博客，方便作者自己归纳总结专栏，本文详细介绍了作者八年来，在CSDN写的各种专栏，各种系列文章。八年来，作者经历了从本科到硕士，到贵州教书成家，再到现在的博士。八年来，作者学得...
没有解决我的问题, 去提问

悬赏问题

¥15 请提供一个符合要求的网页链接。
¥20 用HslCommunication 连接欧姆龙 plc有时会连接失败。报异常为“未知错误”
¥15 网络设备配置与管理这个该怎么弄
¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码

码龄粉丝数原力等级 --

如何使用C#提取新浪博客的某篇文章

1条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

如何使用C#提取新浪博客的某篇文章

1条回答 默认 最新

悬赏问题

1条回答默认最新