如题,现在我能做到的就是提取目标网页的源码,但是如何将标签剔除,直接获取到博文正文这个问题一直无法解决,网上说可以用正则表达式,但是我尝试了一下发现还是不行。
例如这片博文:http://blog.sina.com.cn/s/blog_50afcbdf0102z6w7.html?tj=1
提取出目标中的博文标题以及正文,其他的内容筛除。
各位大佬能否提供一个参考的代码解决上述问题,非常感谢!
如题,现在我能做到的就是提取目标网页的源码,但是如何将标签剔除,直接获取到博文正文这个问题一直无法解决,网上说可以用正则表达式,但是我尝试了一下发现还是不行。
例如这片博文:http://blog.sina.com.cn/s/blog_50afcbdf0102z6w7.html?tj=1
提取出目标中的博文标题以及正文,其他的内容筛除。
各位大佬能否提供一个参考的代码解决上述问题,非常感谢!
试试用HtmlAgilityPack这个包然后XPath解析路径呢?
string titleStr="", contentStr="";
var web1 = new HtmlWeb();
HtmlAgilityPack.HtmlDocument doc = web1.LoadFromBrowser(@"http://blog.sina.com.cn/s/blog_50afcbdf0102z6w7.html?tj=1");
//标题
HtmlNode nodeHead = doc.DocumentNode.SelectSingleNode(@"//h2[@class='titName SG_txta']");
if (nodeHead!=null)
titleStr = nodeHead.InnerText;
//内容
HtmlNode nodeContent = doc.DocumentNode.SelectSingleNode(@"//div[@id='sina_keyword_ad_area2']");
if (nodeContent != null)
contentStr = nodeContent.InnerText;