C#,使用xpath 无法采集网页内容

采集网址:https://www.taoguba.com.cn/Article/2523033/1

需采集内容:

图片说明

使用HtmlAgilityPack

时间xpath:
1、/html/body//span[contains(concat(' ', normalize-space(@class), ' '),' p_tatime ')]

2、//*[@id='new_wrap_container']/DIV[1]/DIV[2]/SPAN[2]

3、//SPAN[@class='p_tatime']

用上述xpath使用谷歌浏览器的xpath helper插件都可以采集到信息,但C#采集到的html都无法采集到时间。
请问哪位可以给个demo,C#实现的,能采集到标红的时间及文字内容

c#

2个回答

使用浏览器得到的xpath 中有一条为//SPAN[@class='p_tatime'],

该路径无法采集到时间信息,改为//span[@class='p_tatime']_可正确采集时间信息。

所以浏览器得到的xpath有时需要修改。

另外特别感谢:贵阳挖掘机马善福

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Net;
using System.Text.RegularExpressions;

namespace Q769122
{
    class Program
    {
        static void Main(string[] args)
        {
            WebClient wc = new WebClient();
            var html = wc.DownloadData("https://www.taoguba.com.cn/Article/2523033/1");
            var date = Regex.Match(Encoding.UTF8.GetString(html), @"\d{4}\-\d{2}-\d{2}\s\d{2}:\d{2}").Value;
            var slice = Regex.Match(Encoding.UTF8.GetString(html), @"(?is)(?<=\<\!\-\-\s主贴内容开始\s\-\-\>).*(?=\<\!\-\-\s主贴内容结束\s\-\-\>)").Value;
            Console.WriteLine(date);
            Console.WriteLine(slice);
        }
    }
}

图片说明

2019-07-14 08:09

                                                <div class="p_coten" id='first'
                                                        style="">
                                                        &nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;
                                                        <b>确定自己的模式------
选股自己要的股------判断真假涨----下单试错-----对(错)-----加仓(止损)----自己
模式的顶部----出货。</b><br/>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>不要用
接力的模式,选套利的股,不要用套利的股,用来接力。</b><br/>&nbsp;&nbsp;&nbsp;&nb
sp;&nbsp;&nbsp;&nbsp;<b>先弄明白自己的模式,在找相关知识去选股。</b><br/>&nbsp;&
nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>不要整天,搞什么道什么术,云里雾里。搞自己
很NB一样,学费交多了自然就知道坑。</b>
                                                        <!-- 投票选项开始 -->
                                                        <div style="width: 100%;
">

                                                        </div>
                                                        <!-- 投票选项结束 -->
                                                </div>

Press any key to continue . . .
wiledog
wiledog 好的
6 个月之前 回复
caozhy
贵阳老马马善福专业维修游泳池堵漏防水工程 回复wiledog: 回头帮你看看吧,现在手上没有环境
6 个月之前 回复
wiledog
wiledog 采集那种列表的网页都没问题
6 个月之前 回复
wiledog
wiledog 用的HtmlAgilityPack
6 个月之前 回复
wiledog
wiledog HtmlDocument htmlDoc = new HtmlDocument(); htmlDoc.LoadHtml(strWebHtml); HtmlNode rootNode = htmlDoc.DocumentNode; // 选择根节点 HtmlNodeCollection nodes = rootNode.SelectNodes(XpathStr);
6 个月之前 回复
wiledog
wiledog HtmlDocument htmlDoc = new HtmlDocument(); htmlDoc.LoadHtml(strWebHtml); string hrefStr = null; HtmlNode rootNode = htmlDoc.DocumentNode; // 选择根节点 HtmlNodeCollection nodes = rootNode.SelectNodes(XpathStr);
6 个月之前 回复
caozhy
贵阳老马马善福专业维修游泳池堵漏防水工程 回复wiledog: 你的C#的代码怎么写的
6 个月之前 回复
wiledog
wiledog 正则取数据挺好,请问是否清楚xpath为什么取不出来
6 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
C#,使用xpath 无法采集网页内容,我发的问题为什么被删了?
![图片说明](https://img-ask.csdn.net/upload/201907/14/1563091365_50010.jpg)
用C#写的Xpath爬虫程序,添加功能 如何判断我获取到了最后一页?
![图片说明](https://img-ask.csdn.net/upload/201710/16/1508124107_560474.png)像图片这个,有首页位置和结束位置,如果我不要结束页码,意思是,我只需要输入首页页码,然后一直获取到最后一页的,我想的是用判断,连续多少次为空就停止获取,就提示到了最后一页这样,有老哥帮忙说下代码吗。 上面描述的是我爬虫更新的其中一个小功能,后续还要数据更新对比匹配,现在先是获取所有,然后之后的步骤就是:获取网站更新的数据和原数据库A对比,A数据库有,则不添加,如果没有,就添加,希望有老哥帮下忙
C# xpath SelectNode匹配到的节点找不到父节点
想删除xpath匹配到的节点,就需要父节点的RemoveChild方法,但是xpath匹配到的节点找不到其父节点,其父节点也找不到它。 ``` public int Delete(string where="") { XmlDocument xmlDoc = new XmlDocument(); xmlDoc.Load(path); XmlElement root = xmlDoc.DocumentElement; XmlNodeList recordNodes; if (where == "") recordNodes = root.GetElementsByTagName("record"); else { string xpath = "/data" + "/record[" + where + "]/*/parent::*"; recordNodes = root.SelectNodes(xpath); } while (recordNodes.Count > 0)//一边删索引会跟着变,所以用while { root.RemoveChild((XmlElement)recordNodes[0]); //((XmlElement)recordNodes[0]).ParentNode.RemoveChild(recordNodes[0]); } xmlDoc.Save(path); return recordNodes.Count; } ``` ![图片说明](https://img-ask.csdn.net/upload/201804/07/1523111208_335470.png) 注释掉的部分parentNode会报空指针异常 怎么找到父节点,或者怎么删除selectNode(xpath)匹配到的节点
C#使用HtmlAgilityPack 获取xpath节点时出错
``` HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument(); doc.LoadHtml(htmlStr); HtmlNode node1 = doc.DocumentNode.SelectSingleNode("/html/body/table/tbody/tr/td/form/table[1]/tbody/tr[2]/td/table/tbody/tr[3]/td[1]/table/tbody/tr[1]/td"); Console.WriteLine(doc.DocumentNode.SelectSingleNode(node1.XPath); ``` node1能获取到结果 但是node1的xpath与检索放入的xpath不一样 返回了 /html[1]/body[1]/table[1]/tbody[1]/tr[1]/td[1]/form[1]/table[1]/tbody[1]/tr[2]/td[1]/table[1]/tbody[1]/tr[3]/td[1]/table[1]/tbody[1]/tr[1]/td[1] 求问
求助网页采集的Xpath问题
我想采集到下面这个黄色格子里的内容.但是网页上面这2行是相当于1行的. 内容是:<td><span class="bd_btm">9</span>13</td> 我用xpath://table[@class='pub_table']/tbody[1]/tr[2]/td[4]采集出来是913, 试了N次,都不能单独的采集出来13. 我只想采集13,这个应该怎么弄啊? 这个是网址:http://odds.500.com/fenxi/bifen-869554.shtml 就是 表格左上角的 9 和13 ![图片说明](https://img-ask.csdn.net/upload/201910/30/1572411178_862485.jpg)
关于python,xpath采集过微博数据的问题
微博数据节点很深(多层),感觉xpath无法定位采集数据啊!求python-xpath采集过微博数据的大神指导一下。给我举个例子。例如:采集微博的发表的时间 把代码放在答案里。谢谢了!大神
C# ListView 详细信息视图空白
winform 运行程序后Listview有数据,但是切换到详细信息视图就空白了,其他视图全都正常,不知道是什么原因? 数据全都没问题的 链接:https://pan.baidu.com/s/1fR4isB2wspIO7ybBTxSwjw 提取码:lno6 项目我放在了百度, 各位大佬帮我看一下 ``` namespace BookMarksMessages { public partial class Root : Form { public Root() { InitializeComponent(); TreeNode treeNode1 = new TreeNode("根目录"); treeNode1.Text = "根目录"; Directory.Nodes.AddRange(new TreeNode[] { treeNode1}); //BookMarksList.GridLines = true;//显示行与行之间的分隔线 //BookMarksList.FullRowSelect = true;//要选择就是一行 } private void Under_Development_Click(object sender, EventArgs e) { MessageBox.Show("此功能正在开发中...\n敬请期待","开发中...",0); } private void List_Switch(object sender, EventArgs e) { string view = (sender as ToolStripMenuItem).Name.ToString(); this.BookMarksList.View = (View)Enum.Parse(typeof(View), view); } private void ExportToHTML_Click(object sender, EventArgs e) { SaveFileDialog saveFile = new SaveFileDialog(); saveFile.Filter = "所有文件(*.*)|*.*|HTML文件(*.html)|*.html"; //保存时为之前的目录 saveFile.RestoreDirectory = true; //保存文件对话框的默认保存类型,默认索引从1开始 saveFile.FilterIndex = 2; if (saveFile.ShowDialog() == DialogResult.OK) { try { FileStream file = new FileStream(saveFile.FileName,FileMode.Create,FileAccess.Write,FileShare.Write); string str = "测试文本"; //字符串转byte[] byte[] bytes = new UTF8Encoding(true).GetBytes(str); //写入字符串 file.Write(bytes, 0, bytes.Length); file.Close(); MessageBox.Show("保存成功!"); } catch (Exception ex) { MessageBox.Show("文件保存错误:\n" + ex); } } } private void ImportFromHTML_Click(object sender, EventArgs e) { OpenFileDialog openFile = new OpenFileDialog(); //设定只能打开HTML文件,文件类型不用加()不然会出错 openFile.Filter = "HTML文件(*.html)|*.html"; //打开时为之前的目录 openFile.RestoreDirectory = true; if (openFile.ShowDialog() == DialogResult.OK) { try { //打开文件,参数列表: 文件名,打开模式,打开权限,其他可以访问此文件的权限 FileStream file = File.Open(openFile.FileName, FileMode.Open, FileAccess.Read, FileShare.Read); //创建读取文件流实例,参数为: 已打开的文件流,编码方式,一般为默认(操作系统当前的编码) StreamReader sr = new StreamReader(file, Encoding.Default); //读取文件并保存到str字符串 string str = sr.ReadToEnd(); HtmlWeb htmlWeb = new HtmlWeb(); HtmlAgilityPack.HtmlDocument document = new HtmlAgilityPack.HtmlDocument(); //document.Text获取内容 document.LoadHtml(str); //分别用xpath和正则获取内容 //练习 #region 正则 //Regex reg = new Regex("HREF=\"([^\"]+)\""); //MatchCollection result = reg.Matches(document.Text); //string href = ""; //foreach (Match m in result) //{ // reg = new Regex("\".+\""); // Match a = reg.Match(m.ToString()); // href = href + a.ToString() + Environment.NewLine; //} //reg = new Regex("[^\"]+"); //result = reg.Matches(href); //string href1 = ""; //foreach (Match m in result) { // href1 = href1 + m.ToString() + Environment.NewLine; //} #endregion #region xpath HtmlNodeCollection htmlNodes = document.DocumentNode.SelectNodes("//a[@href]"); if (htmlNodes != null) { BookMarksList.Clear(); foreach (HtmlNode n in htmlNodes) { HtmlAttribute hrefAtt = n.Attributes["href"]; ListViewItem item = new ListViewItem(new string[] { n.InnerText.Trim(), hrefAtt.Value }); BookMarksList.Items.Add(item); } } #endregion //关闭读取文件流 sr.Close(); //关闭打开文件流 file.Close(); } catch (Exception ex){//错误处理 MessageBox.Show("文件打开错误:\n"+ex.ToString()); } } } } } ```
c# webservice 天气 无法导入wsdl
![](C:\Users\Administrator\Desktop\QQ图片20141205185414.jpg) 想做一个天气预报结果碰到的这问题,在别的电脑也是,webservice的引用 警告 1 自定义工具警告: 无法导入 wsdl:binding 详细信息: 未处理命名空间“http://schemas.xmlsoap.org/wsdl/http/”中必需的 WSDL 扩展元素“binding”。 错误来源的 XPath: //wsdl:definitions[@targetNamespace='http://WebXml.com.cn/']/wsdl:binding[@name='WeatherWebServiceHttpGet'] G:\csdn下载\WindowsFormsApplication2\WindowsFormsApplication2\WindowsFormsApplication2\Service References\Weather\Reference.svcmap 1 1 callWebservice
Xpath抓取网页数据使用实例
有那位大神有用xpath抓取网页数据的实例给发一个。现在我要从某个页面提取某个数据,用snoopy做的时候由于请求频繁,文章列表页不显示。所以不能继续往下抓取数据
python3中使用xpath无法定位,为什么一直返回空列表?
这几天在学习xpath的时候发现无法正确定位,返回的div_list都是空列表,但response信息是有正确返回的。可是怎么检查也没发现错误,希望大佬们麻烦看看,谢谢。 python版本3.6. ``` def select_html(self,response): #筛选网页信息 html = etree.HTML(response) #分组 div_list = html.xpath("//div[@id='content-left']/div") print(div_list) for line in div_list: data = {} data['content'] = line.xpath(".//div[@class='content']/span/text()") data['stats'] = line.xpath(".//div[@class='stats']/span[@class='stats-vote']/i/text()") data['comment_number'] = line.xpath(".//span[@class='stats-comments']/a/i/text()") data['img'] = 'https:'+ line.xpath(".//div[@class='thumb']/a/img/@src") ``` 爬的是糗事百科的内容,下面是糗事百科的html截图: ![图片说明](https://img-ask.csdn.net/upload/201901/11/1547197771_747866.png) 另附上糗百原址: https://www.qiushibaike.com/hot/page/
Xpath爬虫获取数据不完整
尝试学习Xpath爬虫,通过Xpath helper获得数据99条,其中最后一条为“$PORT”,如图 ![图片说明](https://img-ask.csdn.net/upload/202001/15/1579057925_476322.png) 代码如下,使用这个Xpath路径只能返回"$PORT",其他98条数据没了....... ``` import requests import csv from lxml import etree url = 'https://www.msccruisesusa.com/webapp/wcs/stores/servlet/MSC_SearchCruiseManagerRedirectCmd?storeId=12264&langId=-1004&catalogId=10001&monthsResult=&areaFilter=MED%40NOR%40&embarkFilter=&lengthFilter=&departureFrom=01.11.2020&departureTo=04.11.2020&ships=&category=&onlyAvailableCruises=true&packageTrf=false&packageTpt=false&packageCrol=false&packageCrfl=false&noAdults=2&noChildren=0&noJChildren=0&noInfant=0&dealsInput=false&tripSpecificationPanel=true&shipPreferencesPanel=false&dealsPanel=false' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36'} source = requests.get(url,headers=headers).content.decode('UTF-8') html = etree.HTML(source) portList = html.xpath('//*[@class="cr-city-name"]') for port in portList: print(port.xpath('string()')) ``` 求各位大神搭救,不知道是哪里出了问题......网上遍寻不到相似的情况
Python+XPath网页爬虫问题
我希望制作百度贴吧的一个小爬虫,爬取内容包括一个帖子中的发帖人、发帖内容,测试网页为https://tieba.baidu.com/p/3905531791,爬取1-5页的内容,代码如下: ``` # -*- coding:utf-8 -*- from lxml import etree from multiprocessing.dummy import Pool as ThreadPool import requests import re # import json import sys reload(sys) sys.setdefaultencoding('utf-8') def write(content): f.writelines(u'回帖人:'+str(content['user_name'])+'\n') f.writelines(u'回帖内容:'+unicode(content['content'])+'\n') def spider(url): html = requests.get(url) # print html.text selector = etree.HTML(html.text) content_field = selector.xpath('//div[@class="l_post l_post_bright j_l_post clearfix "]') item = {} for each in content_field: print content_field[0] print each author = each.xpath('//*/li[@class="d_name"]/a/text()')[0] content = each.xpath('//*/div[@class="p_content "]/cc/div/text()')[0] num = each.xpath('//*/div[@class="post-tail-wrap"]/span[@class="tail-info"]/text()') print content print author item['user_name'] = author item['content'] = content write(item)** if __name__ == '__main__': pool = ThreadPool(4) f = open('content.txt','w') page=[] for i in range(1,6): newpage = 'https://tieba.baidu.com/p/3905531791?pn=' + str(i) page.append(newpage) results = pool.map(spider,page) pool.close() pool.join() f.close() ``` 但问题出现在,每次for循环中提取的信息都一样,每一页的发帖人和发帖内容都一样 如下: 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 不知道哪里出了问题。。。
pycharm工具中,使用xpath定位元素的时候报错是怎么回事?
![图片说明](https://img-ask.csdn.net/upload/202001/07/1578410473_110128.png) ![图片说明](https://img-ask.csdn.net/upload/202001/07/1578410321_550460.png)
xpath无法定位,一直返回空列表
用xpath定位时一直无法定位,爬虫运行后li_list一直返回为空列表。但是,在谷歌浏览器中用xpath组件 可以定位到。检查了好久,一直没有找到问题所在,请大佬们帮忙看看。 python3.6版本 ``` def parse(self, response): #解析内容 li_list=response .xpath('//div[@class="dlzplistcon"]/ul') print(li_list ) #遍历列表,取出需要的数据 for oli in li_list : # 创建一个item item = JiuyeItem() #获取工作名称 jobname=oli.xpath('./li/div/a/text())').extract() print(jobname ) #获取工作链接 job_src=oli.xpath ('./li/div/a/@href').extract() print(job_src ) #获取公司名称 company=oli.xpath ('./li/div/div/a/text()').extract() #获取工作地点 place=oli .xpath ('./li/span[@class="r"]/text()').extract() #获取工资 pay=oli .xpath ('./li/span[@class="m"]text()').extract() ``` 爬取的网站是云南招聘网,下面是网站源码截图 ![图片说明](https://img-ask.csdn.net/upload/201905/14/1557843684_596262.png) 附上网站URL:http://www.ynzp.com/all/all/p5/?qtype=jobname&query=ktv
python爬虫中用xpath总是获取不到内容,希望大家帮我看看这两个网页中所需内容如何定位?谢谢~
用python爬虫,代码用xpath总是获取不到内容,希望大家帮我看看这两个网页中所需内容如何定位? 1.想要获取下面网址中的 债券基本信息 ,试了很多xpath的路径都失败了,都是空的_(¦3」∠)_,下面贴出测试用的代码,希望大家能帮我看下xpath那部分为什么不对(倒数第二行),也可能是其他问题o(╥﹏╥)o ``` import requests from lxml import html url = 'http://www.chinamoney.com.cn/chinese/zqjc/?bondDefinedCode=1000040278' page = requests.Session().get(url) tree = html.fromstring(page.text) result = tree.xpath('//tbody//tr//th/text()') print(result) ``` 2.想要获取下面网址中的一个href属性 (截图中阴影部分,就是查询结果的网址),也试了很多xpath的路径也都失败了,不知道@href前应该写什么。 ![图片说明](https://img-ask.csdn.net/upload/201903/27/1553648799_758977.png) ``` url = 'http://www.chinamoney.com.cn/chinese/qwjsn/?searchValue=14中关村集MTN001' ``` 第一次提问,有什么不合适的希望谅解,工作需要,时间比较急切,麻烦大家了。━((*′д`)爻(′д`*))━!!!!
如何使用xpath对带有xmlns属性的Html文档进行定位?
比如下面这种页面: <html class="no-js wholefoods-theme" xmlns:fb="http://ogp.me/ns/fb#" lang="en" version="HTML+RDFa 1.0" dir="ltr" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:dc="http://purl.org/dc/terms/" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:og="http://ogp.me/ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:sioc="http://rdfs.org/sioc/ns#" xmlns:sioct="http://rdfs.org/sioc/types#" xmlns:skos="http://www.w3.org/2004/02/skos/core#" xmlns:xsd="http://www.w3.org/2001/XMLSchema#"> <head profile="http://www.w3.org/1999/xhtml/vocab"> <!--[if IE]><![endif]--> <meta charset="utf-8" />
xpath contains的用法
xml代码为:<TOCHeading>IUPAC Name</TOCHeading> 我使用xpath匹配为://TOCHeading[contains(.,'IUPAC Name')] 或//TOCHeading[contains(text(),'IUPAC Name')] 都匹配不到,请问正确的写法是什么啊?
请懂python+selenium的帮忙解答下我的疑问
![图片说明](https://img-ask.csdn.net/upload/201908/04/1564925712_651353.png) 这种登录的界面,有时会在密码下面出现一个需要输入验证码的框。旁边有一张图片,验证码为英文和数字的组合。我的疑问是打开这个页面的时候,怎么判断我打开的页面是有验证码的。如果有验证码,让其输入用户名,密码,验证码后,点击 登录,登录 成功。没有验证码的时候,输入用户名和密码,点击登录即可登录成功。关于判断界面是否有验证码的代码是加在打开网页后,还是加在输入用户名和密码后,在点击登录之前呢?本人初学这个。请高手不吝赐教,谢谢! 下面附上我的代码 from selenium import webdriver#导入selenium下的webdriver from time import sleep#导入time下的sleep from selenium.webdriver.common.action_chains import ActionChains#导入鼠标事件,登录后的操作需要用到鼠标悬浮 browser=webdriver.Firefox()#定义浏览器为Firefox browser.get('https://tapd.)#打开链接地址 browser.maximize_window()#最大化浏览器窗口 browser.implicitly_wait(10)#隐式等待最多10秒 browser.find_element_by_xpath('//*[@id="l_p_m"]/div[2]/label').click()#使用xpath定位到用户名输入框,并点击 browser.find_element_by_xpath('//*[@id="username"]').send_keys('ng')#向用户名输入框,输入用户名 browser.find_element_by_id('password_input').send_keys('2448)#向密码输入框,输入密码 browser.find_element_by_xpath('//*[@id="login_button"]').click()#点击下方的登录 ActionChains(browser).move_to_element(browser.find_element_by_xpath('/html/body/div[4]/ul/li[2]/ul/li[1]/a')).perform()#使用鼠标悬浮到登录的菜单上。 browser.find_element_by_link_text(u'每日签入/签出').click()#使用link_text定位到元素上,并点击 browser.find_element_by_xpath('//*[@id="checkin_btn"]').click()#使用id定位到元素并点击 browser.quit(self)#退出浏览器
网页中的#document中的代码如何获取?
在网页中会有这样的代码!用xpath怎样获取其中的#document中的代码? ![](https://img-ask.csdn.net/upload/201705/02/1493722437_503571.png)
爬虫福利二 之 妹子图网MM批量下载
爬虫福利一:27报网MM批量下载    点击 看了本文,相信大家对爬虫一定会产生强烈的兴趣,激励自己去学习爬虫,在这里提前祝:大家学有所成! 目标网站:妹子图网 环境:Python3.x 相关第三方模块:requests、beautifulsoup4 Re:各位在测试时只需要将代码里的变量 path 指定为你当前系统要保存的路径,使用 python xxx.py 或IDE运行即可。
Java学习的正确打开方式
在博主认为,对于入门级学习java的最佳学习方法莫过于视频+博客+书籍+总结,前三者博主将淋漓尽致地挥毫于这篇博客文章中,至于总结在于个人,实际上越到后面你会发现学习的最好方式就是阅读参考官方文档其次就是国内的书籍,博客次之,这又是一个层次了,这里暂时不提后面再谈。博主将为各位入门java保驾护航,各位只管冲鸭!!!上天是公平的,只要不辜负时间,时间自然不会辜负你。 何谓学习?博主所理解的学习,它
大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了
大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频学习网站、非视频学习网站、软件下载、面试/求职必备网站。 注意:文中提到的所有资源,文末我都给你整理好了,你们只管拿去,如果觉得不错,转发、分享就是最大的支持了。 一、电子书搜索 对于大部分程序员...
linux系列之常用运维命令整理笔录
本博客记录工作中需要的linux运维命令,大学时候开始接触linux,会一些基本操作,可是都没有整理起来,加上是做开发,不做运维,有些命令忘记了,所以现在整理成博客,当然vi,文件操作等就不介绍了,慢慢积累一些其它拓展的命令,博客不定时更新 顺便拉下票,我在参加csdn博客之星竞选,欢迎投票支持,每个QQ或者微信每天都可以投5票,扫二维码即可,http://m234140.nofollow.ax.
比特币原理详解
一、什么是比特币 比特币是一种电子货币,是一种基于密码学的货币,在2008年11月1日由中本聪发表比特币白皮书,文中提出了一种去中心化的电子记账系统,我们平时的电子现金是银行来记账,因为银行的背后是国家信用。去中心化电子记账系统是参与者共同记账。比特币可以防止主权危机、信用风险。其好处不多做赘述,这一层面介绍的文章很多,本文主要从更深层的技术原理角度进行介绍。 二、问题引入 假设现有4个人...
程序员接私活怎样防止做完了不给钱?
首先跟大家说明一点,我们做 IT 类的外包开发,是非标品开发,所以很有可能在开发过程中会有这样那样的需求修改,而这种需求修改很容易造成扯皮,进而影响到费用支付,甚至出现做完了项目收不到钱的情况。 那么,怎么保证自己的薪酬安全呢? 我们在开工前,一定要做好一些证据方面的准备(也就是“讨薪”的理论依据),这其中最重要的就是需求文档和验收标准。一定要让需求方提供这两个文档资料作为开发的基础。之后开发
网页实现一个简单的音乐播放器(大佬别看。(⊙﹏⊙))
今天闲着无事,就想写点东西。然后听了下歌,就打算写个播放器。 于是乎用h5 audio的加上js简单的播放器完工了。 欢迎 改进 留言。 演示地点跳到演示地点 html代码如下`&lt;!DOCTYPE html&gt; &lt;html&gt; &lt;head&gt; &lt;title&gt;music&lt;/title&gt; &lt;meta charset="utf-8"&gt
Python十大装B语法
Python 是一种代表简单思想的语言,其语法相对简单,很容易上手。不过,如果就此小视 Python 语法的精妙和深邃,那就大错特错了。本文精心筛选了最能展现 Python 语法之精妙的十个知识点,并附上详细的实例代码。如能在实战中融会贯通、灵活使用,必将使代码更为精炼、高效,同时也会极大提升代码B格,使之看上去更老练,读起来更优雅。 1. for - else 什么?不是 if 和 else 才
数据库优化 - SQL优化
前面一篇文章从实例的角度进行数据库优化,通过配置一些参数让数据库性能达到最优。但是一些“不好”的SQL也会导致数据库查询变慢,影响业务流程。本文从SQL角度进行数据库优化,提升SQL运行效率。 判断问题SQL 判断SQL是否有问题时可以通过两个表象进行判断: 系统级别表象 CPU消耗严重 IO等待严重 页面响应时间过长
2019年11月中国大陆编程语言排行榜
2019年11月2日,我统计了某招聘网站,获得有效程序员招聘数据9万条。针对招聘信息,提取编程语言关键字,并统计如下: 编程语言比例 rank pl_ percentage 1 java 33.62% 2 c/c++ 16.42% 3 c_sharp 12.82% 4 javascript 12.31% 5 python 7.93% 6 go 7.25% 7
通俗易懂地给女朋友讲:线程池的内部原理
餐厅的约会 餐盘在灯光的照耀下格外晶莹洁白,女朋友拿起红酒杯轻轻地抿了一小口,对我说:“经常听你说线程池,到底线程池到底是个什么原理?”我楞了一下,心里想女朋友今天是怎么了,怎么突然问出这么专业的问题,但做为一个专业人士在女朋友面前也不能露怯啊,想了一下便说:“我先给你讲讲我前同事老王的故事吧!” 大龄程序员老王 老王是一个已经北漂十多年的程序员,岁数大了,加班加不动了,升迁也无望,于是拿着手里
经典算法(5)杨辉三角
杨辉三角 是经典算法,这篇博客对它的算法思想进行了讲解,并有完整的代码实现。
腾讯算法面试题:64匹马8个跑道需要多少轮才能选出最快的四匹?
昨天,有网友私信我,说去阿里面试,彻底的被打击到了。问了为什么网上大量使用ThreadLocal的源码都会加上private static?他被难住了,因为他从来都没有考虑过这个问题。无独有偶,今天笔者又发现有网友吐槽了一道腾讯的面试题,我们一起来看看。 腾讯算法面试题:64匹马8个跑道需要多少轮才能选出最快的四匹? 在互联网职场论坛,一名程序员发帖求助到。二面腾讯,其中一个算法题:64匹
面试官:你连RESTful都不知道我怎么敢要你?
面试官:了解RESTful吗? 我:听说过。 面试官:那什么是RESTful? 我:就是用起来很规范,挺好的 面试官:是RESTful挺好的,还是自我感觉挺好的 我:都挺好的。 面试官:… 把门关上。 我:… 要干嘛?先关上再说。 面试官:我说出去把门关上。 我:what ?,夺门而去 文章目录01 前言02 RESTful的来源03 RESTful6大原则1. C-S架构2. 无状态3.统一的接
JDK12 Collectors.teeing 你真的需要了解一下
前言 在 Java 12 里面有个非常好用但在官方 JEP 没有公布的功能,因为它只是 Collector 中的一个小改动,它的作用是 merge 两个 collector 的结果,这句话显得很抽象,老规矩,我们先来看个图(这真是一个不和谐的图????): 管道改造经常会用这个小东西,通常我们叫它「三通」,它的主要作用就是将 downstream1 和 downstre...
为啥国人偏爱Mybatis,而老外喜欢Hibernate/JPA呢?
关于SQL和ORM的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行了一番讨论,感触还是有一些,于是就有了今天这篇文。 声明:本文不会下关于Mybatis和JPA两个持久层框架哪个更好这样的结论。只是摆事实,讲道理,所以,请各位看官勿喷。 一、事件起因 关于Mybatis和JPA孰优孰劣的问题,争论已经很多年了。一直也没有结论,毕竟每个人的喜好和习惯是大不相同的。我也看
SQL-小白最佳入门sql查询一
不要偷偷的查询我的个人资料,即使你再喜欢我,也不要这样,真的不好;
项目中的if else太多了,该怎么重构?
介绍 最近跟着公司的大佬开发了一款IM系统,类似QQ和微信哈,就是聊天软件。我们有一部分业务逻辑是这样的 if (msgType = "文本") { // dosomething } else if(msgType = "图片") { // doshomething } else if(msgType = "视频") { // doshomething } else { // doshom...
【图解经典算法题】如何用一行代码解决约瑟夫环问题
约瑟夫环问题算是很经典的题了,估计大家都听说过,然后我就在一次笔试中遇到了,下面我就用 3 种方法来详细讲解一下这道题,最后一种方法学了之后保证让你可以让你装逼。 问题描述:编号为 1-N 的 N 个士兵围坐在一起形成一个圆圈,从编号为 1 的士兵开始依次报数(1,2,3…这样依次报),数到 m 的 士兵会被杀死出列,之后的士兵再从 1 开始报数。直到最后剩下一士兵,求这个士兵的编号。 1、方...
致 Python 初学者
欢迎来到“Python进阶”专栏!来到这里的每一位同学,应该大致上学习了很多 Python 的基础知识,正在努力成长的过程中。在此期间,一定遇到了很多的困惑,对未来的学习方向感到迷茫。我非常理解你们所面临的处境。我从2007年开始接触 python 这门编程语言,从2009年开始单一使用 python 应对所有的开发工作,直至今天。回顾自己的学习过程,也曾经遇到过无数的困难,也曾经迷茫过、困惑过。开办这个专栏,正是为了帮助像我当年一样困惑的 Python 初学者走出困境、快速成长。希望我的经验能真正帮到你
“狗屁不通文章生成器”登顶GitHub热榜,分分钟写出万字形式主义大作
一、垃圾文字生成器介绍 最近在浏览GitHub的时候,发现了这样一个骨骼清奇的雷人项目,而且热度还特别高。 项目中文名:狗屁不通文章生成器 项目英文名:BullshitGenerator 根据作者的介绍,他是偶尔需要一些中文文字用于GUI开发时测试文本渲染,因此开发了这个废话生成器。但由于生成的废话实在是太过富于哲理,所以最近已经被小伙伴们给玩坏了。 他的文风可能是这样的: 你发现,...
程序员:我终于知道post和get的区别
是一个老生常谈的话题,然而随着不断的学习,对于以前的认识有很多误区,所以还是需要不断地总结的,学而时习之,不亦说乎
GitHub标星近1万:只需5秒音源,这个网络就能实时“克隆”你的声音
作者 | Google团队 译者 | 凯隐 编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) 本文中,Google 团队提出了一种文本语音合成(text to speech)神经系统,能通过少量样本学习到多个不同说话者(speaker)的语音特征,并合成他们的讲话音频。此外,对于训练时网络没有接触过的说话者,也能在不重新训练的情况下,仅通过未知...
《程序人生》系列-这个程序员只用了20行代码就拿了冠军
你知道的越多,你不知道的越多 点赞再看,养成习惯GitHub上已经开源https://github.com/JavaFamily,有一线大厂面试点脑图,欢迎Star和完善 前言 这一期不算《吊打面试官》系列的,所有没前言我直接开始。 絮叨 本来应该是没有这期的,看过我上期的小伙伴应该是知道的嘛,双十一比较忙嘛,要值班又要去帮忙拍摄年会的视频素材,还得搞个程序员一天的Vlog,还要写BU...
加快推动区块链技术和产业创新发展,2019可信区块链峰会在京召开
11月8日,由中国信息通信研究院、中国通信标准化协会、中国互联网协会、可信区块链推进计划联合主办,科技行者协办的2019可信区块链峰会将在北京悠唐皇冠假日酒店开幕。   区块链技术被认为是继蒸汽机、电力、互联网之后,下一代颠覆性的核心技术。如果说蒸汽机释放了人类的生产力,电力解决了人类基本的生活需求,互联网彻底改变了信息传递的方式,区块链作为构造信任的技术有重要的价值。   1...
程序员把地府后台管理系统做出来了,还有3.0版本!12月7号最新消息:已在开发中有github地址
第一幕:缘起 听说阎王爷要做个生死簿后台管理系统,我们派去了一个程序员…… 996程序员做的梦: 第一场:团队招募 为了应对地府管理危机,阎王打算找“人”开发一套地府后台管理系统,于是就在地府总经办群中发了项目需求。 话说还是中国电信的信号好,地府都是满格,哈哈!!! 经常会有外行朋友问:看某网站做的不错,功能也简单,你帮忙做一下? 而这次,面对这样的需求,这个程序员...
网易云6亿用户音乐推荐算法
网易云音乐是音乐爱好者的集聚地,云音乐推荐系统致力于通过 AI 算法的落地,实现用户千人千面的个性化推荐,为用户带来不一样的听歌体验。 本次分享重点介绍 AI 算法在音乐推荐中的应用实践,以及在算法落地过程中遇到的挑战和解决方案。 将从如下两个部分展开: AI算法在音乐推荐中的应用 音乐场景下的 AI 思考 从 2013 年 4 月正式上线至今,网易云音乐平台持续提供着:乐屏社区、UGC...
【技巧总结】位运算装逼指南
位算法的效率有多快我就不说,不信你可以去用 10 亿个数据模拟一下,今天给大家讲一讲位运算的一些经典例子。不过,最重要的不是看懂了这些例子就好,而是要在以后多去运用位运算这些技巧,当然,采用位运算,也是可以装逼的,不信,你往下看。我会从最简单的讲起,一道比一道难度递增,不过居然是讲技巧,那么也不会太难,相信你分分钟看懂。 判断奇偶数 判断一个数是基于还是偶数,相信很多人都做过,一般的做法的代码如下...
【管理系统课程设计】美少女手把手教你后台管理
【文章后台管理系统】URL设计与建模分析+项目源码+运行界面 栏目管理、文章列表、用户管理、角色管理、权限管理模块(文章最后附有源码) 1. 这是一个什么系统? 1.1 学习后台管理系统的原因 随着时代的变迁,现如今各大云服务平台横空出世,市面上有许多如学生信息系统、图书阅读系统、停车场管理系统等的管理系统,而本人家里就有人在用烟草销售系统,直接在网上完成挑选、购买与提交收货点,方便又快捷。 试想,若没有烟草销售系统,本人家人想要购买烟草,还要独自前往药...
4G EPS 第四代移动通信系统
目录 文章目录目录4G 与 LTE/EPCLTE/EPC 的架构E-UTRANE-UTRAN 协议栈eNodeBEPCMMES-GWP-GWHSSLTE/EPC 协议栈概览 4G 与 LTE/EPC 4G,即第四代移动通信系统,提供了 3G 不能满足的无线网络宽带化,主要提供数据(上网)业务。而 LTE(Long Term Evolution,长期演进技术)是电信领域用于手机及数据终端的高速无线通...
相关热词 如何提升c#开发能力 矩阵乘法c# c#调用谷歌浏览器 c# 去空格去转义符 c#用户登录窗体代码 c# 流 c# linux 可视化 c# mvc 返回图片 c# 像素空间 c# 日期 最后一天
立即提问