genbank网站搜索结果页面是如何翻页的 10C

比如这样的一个网页:http://www.ncbi.nlm.nih.gov/nuccore/?term=trocholejeunea,可以看到里面有79items,4个pages,然后我通过它上面的Previous/Next切换page的时候它的链接就变成了http://www.ncbi.nlm.nih.gov/nuccore/,看源代码那里page部分没看到有href,也没看到它执行Javascript,然后抓包也没看到有什么参数传上去。在网址后面加上&page=2也不行,请教一下这个它到底是怎么实现的?该如何爬取?非常感谢!

附切换页面的Previous/Next的HTML代码:

 <a name="EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Entrez_Pager.Page" title="Next page of results" class="active page_link next" id="EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Entrez_Pager.Page" accesskey="k" href="#" sid="3" page="2">Next &gt;</a>
0

1个回答

大概有两种方式吧,1抓请求,2看代码逻辑。我用1抓请求的来说,以Chrome为例:

  • 打开开发者工具,输入网址,点击第二页,查看network面板,点击主网址(第一条),在Response里得出那些item是html源码返回的,不是网页再去ajax之类的请求来的

图片说明

  • 右键copy as curl(为例),copy出来便于后续处理:
curl 'https://www.ncbi.nlm.nih.gov/nuccore' -H 'authority: www.ncbi.nlm.nih.gov' -H 'cache-control: max-age=0' -H 'origin: https://www.ncbi.nlm.nih.gov' -H 'upgrade-insecure-requests: 1' -H 'content-type: application/x-www-form-urlencoded' -H 'user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' -H 'accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8' -H 'referer: https://www.ncbi.nlm.nih.gov/nuccore/?term=trocholejeunea' -H 'accept-encoding: gzip, deflate, br' -H 'accept-language: zh-CN,zh;q=0.9' -H 'cookie: ncbi_sid=39715999B9263251_0079SID; WebEnv=1ZCmaGvRzY3zpI_IAgfXI0JqPi895YkU0mGNTLkrEK3TGUQc-jpFe6a-PFL72MblpoSCI13v40tnx_Fz87Eb-5BcmOwB4DJf6kGAM%4039715999B9263251_0079SID; _ga=GA1.2.2002142930.1536320297; _gid=GA1.2.770582215.1536320297; _gat=1; starnext=MYGwlsDWB2CmAeAXAXAJgLy2ogTrAXgGQDM60ArsMAPZ6EAs6AJtcAM7kC2hAbM6x24B2dAAtEnEIQAc6VAAZCATmawAZgENyIRIQCM89LlajqIWACtY5OBv170e/aSFL9jNrA05go/Xw0QKT0RTRBPfVkwiIV0YiUhPQBWJVSAISVUHlQAYWkDeUKiovoAMULcgDpOAH1UVEJUByxcAgBSYgBBCipaWA7OlnYuAYA5AHlRgFFGjAB3BcroYAAjMCWQTiWwUUqAc2oAN0bGFrx8AZ6aOizMbHPLymv+rqHBRpEz9q6rvoG3kZdCbTRqyL4XIQ5X54NqQgGcWE5YEzVAqPT0eiKYiGJSFEgOdGYkgYaTEegkUjRWAkRi4cjU4hJRwYrF8DGoJIkESocnEWQ8XG8lRJPR6BqY9DSaS4hgOVEy+gYaAaRBgQ7UjHoUAQGAIXT0JnivhUhgiXHSBiyDkW+gqDTAVXqtq5AAOGj2sBq4GgkGdUL1hCShnEiBdbAGztKkYWcyWq3W0E2212B0Okeh/VQUeIpUQsBwCOIABFjL4zJZrLZncRAw4pvcCABlACebDznFQlQACvXWvhKqMnn1Ko3YABHenLT0AJVgHB0bC7GjgIEqvfONSXHpw3fd1KSGFGeud8g6MySpEJiiSjAN5O9kBqys4sHQ66brfbnZ7Df7g96eAjuOk7ADOc7aIgi7LrAq7vvgm57juW7UsuoFtrQACSTDoJwGhgMs1DYC0AA0cGlLQ3CoXOiC0DkIAaGwbCjBoL7oG6ez4SqYCEcRqqIOYNTLkwNTsfmxE0ER2DiWYxGeOq0A1DQIAANw2CA1AaEwcBIGgdx9iQZBDnQjDwrw/DDMIYgSFIVqKCoTDqFoOj6IYpamOYVg2F49iOPoGBqRpTDOOgrjuOgnjeL4/joIEwShIEER6FECXUrE8SJCk6SZNkeQFMUxRlBUOTVHUDRNHpDw/EZLyDAIgKdMiszoDGcZrBsWzQDs+xHCcFXfN01WNHw4KPABNWmagny/qNzz/HVhYNZMKJgtNkIZoi8KIo1qLMkS2LoLiWIEiyxKSmSFLoCaZJGDg9IkEyV4kGyiqcsQ3K8vySh6DwJDCmKnIStK8g1vQcqpIoipkFx6oMIwAWadp+pMuSF67dejBNA0STI4qgZ8CKP1JCI15Wik14qIoPCGJTBIckIQA' --data 'term=trocholejeunea+&EntrezSystem2.PEntrez.Nuccore.Sequence_PageController.PreviousPageName=results&EntrezSystem2.PEntrez.Nuccore.Sequence_Facets.FacetsUrlFrag=filters%3D&EntrezSystem2.PEntrez.Nuccore.Sequence_Facets.FacetSubmitted=false&EntrezSystem2.PEntrez.Nuccore.Sequence_Facets.BMFacets=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.sPresentation=docsum&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.sPageSize=20&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.sSort=none&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.FFormat=docsum&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.FSort=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.CSFormat=fasta_cds_na&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.GFFormat=gene_fasta&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.Db=nuccore&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.QueryKey=1&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.CurrFilter=all&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.ResultCount=79&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.ViewerParams=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.FileFormat=docsum&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.LastPresentation=docsum&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.Presentation=docsum&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.PageSize=20&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.LastPageSize=20&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.Sort=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.LastSort=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.FileSort=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.Format=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.LastFormat=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.PrevPageSize=20&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.PrevPresentation=docsum&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.PrevSort=&CollectionStartIndex=1&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_ResultsController.ResultCount=79&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_ResultsController.RunLastQuery=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_ResultsController.AccnsFromResult=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Entrez_Pager.cPage=1&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Entrez_Pager.CurrPage=2&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Entrez_Pager.cPage=1&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.sPresentation2=docsum&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.sPageSize2=20&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.sSort2=none&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.TopSendTo=genefeat&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.FFormat2=docsum&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.FSort2=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.CSFormat2=fasta_cds_na&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.GFFormat2=gene_fasta&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_MultiItemSupl.Taxport.TxView=list&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_MultiItemSupl.Taxport.TxListSize=5&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_MultiItemSupl.RelatedDataLinks.rdDatabase=rddbto&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_MultiItemSupl.RelatedDataLinks.DbName=nuccore&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Discovery_SearchDetails.SearchDetailsTerm=%22Trocholejeunea%22%5BOrganism%5D+OR+trocholejeunea%5BAll+Fields%5D&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.HistoryDisplay.Cmd=PageChanged&EntrezSystem2.PEntrez.DbConnector.Db=nuccore&EntrezSystem2.PEntrez.DbConnector.LastDb=nuccore&EntrezSystem2.PEntrez.DbConnector.Term=trocholejeunea&EntrezSystem2.PEntrez.DbConnector.LastTabCmd=&EntrezSystem2.PEntrez.DbConnector.LastQueryKey=1&EntrezSystem2.PEntrez.DbConnector.IdsFromResult=&EntrezSystem2.PEntrez.DbConnector.LastIdsFromResult=&EntrezSystem2.PEntrez.DbConnector.LinkName=&EntrezSystem2.PEntrez.DbConnector.LinkReadableName=&EntrezSystem2.PEntrez.DbConnector.LinkSrcDb=&EntrezSystem2.PEntrez.DbConnector.Cmd=PageChanged&EntrezSystem2.PEntrez.DbConnector.TabCmd=&EntrezSystem2.PEntrez.DbConnector.QueryKey=&p%24a=EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Entrez_Pager.Page&p%24l=EntrezSystem2&p%24st=nuccore' --compressed
  • 可以看到有很多请求头与参数,然后就是分析与精简,看哪些是必要参数以及猜测参数意思
  • 比如先把请求参数弄成个数组,然后一个个减少来请求,如果响应结果不是想要的,就说明当前减少的那个参数是必须的
String[] params = { "term=trocholejeunea",
        "EntrezSystem2.PEntrez.DbConnector.Cmd=PageChanged",
        "EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Entrez_Pager.CurrPage=2","省略"};
for (int i = 1; i <= params.length; i++) {
    Builder bodyBuilder = new FormBody.Builder();
    System.out.println(i);
    int j = 0;
    for (; j < params.length - i; j++) {
        String[] split = StringUtils.splitPreserveAllTokens(params[j], '=');
        bodyBuilder.addEncoded(split[0], split[1]);
    }
    Request request = new Request.Builder().url("https://www.ncbi.nlm.nih.gov/nuccore")
            .header("cookie",
                    "省略")
            /* 省略其它header */
            .post(bodyBuilder.build()).build();
    Response response = new OkHttpClient().newCall(request).execute();
    if (!StringUtils.contains(response.body().string(), "AY462401")) {
    // 第二页有关键字AY462401,如果响应没有,那params[j]就是必填参数
        System.out.println(params[j]);
        break;
    }
}
  • 其它请求内容如header,cookie等参照上一条处理
  • 再点第三页,比较与第二页请求内容的变化猜测诸如请求参数等内容的含义
请求参数 含义
term=trocholejeunea 你的查询内容?
EntrezSystem2.PEntrez.DbConnector.Cmd=PageChanged 必填
EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Entrez_Pager.CurrPage=2 页面,1=第1页
EntrezSystem2.PEntrez.DbConnector.LastQueryKey=1 必填

ps: 没研究为什么直接打开 http://www.ncbi.nlm.nih.gov/nuccore/?term=trocholejeunea 不需要DbConnector.Cmd这些参数

  • 结果:用get(query string)或者post(form data)都可以拿到结果,用程序获取会提示requires JavaScript但没关系,items是有的
    • 都需要加上.header("Cookie", "ncbi_sid=39715999B9263251_0079SID"),不知道这东西是啥,每次还不一样
    • HtmlUnit支持js,但你这里没必要
  • 最后:你自己玩吧,可以提高问题的C币么?我答的很累!!!
  • 坑:你给的地址是http,点第二页跳的是https
0
g_man1990
808a73097dda5232 结果那里忘记说了:其它header都非必须,就4个参数和一个Cookie。
12 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Django 实现搜索功能、分页功能和个人理解
最近在研究django的功能,分页功能根据官方文档可以简单的实现,但是如果配合上搜索,对搜索结果分页就要稍微费点周折。 话不多少,先上代码。 一、搜索配合分页 # 获取、判断并封装关keyword键搜索 kw = request.GET.get(&quot;keyword&quot;, None) if kw: # 查询商品名中只要含有关键字的都可以 list = mod.filter(goo...
搜索结果分页
1.1 整体思路分析 万变不离其宗,首先需要弄清楚需要封装什么格式的数据,数据如何传递,前端封装,后端返回数据给前端,然后在页面上显示出来。 分页:把前端的数据传到后台(在search.html搜索页面,显示页码) 前端: 1.需要传参数到后台(page当前页码、页大小) 2.显示页码(总记录数计算出总页数),所以后台需要返回总记录数和总页数 3.页码需要生成 后端: 1.总记录...
高级搜索翻页之后,搜索不在本页的数据,搜索不到
高级搜索翻页之后,搜索不在本页的数据,搜索不到
Linux文档中翻页和搜索关键字
更改自鸟哥Linux私房菜,强烈推荐此书!!! 按键 进行工作 空格键 向下翻一页 [Page Down] 向下翻一页 [Page Up] 向上翻一页 [Ctrl + U] 向上翻一页 [Ctrl + D] 向下翻一页 /string 向下搜寻
结合豆瓣搜索结果进行分页(完整)
使用豆瓣api,得到分页结果。相当于从后台数据库获得的结果一样。所不同的是,没法事先知道页数。虽然通过请求api可以获得总页数,但由于ajax是异步的,所以对于分页一开始就要给出总页数来说,这是没有意义的。我使用了一个固定总页数65(正是搜索javascript书籍返回的总页数)。所以其他书籍是并不是65页,会出现多页或者少页的情况,这并不是bug。特点  1,全程不需要接触后台,前端独立就可以(我
python3 学习2(分页翻看百度搜索结果)
# -*- coding: utf-8 -*- from selenium import webdriver import time if __name__ == &quot;__main__&quot;:     driver = webdriver.Chrome()     driver.maximize_window()     driver.get('http://www.baidu.com')       ...
获取百度搜索结果的真实URL的两种方法
《1》 import requests def getRealUrl(url): re = request.get(url) print(re.url) 《2》 import requests def getRealUrl(url): re = request.get(url) if re.status_code == 302: try: ...
如何使用C#调用淘宝网页自动搜索,翻页和点击商品
这一篇将说明如何使用C#和WPF浏览器控件来完成淘宝自动搜索,翻页,自动点击的操作
网页中分页的数据查询
        有些网页中通常会有一个分页的样式,点击上一页或者下一页或者是具体的某一页的页码,页面中可以显示具体的从数据库查询的对应的数据。        以下介绍两种分页查询的方法。        第一种也是最常用的,就是通过数据库的limit来指定查找某个位置的几条数据。limit语法格式为:                limit[offset] rows                ...
HttpClient 实现爬取百度搜索结果(自动翻页)
如果你对HttpClient还不是很了解,建议先移步我的另一篇博客HttpClient4.x之请求示例后再来看这篇博客。我们这里的项目采用maven搭建。在阅读前要对jdk和maven有一定的了解。另外开发工具这里我这里使用的是:Spring Tool Suite(STS)当然你也可以使用其他的开发工具进行。环境和版本说明大致如下: 开发工具:Spring Tool Suite(STS)   3...
教你读懂Genbank数据
教你读懂Genbank数据,作用:了解序列数据库的格式,有助于更好地提高数据库检索的效率和准确性。 DDBJ数据库的内容和格式与GenBank相同,此处不作详细介绍。 分别介绍EMBL和GenBank的数据库结构
百度自动搜索关键词,模仿人工浏览网页v2.01
功能说明: 1.无限制设置关键词,可以不同关键词对应不同的站点 2.自动换IP功能,每搜索一个关键词,即更换一次IP,且清理IE缓存,cookies,临时文件 3.可自动翻页,支持设置在多少页内查找结果,每一页查找多少个链接 4.搜索出结果后,可以模仿人工浏览网页,降低跳出率,提高用户体验数据 5.随意浏览网页,随机停留时间 模仿人工搜索并且浏览网站相关说明: 1.本软件为免费软件,绝对不收取任何费用 2.相关设置说明,请查看压缩包里的word文档,内有图文说明 3.换IP功能仅针对ADSL用户 4.必须将IE设置为默认浏览器才可以使用本软件 5.必须把百度和你需要搜索的网站域名设置允许弹窗(请看word图文说明) 6.因为是免费软件,所以搜索关键词里内置了4个关键词,搜索完4个后才会搜索你设置的关键词 版本说明: 更新了部分电脑无法查看界面的BUG
分页查询 原理以及网页实现固定页码数 搜索的实现
需求:做出类似百度这样页码限制的数据分页查询的功能网页在数据库中通过数据的总行数以及你想要每次获取多少数据,就可以得到想要的页数总页数 = 总行数/pageSize + (行数%pageSize==0?0:1);所以获取数据的方法:package cn.hncu.dao;import java.util.HashMap; import java.util.List; import java.util
淘淘商城35-商品搜索之商品搜索功能实现
目录 1.效果展示 2.功能分析 3.dao层 3.1功能分析 3.2创建SearchDao 4.service层 4.1功能分析 4.2创建service接口 4.3创建service实现类 4.4applicationContext-service.xml 5.表现层 5.1导入搜索结果静态页面 5.2引入服务 5.3创建controller 5.4配置分页大小 ...
翻页功能和查询功能测试用例设计
-
分页,搜索后保留搜索条件分页
一个简单的分页实现
网页批量保存工具——半自动(自动翻页)逐页保存网页
本工具用来在浏览器中批量保存网页,特别方便批量保存小说。 1.在使用之前,请先进行一次网页保存操作,以确定网页的保存类型和保存目录。 2.启动程序后,按“定位”按钮,在网页的任意空白处和翻页链接的位置单击。 3.在工具窗口填上文件起始序号和后缀,并给“快捷键(空格)”打上勾。 4.在网页的空白处随便点一下,以让浏览器获得焦点。 5.按空格键。程序会自动模拟以下操作: 按Ctrl+S键>把目标文件名放到剪切板>按Ctrl+V键>按回车键 再按空格键,程序将会把鼠标移动到定位窗口处单击,模拟翻页操作。 如果勾选了“右光标键翻页”,程序将模拟按右光标键进行翻页,这是请将光标定位到网页的空白处。 如果勾选了“立即翻页”,程序将在保存后立即模拟翻页,适用于保存时无需等待的情况。 如果你的浏览器用上述方法手工操作无法保存网页,此工具就无法使用。 此工具在大部分浏览器中都能正常使用,除了IE6。在Opera浏览器中,本工具的效果最好。 6.一直按空格,就可以一直保存并翻页了。 7.有时可能因为意外导致翻页失败,这时请手动翻页并再继续操作。 8.如果翻页后会有弹出窗口,请打开弹窗过滤或调为后台打开新窗口,否则保存可能会失败。提供一个万能的去广告方法:禁止JavaScript。 作者:老虎会游泳 网站:www.hu60.cn
搜索后再分页
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> Document /.html" method="get"> #伪静态 $v
python爬虫--如何爬取翻页url不变的网站
参考 https://blog.csdn.net/c350577169/article/details/80410133    
分页的分页加搜索功能技术演示
针对上一版本,我们做的改进版! 做一个类似于百度分页的分页技术加上搜索功能(如下图)! 结果预览图: 代码实现: 前端技术 主页面(index.jsp)<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <%@ taglib uri="http://java.sun.com/jsp/jstl/core"
爬取跳页后url不变的网页数据
目标网址:http://www.linked-brain-data.org/relateness/ListProtein2Gene?link=link3 该网页上的内容为与脑疾病有关的蛋白质基因等数据,对于跳页后URL变化的网站,可以观察url的变化情况,从而用一个循环就可爬取不同页面的数据内容。 但目标网页跳页后url未变化,是用了js跳页,针对这种情况,我在查阅资料时了解到有两种方法可...
Getfasta--根据Acession Number(Ac号)批量下载GenBank分子序列数据的自动化程序
   推断分子系统发育树时,很多分子序列数据都是从GenBank等公共数据库下载的。当数据很多时,每条序列都要检索、下载十分耗时,而且容易出错。作者基于NCBI官方提供的Entrez direct软件包,二次开放了能批量下载GenBank分子序列数据的程序——Getfast。此程序能解析用户提供的ACLIST文件,并自动下载生成包含所有序列的fasta文件,供构建分子系统发育树使用。 一、运行环...
数据爬取:爬取淘宝及国美在线搜索建议词
分为两种形式的抓取: 1.基于首字母的四轮次抓取 如: a ,aa ,aaa,aaaa 2.基于汉语i拼音的三轮次抓取:附拼音表 链接:http://pan.baidu.com/s/1eS5Kdmq 密码:n9pb 使用的框架为webmagic 淘宝爬取: public class TaobaoPinyinSuggestWordPageProcessor imp
键盘操作,Google搜索结果链接跳转
[前言]在使用Google进行搜索时,我们常常希望通过键盘快捷键的方式,快速进入相应的链接结果。本文介绍一款插件,可以实现 Google search results 链接键盘快捷跳转。同时,本文也介绍了浏览器使用时,几个常用的快捷键。方法使用Google Search Keyboard Shortcuts 浏览器插件具体步骤插件安装在chrome浏览器中安装,【options】→【More to...
爬取760个百度搜索结果标题及url(部分为真实url)
获取的url为真实url,代码中设置了timeout为3s,所以有些结果得到的依旧不是真实网址,想获取更多真实url可以修改timeout的值,但是无疑速率为更慢
scrapy爬虫抓取百度网页(结果列表页和原文页正文提取)
本项目能够针对给定的搜索关键词列表,抓取百度网页搜索的前N页搜索结果。 主要贡献点:通过综合利用正文提取工具(jparser+url2io),提高了搜索结果原文的正文提取成功率和准确率。 本文完整代码详见:https://github.com/Neo-Luo/scrapy_baidu 需求 提供搜索关键词列表,针对每个关键词,返回搜索结果页前N页的搜索结果,保存为csv文件。 保存字段: (1)搜...
vba登陆网站并翻页获取网页数据
       今天展示的是登陆网站病获取多页数据。网站是:http://fdm.yyjzt.com/search/merchandise.htm?keyword&amp;amp;category&amp;amp;page=1、这个页面登陆和未登录时候的的显示数据是不一样的。未登录的时候显示的是公开数据。登陆以后显示的是个人购物私人数据。由于使用的是别人公司的用户名和密码,我在这里就不会显示出post的数据。利用x...
vue和pageHelper进行分页的时候,点击搜索按钮回到第一页
分页组件如下 &amp;lt;div class=&quot;pagination&quot;&amp;gt; &amp;lt;el-pagination @size-change=&quot;handleSizeChange&quot; @current-change=&quot;handleCurrentChange&quot; :...
百度自动搜索自动翻页模拟人工自动点击搜索结果(说明)
以百度为例,同样适合淘宝,soso等网站。 自动搜索关键词,自动点击指定搜索结果。 据说可以提高关键词排名。
post请求方式的翻页爬取内容及思考
1 #coding=utf-8 2 3 import urllib2 4 import urllib 5 import json 6 9 output = open('huizho.json', 'w') 11 for page in range(1,30): //爬取的页数,从1至29页 12 request =urllib2.Request('ht...
求助,如何使用Python3 抓取ASPX网站中翻页URL不改变的网页内容呢?求指导!谢谢!
1、目标网站: URL:http://ggzy.ycsp.gov.cn/front/showinfo/moreinfo_search.aspx?categoryNum=010&type=001 2、需要抓取内容区域: 说明:通过点击下面的分页导航,点击下一页后,网站URL不改变,内容改变!不知道如何抓取,希望大神指导一下思路!谢谢!最好能给个小样!谢谢!
GenBank数据格式
GenBank数据格式 以酿酒酵母TCP1β基因,部分编码区为例: 关键字表 关键字 说明 LOCUS 【标记(简单描述)】:名称,长度,分子类型,数据分类(见下文),最后一次修订时间 DEFINITION 【定义】:物种/基因/蛋白质名称,编码区or非编码区,全序列or部分序列 ACCESSION 【检索号】 VERSION 【版本号】 DBLINK 【相关资源...
使用GENBANK数据进行分子系统发育树的构建
一、引言     GENBANK是目前最大而权威的分子序列数据库,调用其中数据可以进行分子系统发育树的构建。 1、序列数据获取(以皿蛛系统发育树为例)      在GenBank中,每一个物种或阶元都有一个taxid,他是taxa的ID。而且taxa之间存在父子关系。我们的研究对象是蜘蛛目(Aranaea),其taxaid为6893,其父级阶元是蛛形纲(Arachnida),taxaid
从GenBank获取基因序列及PCR引物设计的方法
从GenBank获取基因序列及PCR引物设计的方法
如何在自己的网站输入关键字跳到百度搜索,并显示搜索内容呢?
var value = '你要搜索的关键字' location.href = 'https://www.baidu.com/s?wd='+value // s代表搜索,wd代表word 如果想要集成百度在自己的网站,只需要使用iframe标签即可。
#百度搜索#让网站首页在百度搜索结果中出图的小技巧
百度搜索结果logo可以通过百度站长工具后台提交。不过这种通过百度站长工具提交logo的方式,还要看站长优化的网站账号是否具有这样一个权限。对于新站来说,基本不可能有这个权限。所以今天知道君以自身的经验为大家分享一个百度搜索结果出图的小技巧。 搜索结果图片展现要求 您需满足以下要求,图片资源才能在搜索结果中展现。请您继续努力,提交优质图片资源。 1. 通过Json-ld方式提交的出图资源,...
求教!!!如何使用Python爬取ASPX网站中翻页URL不改变的网页内容?
最近在爬取一些网站获取少量数据,但是发现这个网站并不能用平常的构造表单来post,请大家帮忙看看啊 网站链接:所爬取的网站链接 其实主要是想获取以下的两个参数来构造表单进行翻页: function __doPostBack(eventTarget, eventArgument) { if (window.navigator.appName.toLowerCase().indexOf(“micros...
详细介绍网站分页(Django)
做网站分页,第一步是思考我有哪些数据需要前端传给后台。当然,应该有访问的页码,和内容相关信息。以电商网站为例,内容相关信息就是商品种类信息,比如手机、电脑、显示器等等。只有知道了内容相关信息,我们才知道从数据库里取哪些内容,之后才是分页。 这里,我直接给大家一种解决方案。网页可以是:域名+/参数1+/参数2/+?sort      type对应的是排序方式。这只是一种解决方案,大家可以自由设定,
从 Genbank 文件中提取 CDS 等其他特征序列
1 介绍 在基因结构分析或其他生物功能分析中会时常用到 CDS 序列,以及其他诸如 mRNA 序列,misc_RNA序列等具有生物意义的序列片段。而NCBI 的基因库中已经包含有这些的信息,但是只有一部分是整理可下载的。而剩下的一部分可以通过 genbank给出的位点信息来提取,个人能力有限,这里只做抛转之用。下面以提取 CDS 为例,记录提取序列过程,其他特征序列类似。 2 结构目录 3 Py...
[已解决]百度地图:poi搜索结果的页数,显示最后一页时出现BUG
在poi搜索 goToPoiPage public int goToPoiPage(int num) 获取指定页的的poi结果. 异步函数,搜索成功后会调用注册的事件处理函数 参数: num - 跳转页数 返回: 成功返回0,否则返回-1 实现功能:按音量上下键,poi搜索页面进行翻页。 发现问题即: numPages = result.get