genbank网站搜索结果页面是如何翻页的

比如这样的一个网页：http://www.ncbi.nlm.nih.gov/nuccore/?term=trocholejeunea，可以看到里面有79items，4个pages，然后我通过它上面的Previous/Next切换page的时候它的链接就变成了http://www.ncbi.nlm.nih.gov/nuccore/，看源代码那里page部分没看到有href，也没看到它执行Javascript，然后抓包也没看到有什么参数传上去。在网址后面加上&page=2也不行，请教一下这个它到底是怎么实现的？该如何爬取？非常感谢！

附切换页面的Previous/Next的HTML代码：

 <a name="EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Entrez_Pager.Page" title="Next page of results" class="active page_link next" id="EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Entrez_Pager.Page" accesskey="k" href="#" sid="3" page="2">Next &gt;</a>

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

808a73097dda5232 2018-09-07 17:14

关注

大概有两种方式吧，1抓请求，2看代码逻辑。我用1抓请求的来说，以Chrome为例：

打开开发者工具，输入网址，点击第二页，查看network面板，点击主网址(第一条)，在Response里得出那些item是html源码返回的，不是网页再去ajax之类的请求来的

图片说明

右键copy as curl(为例)，copy出来便于后续处理：

curl 'https://www.ncbi.nlm.nih.gov/nuccore' -H 'authority: www.ncbi.nlm.nih.gov' -H 'cache-control: max-age=0' -H 'origin: https://www.ncbi.nlm.nih.gov' -H 'upgrade-insecure-requests: 1' -H 'content-type: application/x-www-form-urlencoded' -H 'user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' -H 'accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8' -H 'referer: https://www.ncbi.nlm.nih.gov/nuccore/?term=trocholejeunea' -H 'accept-encoding: gzip, deflate, br' -H 'accept-language: zh-CN,zh;q=0.9' -H 'cookie: ncbi_sid=39715999B9263251_0079SID; WebEnv=1ZCmaGvRzY3zpI_IAgfXI0JqPi895YkU0mGNTLkrEK3TGUQc-jpFe6a-PFL72MblpoSCI13v40tnx_Fz87Eb-5BcmOwB4DJf6kGAM%4039715999B9263251_0079SID; _ga=GA1.2.2002142930.1536320297; _gid=GA1.2.770582215.1536320297; _gat=1; starnext=MYGwlsDWB2CmAeAXAXAJgLy2ogTrAXgGQDM60ArsMAPZ6EAs6AJtcAM7kC2hAbM6x24B2dAAtEnEIQAc6VAAZCATmawAZgENyIRIQCM89LlajqIWACtY5OBv170e/aSFL9jNrA05go/Xw0QKT0RTRBPfVkwiIV0YiUhPQBWJVSAISVUHlQAYWkDeUKiovoAMULcgDpOAH1UVEJUByxcAgBSYgBBCipaWA7OlnYuAYA5AHlRgFFGjAB3BcroYAAjMCWQTiWwUUqAc2oAN0bGFrx8AZ6aOizMbHPLymv+rqHBRpEz9q6rvoG3kZdCbTRqyL4XIQ5X54NqQgGcWE5YEzVAqPT0eiKYiGJSFEgOdGYkgYaTEegkUjRWAkRi4cjU4hJRwYrF8DGoJIkESocnEWQ8XG8lRJPR6BqY9DSaS4hgOVEy+gYaAaRBgQ7UjHoUAQGAIXT0JnivhUhgiXHSBiyDkW+gqDTAVXqtq5AAOGj2sBq4GgkGdUL1hCShnEiBdbAGztKkYWcyWq3W0E2212B0Okeh/VQUeIpUQsBwCOIABFjL4zJZrLZncRAw4pvcCABlACebDznFQlQACvXWvhKqMnn1Ko3YABHenLT0AJVgHB0bC7GjgIEqvfONSXHpw3fd1KSGFGeud8g6MySpEJiiSjAN5O9kBqys4sHQ66brfbnZ7Df7g96eAjuOk7ADOc7aIgi7LrAq7vvgm57juW7UsuoFtrQACSTDoJwGhgMs1DYC0AA0cGlLQ3CoXOiC0DkIAaGwbCjBoL7oG6ez4SqYCEcRqqIOYNTLkwNTsfmxE0ER2DiWYxGeOq0A1DQIAANw2CA1AaEwcBIGgdx9iQZBDnQjDwrw/DDMIYgSFIVqKCoTDqFoOj6IYpamOYVg2F49iOPoGBqRpTDOOgrjuOgnjeL4/joIEwShIEER6FECXUrE8SJCk6SZNkeQFMUxRlBUOTVHUDRNHpDw/EZLyDAIgKdMiszoDGcZrBsWzQDs+xHCcFXfN01WNHw4KPABNWmagny/qNzz/HVhYNZMKJgtNkIZoi8KIo1qLMkS2LoLiWIEiyxKSmSFLoCaZJGDg9IkEyV4kGyiqcsQ3K8vySh6DwJDCmKnIStK8g1vQcqpIoipkFx6oMIwAWadp+pMuSF67dejBNA0STI4qgZ8CKP1JCI15Wik14qIoPCGJTBIckIQA' --data 'term=trocholejeunea+&EntrezSystem2.PEntrez.Nuccore.Sequence_PageController.PreviousPageName=results&EntrezSystem2.PEntrez.Nuccore.Sequence_Facets.FacetsUrlFrag=filters%3D&EntrezSystem2.PEntrez.Nuccore.Sequence_Facets.FacetSubmitted=false&EntrezSystem2.PEntrez.Nuccore.Sequence_Facets.BMFacets=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.sPresentation=docsum&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.sPageSize=20&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.sSort=none&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.FFormat=docsum&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.FSort=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.CSFormat=fasta_cds_na&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.GFFormat=gene_fasta&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.Db=nuccore&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.QueryKey=1&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.CurrFilter=all&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.ResultCount=79&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.ViewerParams=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.FileFormat=docsum&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.LastPresentation=docsum&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.Presentation=docsum&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.PageSize=20&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.LastPageSize=20&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.Sort=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.LastSort=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.FileSort=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.Format=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.LastFormat=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.PrevPageSize=20&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.PrevPresentation=docsum&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.PrevSort=&CollectionStartIndex=1&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_ResultsController.ResultCount=79&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_ResultsController.RunLastQuery=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_ResultsController.AccnsFromResult=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Entrez_Pager.cPage=1&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Entrez_Pager.CurrPage=2&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Entrez_Pager.cPage=1&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.sPresentation2=docsum&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.sPageSize2=20&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.sSort2=none&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.TopSendTo=genefeat&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.FFormat2=docsum&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.FSort2=&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.CSFormat2=fasta_cds_na&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_DisplayBar.GFFormat2=gene_fasta&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_MultiItemSupl.Taxport.TxView=list&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_MultiItemSupl.Taxport.TxListSize=5&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_MultiItemSupl.RelatedDataLinks.rdDatabase=rddbto&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Sequence_MultiItemSupl.RelatedDataLinks.DbName=nuccore&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Discovery_SearchDetails.SearchDetailsTerm=%22Trocholejeunea%22%5BOrganism%5D+OR+trocholejeunea%5BAll+Fields%5D&EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.HistoryDisplay.Cmd=PageChanged&EntrezSystem2.PEntrez.DbConnector.Db=nuccore&EntrezSystem2.PEntrez.DbConnector.LastDb=nuccore&EntrezSystem2.PEntrez.DbConnector.Term=trocholejeunea&EntrezSystem2.PEntrez.DbConnector.LastTabCmd=&EntrezSystem2.PEntrez.DbConnector.LastQueryKey=1&EntrezSystem2.PEntrez.DbConnector.IdsFromResult=&EntrezSystem2.PEntrez.DbConnector.LastIdsFromResult=&EntrezSystem2.PEntrez.DbConnector.LinkName=&EntrezSystem2.PEntrez.DbConnector.LinkReadableName=&EntrezSystem2.PEntrez.DbConnector.LinkSrcDb=&EntrezSystem2.PEntrez.DbConnector.Cmd=PageChanged&EntrezSystem2.PEntrez.DbConnector.TabCmd=&EntrezSystem2.PEntrez.DbConnector.QueryKey=&p%24a=EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Entrez_Pager.Page&p%24l=EntrezSystem2&p%24st=nuccore' --compressed

可以看到有很多请求头与参数，然后就是分析与精简，看哪些是必要参数以及猜测参数意思
比如先把请求参数弄成个数组，然后一个个减少来请求，如果响应结果不是想要的，就说明当前减少的那个参数是必须的

String[] params = { "term=trocholejeunea",
        "EntrezSystem2.PEntrez.DbConnector.Cmd=PageChanged",
        "EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Entrez_Pager.CurrPage=2","省略"};
for (int i = 1; i <= params.length; i++) {
    Builder bodyBuilder = new FormBody.Builder();
    System.out.println(i);
    int j = 0;
    for (; j < params.length - i; j++) {
        String[] split = StringUtils.splitPreserveAllTokens(params[j], '=');
        bodyBuilder.addEncoded(split[0], split[1]);
    }
    Request request = new Request.Builder().url("https://www.ncbi.nlm.nih.gov/nuccore")
            .header("cookie",
                    "省略")
            /* 省略其它header */
            .post(bodyBuilder.build()).build();
    Response response = new OkHttpClient().newCall(request).execute();
    if (!StringUtils.contains(response.body().string(), "AY462401")) {
    // 第二页有关键字AY462401，如果响应没有，那params[j]就是必填参数
        System.out.println(params[j]);
        break;
    }
}

其它请求内容如header，cookie等参照上一条处理
再点第三页，比较与第二页请求内容的变化猜测诸如请求参数等内容的含义

请求参数	含义
term=trocholejeunea	你的查询内容?
EntrezSystem2.PEntrez.DbConnector.Cmd=PageChanged	必填
EntrezSystem2.PEntrez.Nuccore.Sequence_ResultsPanel.Entrez_Pager.CurrPage=2	页面，1=第1页
EntrezSystem2.PEntrez.DbConnector.LastQueryKey=1	必填

ps: 没研究为什么直接打开 http://www.ncbi.nlm.nih.gov/nuccore/?term=trocholejeunea 不需要DbConnector.Cmd这些参数

结果：用get(query string)或者post(form data)都可以拿到结果，用程序获取会提示requires JavaScript但没关系，items是有的
- 都需要加上.header("Cookie", "ncbi_sid=39715999B9263251_0079SID")，不知道这东西是啥，每次还不一样
- HtmlUnit支持js，但你这里没必要
最后：你自己玩吧，可以提高问题的C币么？我答的很累！！！
坑：你给的地址是http，点第二页跳的是https

报告相同问题？

关注问题

restez:在 R 中创建和查询 GenBank 的本地副本
2021-05-29 01:23

本地查询GenBank 注意：由于密钥依赖的存档， restez在 CRAN 上不再可用。它仍然可以通过GitHub安装。这个问题正在处理中，希望有一个新版本的restez即将在CRAN上可用。将下载到本地文件夹，并创建一个简单的...
gb2fasta：Perl脚本，用于将GenBank记录转换为FASTA格式
2021-02-05 15:46

gb2fasta：Perl脚本，用于将GenBank记录转换为FASTA格式
genbank-submit
2021-06-10 15:29

genbank-提交关于使用主电子表格、R 和“tbl2asn”程序将序列提交到 GenBank 的小示例教程。更多信息可以在随附的博客文章中找到： : 。
教你读懂Genbank数据
2016-01-13 09:32

教你读懂Genbank数据，作用：了解序列数据库的格式，有助于更好地提高数据库检索的效率和准确性。 DDBJ数据库的内容和格式与GenBank相同，此处不作详细介绍。分别介绍EMBL和GenBank的数据库结构
GenBank数据库检索及其应用x.ppt
2022-05-18 09:00

GenBank数据库检索及其应用x.ppt
gb_taxonomy_tools:GenBank分类法处理工具
2021-05-09 16:53

使用CMake安装建造，使用 cmake ./ make install （默认情况下进入/ usr / local）将GID转换为TaxID 这是四个简单的实用程序，它们对GenBank分类信息执行以下操作和可视化任务。 gid-taxid ：将GenBank ID... 结果
GenBank Flat File Reader：将 GenBank 格式的平面文件读入结构-matlab开发
2021-05-30 08:31

与期望字段保持严格格式和顺序的 genbankread() 不同，gbread() 将每条记录作为文本行的元胞数组阻止，搜索字段，并使用 switch/case 设计处理它们。未识别的字段不会引起致命错误，而是作为文本块附加到输出结构...
DnaFeaturesViewer:用于绘制DNA序列特征的Python库（例如，来自Genbank文件）
2021-05-06 05:19

DNA Features Viewer（是完整文档）是一个Python库，用于可视化DNA特征，例如来自GenBank或Gff文件或Biopython SeqRecords： Dna Feature Viewer甚至可以为具有许多重叠特征和长标签的序列自动生成简单明了的...
GenBank filetype to Fasta filetype
2019-05-27 01:01

NULL 博文链接：https://bachelor007.iteye.com/blog/524450
对genbank文件的解析实例
2013-10-14 17:01

perl的cpan库支持对基因库文件的解析，这个perl的脚本文件实现了对genbank类型的基因库中基因数据的提取和解析。用户使用的时候需要手动修改代码中的genbank文件的路径。
GenBank记录中特性表中的限定词.pptx
2023-11-15 22:30

GenBank记录中特性表中的限定词.pptx
gbmunge:Munge GenBank文件进入FASTA和制表符分隔的元数据
2021-05-08 10:14

gbmunge 将Munge GenBank文件转换成FASTA序列和制表符分隔的元数据。这个小C程序将从GenBank文件中提取以下信息：名称加入长度提交日期主持人国家采集日期除了提取此信息外，还对日期进行了重新格式化，例如31-DEC...
GenBank数据库检索及其应用x 2.ppt
2022-06-03 11:09

GenBank数据库检索及其应用x 2
GenBank数据库检索及其应用x.3.ppt
2022-06-03 11:10

GenBank数据库检索及其应用x.3
phyloboost:Python管道来计算Genbank的系统发育信息
2021-05-21 14:45

尽管最初是作为一种工具来允许在Genbank中为真核生物合成和计算系统发育信号，但它可用于任何大型的DNA或RNA序列数据集。管道-用于生成，扩充和可视化集群的实际软件管道。工具-有助于设置/配置某些管道和...
NCBI_Genbank核苷酸序列数据库检索基因序列解读_20191
2022-08-08 21:00

本文链接：https://blog.csdn.net/Jinyang_csdn/article/details/88363691核酸数据库Genbank数据库=
GenBank中CDS11join特征域研究初步 (2008年)
2021-05-11 17:48

由NCB I建立和维护的大型公用数据库GenBank是进行生物学研究最为重要的工具之一.其DNA序列数据库的每条记录描述了相关基因的详细特征,其中的CDS(Coding Sequence)特征域被认为是DNA生成蛋白质的翻译指令,它对GenBank...
ncov-ingest：从GISAID和Genbank提取SARS-CoV-2（即nCoV）数据，对其进行转换，将其存储在S3上并触发Nextstrain nCoV重建的管道
2021-02-16 05:15

nCoV摄取管道用于Nextstrain团队摄取和管理SARS-CoV-2基因组序列的内部工具。这是开源的，但是我们不打算支持外部团体使用它。在本地运行如果您使用的是Pipenv（请参见下文），请从./bin/…在pipenv shell运行...
PyPI 官网下载 | polish_genbank-0.0.2.tar.gz
2022-01-14 21:19

资源来自pypi官网。资源全名：polish_genbank-0.0.2.tar.gz
没有解决我的问题, 去提问

悬赏问题

¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog
¥15 Excel发现不可读取的内容
¥15 关于#stm32#的问题：CANOpen的PDO同步传输问题

码龄粉丝数原力等级 --

genbank网站搜索结果页面是如何翻页的

1条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

genbank网站搜索结果页面是如何翻页的

1条回答 默认 最新

悬赏问题

1条回答默认最新