weixin_36938798 2018-11-07 10:09 采纳率: 100%
浏览 2485
已采纳

请问这种网址里面的pdf页面怎么爬取

  • 写回答

1条回答 默认 最新

  • threenewbee 2018-11-07 10:39
    关注

    它的html片段是

     <a style="color:#167bd5;font-size:13px;" href="./ppp/projManage/perview.do?fileName=可行性研究报告及批复-潮白河.pdf&amp;ftpFileName=2017/08/25/20170825045201787.pdf&amp;content=efmisweb&amp;xsg=:8083/" onclick="perviewPdf(this)" url="./ppp/projManage/perview.do?fileName=可行性研究报告及批复-潮白河.pdf&amp;ftpFileName=2017/08/25/20170825045201787.pdf" target="_blank" uniqueid="htmlelement1000">预览</a>
    

    对应的实际的pdf是

    http://www.cpppc.org:8083/efmisweb/ppp/projManage/perview.do?fileName=%E5%8F%AF%E8%A1%8C%E6%80%A7%E7%A0%94%E7%A9%B6%E6%8A%A5%E5%91%8A%E5%8F%8A%E6%89%B9%E5%A4%8D-%E6%BD%AE%E7%99%BD%E6%B2%B3.pdf&ftpFileName=2017/08/25/20170825045201787.pdf&content=efmisweb&xsg=:8083/
    

    你用正则表达式提取几个部分,拼接出来即可。其中中文的文件名,它用urlencode编码了下。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥15 深度学习根据CNN网络模型,搭建BP模型并训练MNIST数据集
  • ¥15 lammps拉伸应力应变曲线分析
  • ¥15 C++ 头文件/宏冲突问题解决
  • ¥15 用comsol模拟大气湍流通过底部加热(温度不同)的腔体
  • ¥50 安卓adb backup备份子用户应用数据失败
  • ¥20 有人能用聚类分析帮我分析一下文本内容嘛
  • ¥15 请问Lammps做复合材料拉伸模拟,应力应变曲线问题
  • ¥30 python代码,帮调试,帮帮忙吧
  • ¥15 #MATLAB仿真#车辆换道路径规划
  • ¥15 java 操作 elasticsearch 8.1 实现 索引的重建