g1oodboy 2017-11-15 03:55 采纳率: 87.5%
浏览 6045
已采纳

用python获取里面的a标签的链接地址

 <!DOCTYPE html>








<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<title>建设单位项目办理</title>
<meta name="Keywords" content="">
<meta name="Description" content="">
<meta name="Copyright" content="">
<meta name="generator" content="">
<meta http-equiv="X-UA-Compatible" content="IE=7" />

<link rel="stylesheet" type="text/css" href="../css/style.css">

</head>
<body>



<table width="100%" class="box_main">
    <tr>
        <td>


<form action="index" method="post">
<input type="hidden" name="qu" value=""/>
<table width="100%" border="0" cellpadding="5" cellspacing="1">
<tr><td align="right">请输入查询号</td>
<td width="100"><input name="s" value="" /></td>
<td width="80"><input type="submit" value="搜索"/></td></tr>
</table>
</form>

<table width="100%" border="1" cellpadding="5" cellspacing="1">
<tr align="center" bgcolor="#EEEEEE">
<td>建设单位</td>
<td>项目名称</td>
<td>发文号</td>
<td>立案号</td>
<td nowrap="nowrap">详情</td>
</tr>   

<tr align="center">
    <td height="30">中铁十六局集团有限公司</td>
    <td>关于中铁十六局集团有限公司朝阳区青年路10号院项目2#住宅楼建设工程规划许可证延期的申请</td>
    <td>2017规(朝)延字0001号</td>
    <td>2017分延字0001</td>
    <td><a target="_blank" href="view?id=ff808081568e4d500159d3475c67144d" target="_self">详情 </a></td>
</tr>

<tr align="center">
    <td height="30">北京博达顺源天然气有限公司</td>
    <td>压缩天然气(CNG)加气母站</td>
    <td>2017规函复市政字0002号</td>
    <td>2017函市政字0001</td>
    <td><a target="_blank" href="view?id=ff8080815a3ab799015a638c2b4800e3" target="_self">详情 </a></td>
</tr>

<tr align="center">
    <td height="30">北京市平谷区教育委员会
北京市平谷区大华山镇大华山村经济合作社</td>
    <td>教学楼、风雨操场及食堂</td>
    <td>2017规(平)乡临建字0001号</td>
    <td>2017分乡建字0001</td>
    <td><a target="_blank" href="view?id=ff808081568e4d500159af4e738f1342" target="_self">详情 </a></td>
</tr>

<tr align="center">
    <td height="30">李甫全</td>
    <td>翻改建住房(灰瓦1)</td>
    <td>2017规(西)条居字0001号</td>
    <td>2017分条居字0001</td>
    <td><a target="_blank" href="view?id=ff808081568e4d50015a35434cab1617" target="_self">详情 </a></td>
</tr>

<tr align="center">
    <td height="30">北京市花木有限公司</td>
    <td>上水工程</td>
    <td>2017规建市政否字0025号</td>
    <td>2017市政建字0001</td>
    <td><a target="_blank" href="view?id=ff808081568e4d50015a2099b09915cf" target="_self">详情 </a></td>
</tr>

<tr align="center">
    <td height="30">北京地铁十六号线投资有限责任公司</td>
    <td>北京地铁十六号线工程 区间工程 月坛南街站、阜外大街~月坛南街区间</td>
    <td>2017规延市政字0004号</td>
    <td>2017延市政字0001</td>
    <td><a target="_blank" href="view?id=ff808081568e4d500159af4e74551346" target="_self">详情 </a></td>
</tr>

<tr align="center">
    <td height="30">北京恒城投资发展集团有限公司</td>
    <td>人才公租房项目</td>
    <td></td>
    <td>2017分复字0001</td>
    <td><a target="_blank" href="view?id=ff808081568e4d5001596728b3391175" target="_self">详情 </a></td>
</tr>

<tr align="center">
    <td height="30">北京房地集团有限公司</td>
    <td>和平街十四区简易住宅楼改造项目</td>
    <td>2017规(朝)选字0002号</td>
    <td>2017分选字0001</td>
    <td><a target="_blank" href="view?id=ff808081568e4d5001596728b24d1172" target="_self">详情 </a></td>
</tr>

<tr align="center">
    <td height="30">北京市环亚创业生物工程技术有限责任公司</td>
    <td>工业用房</td>
    <td></td>
    <td>2017分监字0001</td>
    <td><a target="_blank" href="view?id=ff808081568e4d5001596728b088116d" target="_self">详情 </a></td>
</tr>

<tr align="center">
    <td height="30">北京公共交通控股(集团)有限公司</td>
    <td></td>
    <td>2017规竣市政字0001号</td>
    <td>2017监市政字0001</td>
    <td><a target="_blank" href="view?id=ff808081568e4d500159b9c0f56e1385" target="_self">详情 </a></td>
</tr>


</table>







<table width="100%" align="center" bgcolor="#F5F5F5">
<tr align="center">
<td>




        <div class="pagelist">
            <div class="page"> 

                 <a href="index?pager.offset=0&s=&qu=" class="prev_p" title="第一页">第一页</a>





                         <span class="current">1</span>







                         <a class="num_page" href="index?pager.offset=10&s=&qu=">2</a>






                         <a class="num_page" href="index?pager.offset=20&s=&qu=">3</a>






                         <a class="num_page" href="index?pager.offset=30&s=&qu=">4</a>






                         <a class="num_page" href="index?pager.offset=40&s=&qu=">5</a>




                <a href="index?pager.offset=10&s=&qu=" class="next_p" title="下一页">下一页</a>


                <a href="index?pager.offset=96330&s=&qu=" class="next_p" title="下一页">最后一页</a>

                 共9634页 96334条
          </div>
        </div>




      <td>
      第
      </td><td><input style="border:solid 1px #666666;" type="text" size="3" name="offset" onclick="this.value='';" />
      </td><td>页
      </td><td>

      <input type="button" value="跳转" onclick="javascript:tiaozhuan();" />
    <script language="javascript">
        function tiaozhuan(){
            var offset = document.all.offset.value;
            if(offset==""){alert("请输入页码!");return false;}
            window.location="index?pager.offset="+10*(offset-1)+"&s=&qu=";
        }
    </script>



      </td>
      </tr>
      </table>


        </td>
    </tr>
</table> 

</body>
</html>

  • 写回答

2条回答

  • shonmark 2017-11-16 14:03
    关注

    这是爬取本页a标签url的方法,参考一下,要下载lxml。不下载的话,Beatifusoup()方法里不写,'lxml'也行。
    import requests
    from bs4 import BeautifulSoup
    html = requests.get('http://ask.csdn.net/questions/669589')
    soup = BeautifulSoup(html.text,'lxml')
    a = soup.findAll(name='a')
    for a_ in a:
    print(a_.get('href'))
    我看的这个帖子:http://bbs.csdn.net/topics/392161042?list=lz
    还有楼上头像好嚣张。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 perl MISA分析p3_in脚本出错
  • ¥15 k8s部署jupyterlab,jupyterlab保存不了文件
  • ¥15 ubuntu虚拟机打包apk错误
  • ¥199 rust编程架构设计的方案 有偿
  • ¥15 回答4f系统的像差计算
  • ¥15 java如何提取出pdf里的文字?
  • ¥100 求三轴之间相互配合画圆以及直线的算法
  • ¥100 c语言,请帮蒟蒻写一个题的范例作参考
  • ¥15 名为“Product”的列已属于此 DataTable
  • ¥15 安卓adb backup备份应用数据失败