用python获取里面的a标签的链接地址
 <!DOCTYPE html>








<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<title>建设单位项目办理</title>
<meta name="Keywords" content="">
<meta name="Description" content="">
<meta name="Copyright" content="">
<meta name="generator" content="">
<meta http-equiv="X-UA-Compatible" content="IE=7" />

<link rel="stylesheet" type="text/css" href="../css/style.css">

</head>
<body>



<table width="100%" class="box_main">
    <tr>
        <td>


<form action="index" method="post">
<input type="hidden" name="qu" value=""/>
<table width="100%" border="0" cellpadding="5" cellspacing="1">
<tr><td align="right">请输入查询号</td>
<td width="100"><input name="s" value="" /></td>
<td width="80"><input type="submit" value="搜索"/></td></tr>
</table>
</form>

<table width="100%" border="1" cellpadding="5" cellspacing="1">
<tr align="center" bgcolor="#EEEEEE">
<td>建设单位</td>
<td>项目名称</td>
<td>发文号</td>
<td>立案号</td>
<td nowrap="nowrap">详情</td>
</tr>   

<tr align="center">
    <td height="30">中铁十六局集团有限公司</td>
    <td>关于中铁十六局集团有限公司朝阳区青年路10号院项目2#住宅楼建设工程规划许可证延期的申请</td>
    <td>2017规(朝)延字0001号</td>
    <td>2017分延字0001</td>
    <td><a target="_blank" href="view?id=ff808081568e4d500159d3475c67144d" target="_self">详情 </a></td>
</tr>

<tr align="center">
    <td height="30">北京博达顺源天然气有限公司</td>
    <td>压缩天然气(CNG)加气母站</td>
    <td>2017规函复市政字0002号</td>
    <td>2017函市政字0001</td>
    <td><a target="_blank" href="view?id=ff8080815a3ab799015a638c2b4800e3" target="_self">详情 </a></td>
</tr>

<tr align="center">
    <td height="30">北京市平谷区教育委员会
北京市平谷区大华山镇大华山村经济合作社</td>
    <td>教学楼、风雨操场及食堂</td>
    <td>2017规(平)乡临建字0001号</td>
    <td>2017分乡建字0001</td>
    <td><a target="_blank" href="view?id=ff808081568e4d500159af4e738f1342" target="_self">详情 </a></td>
</tr>

<tr align="center">
    <td height="30">李甫全</td>
    <td>翻改建住房(灰瓦1)</td>
    <td>2017规(西)条居字0001号</td>
    <td>2017分条居字0001</td>
    <td><a target="_blank" href="view?id=ff808081568e4d50015a35434cab1617" target="_self">详情 </a></td>
</tr>

<tr align="center">
    <td height="30">北京市花木有限公司</td>
    <td>上水工程</td>
    <td>2017规建市政否字0025号</td>
    <td>2017市政建字0001</td>
    <td><a target="_blank" href="view?id=ff808081568e4d50015a2099b09915cf" target="_self">详情 </a></td>
</tr>

<tr align="center">
    <td height="30">北京地铁十六号线投资有限责任公司</td>
    <td>北京地铁十六号线工程 区间工程 月坛南街站、阜外大街~月坛南街区间</td>
    <td>2017规延市政字0004号</td>
    <td>2017延市政字0001</td>
    <td><a target="_blank" href="view?id=ff808081568e4d500159af4e74551346" target="_self">详情 </a></td>
</tr>

<tr align="center">
    <td height="30">北京恒城投资发展集团有限公司</td>
    <td>人才公租房项目</td>
    <td></td>
    <td>2017分复字0001</td>
    <td><a target="_blank" href="view?id=ff808081568e4d5001596728b3391175" target="_self">详情 </a></td>
</tr>

<tr align="center">
    <td height="30">北京房地集团有限公司</td>
    <td>和平街十四区简易住宅楼改造项目</td>
    <td>2017规(朝)选字0002号</td>
    <td>2017分选字0001</td>
    <td><a target="_blank" href="view?id=ff808081568e4d5001596728b24d1172" target="_self">详情 </a></td>
</tr>

<tr align="center">
    <td height="30">北京市环亚创业生物工程技术有限责任公司</td>
    <td>工业用房</td>
    <td></td>
    <td>2017分监字0001</td>
    <td><a target="_blank" href="view?id=ff808081568e4d5001596728b088116d" target="_self">详情 </a></td>
</tr>

<tr align="center">
    <td height="30">北京公共交通控股(集团)有限公司</td>
    <td></td>
    <td>2017规竣市政字0001号</td>
    <td>2017监市政字0001</td>
    <td><a target="_blank" href="view?id=ff808081568e4d500159b9c0f56e1385" target="_self">详情 </a></td>
</tr>


</table>







<table width="100%" align="center" bgcolor="#F5F5F5">
<tr align="center">
<td>




        <div class="pagelist">
            <div class="page"> 

                 <a href="index?pager.offset=0&s=&qu=" class="prev_p" title="第一页">第一页</a>





                         <span class="current">1</span>







                         <a class="num_page" href="index?pager.offset=10&s=&qu=">2</a>






                         <a class="num_page" href="index?pager.offset=20&s=&qu=">3</a>






                         <a class="num_page" href="index?pager.offset=30&s=&qu=">4</a>






                         <a class="num_page" href="index?pager.offset=40&s=&qu=">5</a>




                <a href="index?pager.offset=10&s=&qu=" class="next_p" title="下一页">下一页</a>


                <a href="index?pager.offset=96330&s=&qu=" class="next_p" title="下一页">最后一页</a>

                 共9634页 96334条
          </div>
        </div>




      <td>
      第
      </td><td><input style="border:solid 1px #666666;" type="text" size="3" name="offset" onclick="this.value='';" />
      </td><td>页
      </td><td>

      <input type="button" value="跳转" onclick="javascript:tiaozhuan();" />
    <script language="javascript">
        function tiaozhuan(){
            var offset = document.all.offset.value;
            if(offset==""){alert("请输入页码!");return false;}
            window.location="index?pager.offset="+10*(offset-1)+"&s=&qu=";
        }
    </script>



      </td>
      </tr>
      </table>


        </td>
    </tr>
</table> 

</body>
</html>

0

2个回答

这是爬取本页a标签url的方法,参考一下,要下载lxml。不下载的话,Beatifusoup()方法里不写,'lxml'也行。
import requests
from bs4 import BeautifulSoup
html = requests.get('http://ask.csdn.net/questions/669589')
soup = BeautifulSoup(html.text,'lxml')
a = soup.findAll(name='a')
for a_ in a:
print(a_.get('href'))
我看的这个帖子:http://bbs.csdn.net/topics/392161042?list=lz
还有楼上头像好嚣张。

0

看以下网页源码,然后有lxml或者beautiful soup可以帮你解决问题。

1
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
正则表达式获取a便签内的href链接举例(a标签内容是可变的)
pattern = re.compile(r'&amp;lt;a\b[^&amp;gt;]+\bhref=&quot;([^&quot;]*)&quot;[^&amp;gt;]*&amp;gt;' + str(link_text) + '.*?&amp;lt;/a&amp;gt;') result = pattern.search(html) # print(result.group(1)) result_url = result.group(1) #页面内的...
Python爬虫获取某个网页所有的a标签中的超链接网址
Python 爬虫获取某个网页所有的a标签中的超链接网址
js获取内容中的url链接,并设置a标签
var regexp = /(http:\/\/|https:\/\/)((\w|=|\?|\.|\/|\&amp;amp;|-)+)/g; content = content.replace(regexp, function($url){ return &quot;&amp;lt;a href='&quot; + $url + &quot;' target='_blank'&amp;gt;&quot; + $url + &quot;&amp;lt;/a&amp;gt;&quot;; }); ...
xpath 获取标签内的 text , href
/li/a/@herf 这样取的应该是href的内容/li/a/text() 这样取得是text内容
查找div标签下的a标签的内容
159条 共8页 1 2 3 4 5 ... 下一页 尾页 #my @type=$tree->findvalues( '/html/body'); my @type=$tree->findvalues( '/html/body//div[@id="xxoo"]/span'); print @type; node2:/root/pac
提取HTML中所有a标签的href链接
/** * 提取html中a标签的href * @param strs * @return */ public List&amp;lt;String&amp;gt; getAHref(String strs){ List&amp;lt;String&amp;gt; al=new ArrayList&amp;lt;String&amp;gt;(); String regex=&quot;&amp;lt;a.*?/...
JS学习---如何获取a标签的url
&amp;lt;!--如何获取a标签的url 本篇内容涉及到的知识点: 1 js的for循环 2 document获取标签 首先网页是这个样子的,我们要获取a标签的网址及文字描述 1发现网址在  body&amp;gt;ul&amp;gt;li&amp;gt;a中, 2 通过 document.getElementById(&quot;ad&quot;) 获取ul的标签里的内容 3 通过 a1.getElementsByTagName(&quot;li&quot;...
python获取页面所有a标签下href的值
参考下面的链接中的内容: https://blog.csdn.net/suibianshen2012/article/details/61915222 # -*- coding:utf-8 -*- #python 2.7 #http://tieba.baidu.com/p/2460150866 #标签操作 from bs4 import BeautifulSoup import urll...
JQUERY 取某个table下的td里面的a标签
$("#XMSJ tr td a").click(function () {             //var index = $(this).parent().parent().index();//获取行的索引             //alert(index);             var trList = $(this).parent().parent().find("
a标签里面title的使用
a标签的提示 开发工具与关键技术:dw 作者:Mr.Feng 撰写时间:2019.1.16 在a标签里面添加title=&quot; &quot;,在里面输入文字,鼠标移入有提示效果哦
Jsoup 获取A标签链接绝对地址
网页抓取的时候,一般都会获取a标签的attr href,但是有的标签使用的路径是相对地址,这样自己还要做转换,不过Jsoup本身提供了方法,只要提取href的时候加上abs(absolute)前缀,那么最终拿到的就是绝对地址。 代码如下 [code=&quot;java&quot;].attr(&quot;abs:href&quot;)[/code]...
python 示列:抓取网页所有<a>连接
如果我们编写一个搜索引擎,第一步是用爬虫把目标网站的页面抓回来,第二步是分析网页内容,看到底是新闻、图片或是视频。 接下来的示例展示分为2个步骤 1.获取目标网页的内容 2.屏幕输出网页中所有的标签的连接 示列:myparser.py   1 #!/usr/bin/env python   2 #-*- encoding:utf-8 -*-   3    4 imp
通用正则, 抓取a标签href属性
import re # url通用匹配 url_regex = re.compile('&amp;lt;a[^&amp;gt;]+href=[&quot;\'](.*?)[&quot;\']', re.IGNORECASE) # test url_str = &quot;&amp;lt;a type='akfdf' href='http://www.itmeng.top' xxxx&amp;gt;hahah&amp;lt;/a&amp;gt;&quot; result = url_r...
jq获取a标签地址
$(“.link”).click(function() { var this_url = $(this).attr("href"); //抓取当前url var shareid_url = this_url +'&shareid='+ '{{ shareid }}'; //把当前url后拼接 一个参数shareid $(this).attr("href"
巧用a标签解析url
平常我们需要在JS中解析某个网址,想要提取其中的某一个值,最常用到的是字符串分割的方法,要不就是使用正则表达式,但是两种方法都不是最简单的,今天给大家介绍一种更为简单的写法。 假设现在要解析的网址 url="http://write.blog.csdn.net/postedit?id=2#name";        首先,我们要创建一个a标签                  
js获取a标签里面的内容
&amp;lt;!DOCTYPE html&amp;gt; &amp;lt;html&amp;gt; &amp;lt;head&amp;gt; &amp;lt;title&amp;gt;111&amp;lt;/title&amp;gt; &amp;lt;style type=&quot;text/css&quot;&amp;gt; #tank{ display:none; position:absolute; top:200px; left:400px; width:
js获取li标签下的p标签或者a标签的值
例如:(点击编辑按钮,获取admin 的值)                  &amp;lt;li class=&quot;role_oli&quot;&amp;gt;                     &amp;lt;p class=&quot;user_enable&quot;&amp;gt;admin&amp;lt;/p&amp;gt;                     &amp;lt;p class=&quot;user_organize&quot;&amp;gt;生产经营部&a
Python scrapy 中的css选择器提取 a 标签的 href值
response.css(&quot;.copyright-area a::attr(href)&quot;).extract()[0]  
js动态截取链接地址后面的id
var url = window.location.href;//本页链接 var id = url .substr(url .indexOf("#"));//本页链接的id
jq修改a标签链接
jq修改a标签链接 // jsp代码 &amp;amp;amp;lt;a id=&amp;amp;quot;aaa&amp;amp;quot; href=&amp;amp;quot;#&amp;amp;quot;&amp;amp;amp;gt;这是一个超链接&amp;amp;amp;lt;/a&amp;amp;amp;gt; // jq代码 $(function(){ $(&amp;amp;quot;#aaa&amp;amp;quot;).attrr(&amp;amp;quot;href&amp;amp
1.关于字符串练习( 将字符串中所有得href对应得超链接地址提取出来)
将字符串中所有得href对应得超链接地址提取出来 string = '&amp;lt;a href=&quot;http://www.baidu1.com&quot;&amp;gt;百度以下&amp;lt;/a&amp;gt;&amp;lt;a href=&quot;http://www.baidu2.com&quot;&amp;gt;百度以下&amp;lt;/a&amp;gt;&amp;lt;a href=&quot;http://www.baidu3.com&quot;&amp;gt;百度以下&a
匹配html中a标签的内容
利用正则表达式来匹配html中a标签中的内容:      获取html内容:      $contents = file_get_contents('a.html');     利用正则匹配:      preg_match_all('/(.*)/',$contents,$matches);      输出:      print_r($matches[1]);
js如何取A标签中的是值
js如何取A标签中的是值,如:AAAA,<a href=#>BBBB我要取得的值是AAAA和BBBB,不是属性值。 先看下,这个dom结构,我这个用jQuery做,不是纯粹的js。 可以看到,这就是博客文章的列表页面,每个文章都是一个a标签,我现在除了获得a标签的href(文章的地址链接)属性外,还想获得,每个a标签的内容。也就是文章的标题啦。 var all = $("#c
用php正则获得a标签内的文字
$str = 'dfd'; preg_match_all("/>(.*?)</is",$str,$arr); var_dump(implode('', $arr[1]));
获取a标签中的href属性的值及修改href的属性值
//获取a标签中href的属性值 var href=$("a").attr("href"); //修改a标签中href的属性值 $("a").attr("href","www.baidu.com");
PHP正则表达式提取html超链接中的href地址
参考地址:http://www.verydemo.com/demo_c116_i81714.html 有时我们需要过滤或提取html字符串的外链接了,下面我介绍一个利用PHP正则表达式提取html超链接中的href地址程序,各位机参考。 用php的正则表达式相关函数,实现提取html超链接&amp;lt;a href=&quot;地址&quot;&amp;gt;&amp;lt;/a&amp;gt;中的地址。  代码如下 复制代码 ...
获取input text 的值作为a标签的参数值
前台 搜索     function getkey(a) {         var pms = 'Key=' + document.getElementById("textkey").value;   a.href = 'tsSearch.aspx?' + pms;   } 接受页面后台 string key = Re
正则表达式匹配 a href链接,和input里面的value值
1、匹配a链接  $aaaa='s'; $preg1 = '/.*/'; //正则href链接  preg_match_all($preg1,$aaaa,$arr); 2、匹配input里的value值 $bbb = ''; $pre = '';//正则匹配value值 preg_match_all($pre,$bbb ,$arr);
jq获取当前点击的ul里li的a标签的值
ul的id为assort var assort=$(&amp;quot;#assort li&amp;quot;); assort.click(function () { var classfiyText = $(this).find(&amp;quot;a&amp;quot;).eq(0).text(); console.log(classfiyText); }); 如果想要获取第一个li里a的值,也很简单: var assort...
jq获取当前点击的ul里li的a标签的属性值
&amp;lt;ul class=&quot;sq_slide&quot; &amp;gt; &amp;lt;li &amp;gt; &amp;lt;a class=&quot;&quot; href=&quot;javascript:;&quot;&amp;gt;系统管理&amp;lt;/a&amp;gt; &amp;lt;dl &amp;gt; &amp;lt;dd&amp;gt;&amp;lt;a data-src=&quot;admin&quot;&amp;g
js获取a标签的值
我之前做过那种获取radio值的,获取a标签值还是第一次,当时比较懵,本身前台也是我的软肋,写完以后,感觉一个道理,下面来跟大家共享一下。 a标签部分:<div class="aaa_xuanze"> <a id="button1" onclick="k(1)" class="button_1 xz" >测试1</a> <a id="button2" onclick="k(2)" cla
C#使用正则表达式获取HTML代码中a标签里包含指定后缀的href的值
//C#使用正则表达式获取HTML代码中a标签里包含指定后缀的href的值,表达式如下:Regex regImg = new Regex(@"(?is)<a[^>]*?href=(['""\s]?)(?<href>([^'""\s]*\.doc)|([^'""\s]*\.docx)|([^'""\s]*\.xls)|([^'""\s]*\.xlsx)|([^'""\s]*\.ppt)|([^'""\
a标签获取属性值的问题
数据管理 a[i].onclick = function(e){   e.preventDefault();   console.log(this.id);//显示data   console.log(this.data);//显示undefined   console.log(this.getAttibute('data')); //显示main_data.html
//div/a/@target 获取所有div下a标签的 target的值
# !/usr/bin/env python # -*- coding: utf-8 -*- import urllib2 import urllib import cookielib import json import httplib import re import requests from lxml import etree import StringIO import time s...
截取a标签,获取a标签href 中的链接,获取,href 中的文本值,替换
截取a标签,获取a标签href 中的链接,获取,href 中的文本值,替换 新任务信息:&lt;br/&gt;型号任务:【&lt;a href='/sysware/task/wbs/wbsTaskMain.sitemesh?navigationHandlerBeanName=singleProjectMenuHandler&amp;...
jQuery遍历li下的a标签,添加参数
$('.storeUrl a').each(function(){ var Ahref = $(this).attr('href'); Ahref = Ahref + &quot;?longitude=&quot;+longitude + &quot;&amp;amp;latitude=&quot; + latitude;    $(this).attr(&quot;href&quot;,Ahref); }); li标签添加class=&quot;...
从某标签A内的B标签,即从A标签中选择B标签($("#B")是获取整个页面中的B标签),即获取A标签的子标签B,怎么获取?
从某标签A内的B标签,即从A标签中选择B标签($("#B")是获取整个页面中的B标签),即获取A标签的子标签B? 从id为“test”的标签的父标签的父标签中,找到其class为: 1)错误的,方式。 $($("#test").parent().parent().parent(),"ul[class$='am-lis
jsp中a标签?传参,参数怎么获取页面当中文本框的值
[quote][b] 更改数量 [/b] 哎,我也是郁闷了好久才知道还可以这么写,其实还是用了js来实现地址的 [size=small][color=indigo]有两点要说的:[/color][/size] [i][u]1。js里面可以直接些写java代码,不过要用; 2。a标签的href的属性修改,最...
jQuery 接管iframe内a 标签请求
jQuery 处理iframe内 接管a 标签请求 用处: 在Electron 做桌面程序时,有时会用到web页面,当页面中存在 a标签时,如果点击会使用原先的窗口弹出程序,但我们会想着修改成 Web Browser和指定窗口打开,这是就需要拦截页面内的a标签事件,常用的a标签target值如下 依赖项:jquery.js /** * 接管所有弹出窗口请求 ...
jq 取得A标签中的文字,要排除某些不需要的文字
&amp;lt; a href=&quot;javascript:;&quot; class=&quot;columna&quot;&amp;gt;&amp;lt;i class=&quot;fa fa-address-book&quot; aria-hidden=&quot;true&quot;&amp;gt;&amp;lt;/i&amp;gt; &amp;lt;span class=&quot;sr-only&quot;&amp;gt;Example of &amp;lt;/span&amp;gt;ad