python爬虫 BeautifulSoup

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import random
import datetime

random.seed(datetime.datetime.now())
def getLinks(articleUrl):

html=urlopen("http://en.wikipedia.org" + articleUrl).read()
bsobj=BeautifulSoup(html,"html.parser")

return bsobj.find("div",{id:"bodyContent"}). find("a",{"href", re.compile("^(/wiki/)((?!:).)*$")})

links=getLinks("/wiki/kevin_Bacon")
while len(links)>0:
newArticle=links[random.randint(0,len(links)-1)].attrs["href"]
print(newArticle)
links=getLinks(newArticle)
图片说明

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
eye_water 2017-09-07 03:55
关注
定位的节点没有find属性，你的节点可能定位错了。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫 BeautifulSoup解析网页爬取内容为None python 有问必答
2021-08-31 14:07

回答 2 已采纳你抓的频率太快，IP被墙了
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python后端和爬虫_【后端开发】python爬虫难学吗
2021-02-10 03:20

weixin_39553753的博客如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，沿着网络抓取自己的猎物(数据)爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序；从技术层面来说就是...
Python用beautifulsoup爬取网页数据 python
2022-04-29 00:54

回答 1 已采纳是不是最后一页的数据？导出覆盖了吧
python爬虫没有结果返回 python 爬虫
2023-03-10 15:16

回答 4 已采纳 import requests from lxml import etree import pandas as pd url = 'https://www.jjwxc.net/topten.php
python爬虫位置问题 python 爬虫
2023-03-08 13:31

回答 2 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ如果您想要提取 div class="detail-context"标签下所有的 tr 标签，并进一步提取每个 tr 中的 td 标签内的内容，可以使用以下代码： impo
Python网络爬虫爬取数学建模论文
2023-01-18 07:01

爬虫可以用很多语言比如 Python、C++等等,但是Python可以说是最简单的, 因为Python有现成可用的库。本资源旨在基于Python语言使用网络爬虫爬取2019年高教社杯全国大学生数学建模竞赛优秀答题稿。代码中使用到的第...
python爬虫下载PDF失败 python 爬虫
2023-03-27 13:35

回答 3 已采纳感谢两位。我刚刚分析了一下所有下载异常的文件，名字中都有冒号：，replace替换后现在可以下载了。
python爬虫只能获得一条数据 python 爬虫
2022-08-23 18:15

回答 1 已采纳复制我的代码试试： import requests from bs4 import BeautifulSoup def get_page(link): headers = {'User-Ag
python爬虫检索超出范围报错 python 爬虫
2022-09-08 16:31

回答 3 已采纳你输出con，输出的con是空列表，说明你节点的定位是有问题的，直接去开发者面板复制定位路径
python后端和爬虫_【后端开发】python的爬虫是什么意思
2021-02-10 03:20

瑞士鲁迅的博客 Python爬虫即使用Python程序开发的网络爬虫(网页蜘蛛，网络机器人)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是...
python爬虫代码出现错误 python 爬虫
2022-08-23 16:00

回答 1 已采纳导入了太多没有用的模块，参考我的代码： import requests #发送HTTP请求 from bs4 import BeautifulSoup headers ={ "User-Age
python爬虫如何解析jsp文件_Python爬虫，使用BeautifulSoup解析页面结果
2020-12-04 14:13

weixin_39996134的博客 Python爬虫，使用BeautifulSoup可以轻松解析页面结果，下面是使用该方法爬取boss页面的职位信息：包括职位名称、薪资、地点、公司名称、公司融资情况等信息。通过这个示例可以轻松看到BeautifulSoup的使用方法。...
Python模块之BeautifulSoup
2022-01-05 09:07

python-小卒的博客目录一、安装导入二、操作步骤第1步解析html源码第2步定位节点第3步定位标签第4步提取内容，并保存一、安装导入 #安装模块 ...from bs4 import BeautifulSoup ...BeautifulSoup技术&l
没有解决我的问题, 去提问

悬赏问题

¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 LiBeAs的带隙等于0.997eV,计算阴离子的N和P
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 来真人，不要ai！matlab有关常微分方程的问题求解决，
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算