2 oq1qheng1 oq1qHeng1 于 2016.02.12 09:21 提问

求助一个beautifulsoup的问题

在写一个爬知乎的爬虫。
在爬取一个话题的父话题和子话题。
这段代码list = soup.find_all(class_="zm-item-tag")将父话题和子话题全部放到了一个list中,不能区分。
如果设置两个list分别包含子话题和父话题?单独解析父话题和子话题的代码如何写?
如图所示 父话题是 生活情趣
子话题是 养生平台 养胃图片说明

3个回答

caozhy
caozhy   Ds   Rxr 2016.02.12 09:27
已采纳

先分别zm-topic-manage-item,判断h3,然后再在内部找zm-item-tag

oq1qHeng1
oq1qHeng1 ,这段 代码应该怎么写?
2 年多之前 回复
oq1qHeng1
oq1qHeng1 father_list = soup("h3",class_="zm-topic-manage-item-title")[0].findall(class_="zm-item-tag")这样子也找不到
2 年多之前 回复
devmiao
devmiao   Ds   Rxr 2016.02.12 09:57
devmiao
devmiao   Ds   Rxr 2016.02.12 09:58
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
【模拟试题】轰炸(BSOI1034)
【模拟试题】轰炸 Description “我该怎么办?”飞行员klux向你求助。 事实上,klux面对的是一个很简单的问题,但是他实在太菜了。 klux要想轰炸某个区域内的一些地方,它们是位于平面上的一些点,但是(显然地)klux遇到了抵抗,所以klux只能飞一次,而且由于飞机比较破,一点起飞就只能沿直线飞行,无法转弯。现在他想一次轰炸最多的地方。
swustoj轰炸(0129)
“我该怎么办?”飞行员klux向你求助。 事实上,klux面对的是一个很简单的问题,但是他实在太菜了。 klux要想轰炸某个区域内的一些地方,它们是位于平面上的一些点,但是(显然地)klux遇到了抵抗,所以klux只能飞一次,而且由于飞机比较破,一点起飞就只能沿直线飞行,无法转弯。现在他想一次轰炸最多的地方。 不限定起飞地点 Description 输入数据由n对整数组成(1
一.BeautifulSoup 多进程抓取智联招聘信息,并且存储到mongodb
# coding:utf-8 import re import requests import urllib2 import datetime from bs4 import BeautifulSoup from pymongo import MongoClient from multiprocessing import Pool #开启数据库 cn=MongoClient('localhost
CentOS下安装Python3后BeautifulSoup 版本不兼容问题解决方法
#作者 陈夫子 时间:20170810 问题描述: CentOS下安装Python3后 进入beautifulsoup的目录,然后在命令行输入python setup.py install 安装成功后。 进入Python3 编辑窗口 输入 from bs4 import BeautifulSoup 提示  BeautifulSoup 对应Python2 版本 与Python3版
我的源码
JSP的分页问题.求助!
Python结合BeautifulSoup抓取知乎数据
本文主要介绍利用Python登录知乎账号,抓取其中的用户名、用户头像、知乎的问题、问题来源、被赞数目、以及回答者。其中数据是配合Beautiful Soup进行解析的。 首先,要解决的是知乎登录问题。在程序中登录知乎我们直接提供用户名和密码是无法进行登录的,这里我们采用一个比较笨拙的办法直接在发送请求过程中附带上cookies。这个cookies值我们可以通过在火狐浏览器登录知乎时用firebug直
Python爬虫:如何创建BeautifulSoup对象
from urllib.request import urlopen from bs4 import BeautifulSouphtml = '<div>text1</div>' html = urlopen("http://www.pythonscraping.com/pages/page3.html") html = open('c:\\aa.html')#以上三行表示了HTML的三种来源,一是
BeautifulSoup插入标签tag的方式
通过BeautifulSoup插入标签tag soup.title.insert_after('<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /\>');但插入的结果有问题 &lt;link href="/styles/wiki/wk-vector.css" rel="
linux 遇到问题与解决方法
参考(谢谢):http://www.jb51.net/article/108498.htm 重启系统,按下e键; 再次按下e键,现在kernel内核 再次按下e键,输入:single 输入完成以后,按下空格键,在按b键, passwd reboot重新启动系统 linux中执行wget命令,提示没有这个命令 yum -y install wget linux中给sh文件添加执行...
五.BeautifulSoup大众点评爬取店铺信息,存储到mongodb
#coding:utf-8 from pymongo import MongoClient import requests,re from multiprocessing import Pool from bs4 import BeautifulSoup import pymongo from matplotlib import pyplot as plt #开启数据库 cn=MongoClien