Python爬虫soup.findAll("li", {"class": "result"})为空

 大家好~
我之前写的爬虫是单独针对某个页面的，比如新浪微博。这次需要在全网范围查询关于“开灯”有关的句子或文章，但是soup.findall("li",{"class":"result"})的结果一直是空。求助，谢谢。
PS：网上参考其他的例子，也都是在这个地方出问题，空的。。。
代码如下：
#-*-coding:utf-8-*-
__author__ = 'Daniel'
#python3.5
#'爬取关于开灯的新闻'

import re
import urllib
import chardet
from bs4 import BeautifulSoup

def remove_js_css(content):
    r = re.compile(r'''<scrip.*?</scrip>''', re.I|re.M|re.S)
    s = r.sub('', content)
    r = re.compile(r'''<style.*?</style>''', re.I|re.M|re.S)
    s = r.sub('', s)
    r = re.compile(r'''<!--.*?-->''', re.I|re.M|re.S)
    s = r.sub('', s)
    r = re.compile(r'''<meta.*?>''', re.I|re.M|re.S)
    s = r.sub('', s)
    r = re.compile(r'''<ins.*?</ins>''', re.I|re.M|re.S)
    s = r.sub('', s)
    return s

def remove_empty_line(content):
    r = re.compile(r'''^\s+$''', re.M|re.S)
    s = r.sub('', content)
    r = re.compile(r'''\n+''', re.M|re.S)
    s = r.sub('\n', s)
    return s

def remove_any_tag(s):
    s = re.sub(r'''<[^>]+>''', '', s)
    return s.strip()

def remove_any_tag_but_a(s):
    text = re.findall(r'''<a[^r][^>]*>(.*?)</a>''', s, re.I|re.S|re.S)
    text_b = remove_any_tag(s)
    return len(''.join(text)), len(text_b)

def remove_image(s, n=50):
    image = 'a' * n
    r = re.compile(r'''<img.*?>''', re.I|re.M|re.S)
    s = r.sub(image, s)
    return s

def remove_video(s, n=1000):
    video = 'a' * n
    r = re.compile(r'''<embed.*?>''', re.I|re.M|re.S)
    s = r.sub(video, s)
    return s

def sum_max(values):
    cur_max = values[0]
    glo_max = -99999
    left, right = 0, 0
    for index, value in enumerate(values):
        cur_max += value
        if(cur_max > glo_max):
            glo_max = cur_max
            right = index
        elif(cur_max < 0):
            cur_max = 0

    for i in range(right, -1, -1):
        glo_max -= values[i]
        if abs(glo_max < 0.0001):
            left = i
            break
    return left, right + 1

def method_1(content, k = 1):
    if not content:
        return None, None, None, None
    tmp = content.split('\n')
    group_value = []
    for i in range(0, len(tmp), k):
        group = '\n'.join(tmp[i:i+k])
        group = remove_image(group)
        group = remove_video(group)
        text_a, text_b = remove_any_tag_but_a(group)
        temp = (text_b - text_a) - 8
        group_value.append(tmp)
    left, right = sum_max(group_value)
    return left, right, len('\n'.join(tmp[:left])), len('\n'.join(tmp[:right]))

def extract(content):
    content = remove_empty_line(remove_js_css(content))
    left, right, x, y = method_1(content)
    return '\n'.join(content.split('\n')[left:right])

#输入url，将其新闻页的正文输入txt
def extract_news_content(web_url, file_name):
    request = urllib.Request(web_url)

    #在请求加上头信息，伪装成浏览器访问
    request.add_header('User-Agent','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6')
    opener = urllib.build_opener()
    html = opener.open(request).read()
    infoencode = chardet.detect(html)['encoding']##通过第3方模块来自动提取网页的编码
    if html != None and infoencode != None:#提取内容不为空，error.或者用else
        html = html.decode(infoencode, 'ignore')
        soup = BeautifulSoup(html)
        content = soup.renderContents()
        content_text = extract(content)#提取新闻网页中的正文部分，化为无换行的一段文字
        content_text = re.sub("&nbsp;"," ",content_text)
        content_text = re.sub("&gt;","",content_text)
        content_text = re.sub("&quot;",'""',content_text)
        content_text = re.sub("<[^>]+>","",content_text)
        content_text = re.sub("\n","",content_text)
        file = open(file_name,'a')#append
        file.write(content_text)
        file.close()

#抓取百度新闻搜索结果:中文搜索，前10页，url：key=关键词
def search(key_word):
    search_url = 'http://news.baidu.com/ns?word=key_word&tn=news&from=news&cl=2&rn=20&ct=1'
    req = urllib.request.urlopen(search_url.replace('key_word', key_word))
    real_visited = 0
    for count in range(10):#前10页
        html = req.read()
        soup = BeautifulSoup(html)
        content = soup.findAll("li", {"class": "result"}) #resultset object
        num = len(content)
        for i in range(num):
            #先解析出来所有新闻的标题、来源、时间、url
            p_str = content[i].find('a') #if no result then nontype object
            contenttitle = p_str.renderContents()
            contenttitle = contenttitle.decode('utf-8', 'ignore')#need it
            contenttitle = re.sub("<[^>]+>", "", contenttitle)
            contentlink = str(p_str.get("href"))
            #存放顺利抓取的url，对比
            visited_url = open(r'visited-cn.txt', 'r')#是否已经爬过
            visited_url_list = visited_url.readlines()
            visited_url.close()#及时close
            exist = 0
            for item in visited_url_list:
                if contentlink == item:
                    exist = 1
            if exist != 1:#如果未被访问url
                p_str2 = content[i].find('p').renderContents()
                contentauthor = p_str2[:p_str2.find("&nbsp;&nbsp")]#来源
                contentauthor = contentauthor.decode('utf-8', 'ignore')#时
                contenttime = p_str2[p_str2.find("&nbsp;&nbsp") + len("&nbsp;&nbsp") + 1:]
                contenttime = contenttime.decode('utf-8', 'ignore')
                #第i篇新闻，filename="D:\\Python27\\newscn\\%d.txt"%(i)
                #file = open(filename,'w'),一个txt一篇新闻
                real_visited += 1
                file_name = r"newscn\%d.txt"%(real_visited)
                file = open(file_name,'w')
                file.write(contenttitle.encode('utf-8'))
                file.write(u'\n')
                file.write(contentauthor.encode('utf-8'))
                file.write(u'\n')
                file.write(contenttime.encode('utf-8'))
                file.write(u'\n'+contentlink+u'\n')
                file.close()
                extract_news_content(contentlink, file_name)#还写入文件
                visited_url_list.append(contentlink)#访问之
                visited_url = open(r'visited-cn.txt', 'a')#标记为已访问，永久存防止程序停止后丢失
                visited_url.write(contentlink+u'\n')
                visited_url.close()
            if len(visited_url_list) >= 120:
                break
            #解析下一页
        if count == 0:
            next_num = 0
        else:
            next_num = 1
        next_page = 'http://news.baidu.com' + soup('a',{'href':True,'class':'n'})[next_num]['href'] # search for the next page#翻页
        print(next_page)
        req = urllib.urlopen(next_page)

if __name__=='__main__':
    #key_word = input('input key word:')
    key_word = 'helloworld'
    search(key_word)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Go 旅城通票 2017-05-04 12:02
关注
新浪微博是ajax动态加载的数据，源代码里面是没有显示出来的内容，爬虫得到的内容就和查看源代码后的内容一样，所以ajax，js生成的内容爬虫是捉取不到内容，不利于seo

你的找到新浪的ajax数据接口，直接请求接口获取数据而不是显示的url地址

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

soup.find_all返回了空列表 list python
2022-04-11 19:59

回答 1 已采纳先打印soup看看是不是空,不行在用下面这句soup.find_all('div',attrs={"class":"item"})我看着你那样写没错的，我觉得可能soup就是空的
python爬虫：soup.select（）抓取信息路径表达问题 python
2019-07-02 18:16

回答 1 已采纳没用过select，但看样子是这样用的 ``` from bs4 import BeautifulSoup import requests url = 'http://bj.xiaozhu
请求中加上headers后soup.find_all返回空列表 python 爬虫
2023-03-06 02:40

回答 2 已采纳说明您设置的这个j_thread_list clearfix thread_item_box值不正确，当获取不正常的时候有这个值，获取正常的时候没有这个个值，建议重新定位下元素。以及在获取到的页面内容
Python中bs4的soup.find()和soup.find_all()用法
2024-01-28 14:44

码了个顶大的博客我们在使用python对网页爬虫的时候，经常会得到一些html数据，因此我们就会利用soup.find()和soup.find_all()方法来筛选出想要的数据。
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
python报错：requests.exceptions.ConnectionError: ('Connection aborted.', OSError("(10060, 'WSAETIMEDOUT')")) python 开发语言
2020-03-02 19:59

回答 2 已采纳 10060 WSAETIMEDOUT 是请求超时了，请确认 res = requests.get(url) 这一句请求的地址是否拼接正确，如果是正确的，那就设置超时时间大一点吧。
python爬虫中如果有两个相同的class标签，而爬取目标为第二个，如何解决 python 爬虫
2022-08-09 16:58

回答 3 已采纳 soup.find_all('div',class_='box_con')[1]这样呢
Python之爬虫之BeautifulSoup学习
2022-10-01 16:43

shy014的博客 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。由于 BeautifulSoup 是基于 Python，所以相对来说速度会比另一个 Xpath 会慢点，但是其功能也是非常的强大学习资料中文官网：...
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
用Python爬取智慧树问题时，没办法入到soup.find_all（）的for循环中 python
2021-08-27 15:54

回答 1 已采纳因为你数据没有抓取到, 所以打印没输出
python爬虫，当正则表达式无法匹配，怎么输出空字符 python 有问必答正则表达式爬虫
2021-09-01 16:19

回答 3 已采纳使用try except环绕即可
Python网络爬虫学习笔记（四）解析库的使用
2020-12-19 16:52

小零呦的博客解析库的使用使用正则表达式，比较烦琐，而且万一有地方写错了，可能导致匹配失败。...在 Python 中，有 lxml 、Beautiful Soup 、 pyquery 等解析库实现这个操作。使用 XPath XPath ，全称 XML Path La
Python爬虫，爬虫访问网站时遇到415. UnsupportedMediaType错误，运行结果为空 python 爬虫
2022-08-22 11:35

回答 3 已采纳
Python爬虫库-Beautiful Soup的使用
2019-10-01 02:54

any10183的博客 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库，简单来说，它能将HTML的标签文件解析成树形结构，然后方便地获取到指定...通过Beautiful Soup库，我们可以将指定的class或id值作为参数，来直接获...
python爬虫教程（五）：解析库bs4及爬取实例
2022-05-04 13:00

python慕遥的博客大家好，今天分享的是解析库中的bs4，这个库如果是初学者的话肯定听过，本文章的目的是让你知道如何使用bs4。一、安装及初始印象 1.安装 bs4是一个第三方库，需要安装。如果使用的是默认的IDE，可以在...soup =
没有解决我的问题, 去提问

悬赏问题

¥15 画两个图 python或R
¥15 在线请求openmv与pixhawk 实现实时目标跟踪的具体通讯方法
¥15 八路抢答器设计出现故障
¥15 opencv 无法读取视频
¥15 用matlab 实现通信仿真
¥15 按键修改电子时钟，C51单片机
¥60 Java中实现如何实现张量类，并用于图像处理(不运用其他科学计算库和图像处理库）)
¥20 5037端口被adb自己占了
¥15 python：excel数据写入多个对应word文档
¥60 全一数分解素因子和素数循环节位数

Python爬虫soup.findAll("li", {"class": "result"})为空

2条回答 默认 最新

悬赏问题

2条回答默认最新