python爬新浪新闻内容，为什么运行完stock里面为空……

#! /usr/bin/env python
#coding=utf-8

from scrapy.selector import Selector
from scrapy.http import Request
import re,os
from bs4 import BeautifulSoup
from scrapy.spider import Spider
import urllib2,thread

#处理编码问题
import sys
reload(sys)
sys.setdefaultencoding('gb18030')

#flag的作用是保证第一次爬取的时候不进行单个新闻页面内容的爬取
flag=1
projectpath='C:\Users\DELL\Desktop\pythonproject\mypro\'

def loop(*response):
sel = Selector(response[0])
#get title

title = sel.xpath('//h1/text()').extract()
#get pages
pages=sel.xpath('//div[@id="artibody"]//p/text()').extract()
#get chanel_id & comment_id
s=sel.xpath('//meta[@name="comment"]').extract()

    #comment_id = channel[index+3:index+15]
    index2=len(response[0].url)
    news_id=response[0].url[index2-14:index2-6]
    comment_id='31-1-'+news_id    



    #评论内容都在这个list中
    cmntlist=[]

    page=1

    #含有新闻url,标题,内容,评论的文件
    file2=None   

    #该变量的作用是当某新闻下存在非手机用户评论时置为False
    is_all_tel=True

    while((page==1) or (cmntlist != [])):

        tel_count=0 #each page tel_user_count
        #提取到的评论url
        url="http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=cj&newsid="+str(comment_id)+"&group=0&compress=1&ie=gbk&oe=gbk&page="+str(page)+"&page_size=100"
        url_contain=urllib2.urlopen(url).read()


        b='={'
        after = url_contain[url_contain.index(b)+len(b)-1:]
        #字符串中的None对应python中的null，不然执行eval时会出错
        after=after.replace('null','None')
        #转换为字典变量text
        text=eval(after)

        if 'cmntlist' in text['result']:
            cmntlist=text['result']['cmntlist']
        else:
            cmntlist=[]                        


        if cmntlist != [] and (page==1):
            filename=str(comment_id)+'.txt'

            path=projectpath+'stock\\' +filename
            file2=open(path,'a+')
            news_content=str('')
            for p in pages:                                                            
                news_content=news_content+p+'\n'
            item="<url>"+response[0].url+"</url>"+'\n\n'+"<title>"+str(title[0])+"</title>\n\n"+"<content>\n"+str(news_content)+"</content>\n\n<comment>\n"


            file2.write(item)
        if cmntlist != []:
            content=''

            for status_dic in cmntlist:

                if status_dic['uid']!='0':

                    is_all_tel=False

                    #这一句视编码情况而定，在这里去掉decode和encode也行
                    s=status_dic['content'].decode('UTF-8').encode('GBK')

                    #见另一篇博客“三张图”
                    s=s.replace("'",'"')
                    s=s.replace("\n",'')
                    s1="u'"+s+"'"
                    try:                        
                        ss=eval(s1)                 
                    except:
                        try:
                            s1='u"'+s+'"'
                            ss=eval(s1)
                        except:                          
                            return


                    content=content+status_dic['time']+'\t'+status_dic['uid']+'\t'+ss+'\n'


                #当属于手机用户时
                else:
                    tel_count=tel_count+1   

            #当一个page下不都是手机用户时，这里也可以用is_all_tel进行判断，一种是用开关的方式，一种是统计的方式
            #算了不改了
            if tel_count!=len(cmntlist):
                file2.write(content)

        page=page+1


    #while loop end here

    if file2!=None:   
        #当都是手机用户时，移除文件，否则写入"</comment>"到文件尾         
        if is_all_tel:
            file2.close()
            try:
                os.remove(file2.name)
            except WindowsError:
                pass
        else:
            file2.write("</comment>")
            file2.close()

class DmozSpider(Spider):
name = "stock"
allowed_domains = ["sina.com.cn"]

#在本程序中，start_urls并不重要，因为并没有解析
start_urls = [
    "http://news.sina.com.cn/"
]



global projectpath

if os.path.exists(projectpath+'stock'):
    pass
else:
    os.mkdir(projectpath+'stock')


def parse(self, response):

    #这个scrapy.selector.Selector是个不错的处理字符串的类，python对编码很严格，它却处理得很好
    #在做这个爬虫的时候，碰到很多奇奇怪怪的编码问题，主要是中文，试过很多既有的类，BeautifulSoup处理得也不是很好
    sel = Selector(response)          

    global flag

    if(flag==1):
        flag=2
        page=1
        while page<260: 

            url="http://roll.finance.sina.com.cn/finance/zq1/index_"

            url=url+str(page)+".shtml"



            #伪装为浏览器
            user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  
            headers = { 'User-Agent' : user_agent }                  
            req = urllib2.Request(url, headers=headers)
            response = urllib2.urlopen(req)  
            url_contain = response.read() 

            #利用BeautifulSoup进行文档解析  
            soup = BeautifulSoup(url_contain)                
            params = soup.findAll('div',{'class':'listBlk'})


            if os.path.exists(projectpath+'stock\\'+'link'):
                 pass
            else:
                 os.mkdir(projectpath+'stock\\'+'link')

            filename='link.txt'

            path=projectpath+'stock\\link\\' + filename


            filelink=open(path,'a+')


            for params_item in params:        
                persons = params_item.findAll('li')                    
                for item in persons:                    
                    href=item.find('a')
                    mil_link= href.get('href')                                                   
                    filelink.write(str(mil_link)+'\n')                                                 
                    #递归调用parse,传入新的爬取url
                    yield Request(mil_link, callback=self.parse)                              


            page=page+1   

    #对单个新闻页面新建线程进行爬取
    if flag!=1:
        if (response.status != 404) and (response.status != 502):
            thread.start_new_thread(loop,(response,))

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
weixin_37794056 2017-03-07 03:09
关注
整段代码基本上是从网上扒下来的，但是运行起来不行啊，不知道是不是哪里的设置没有改好，希望有大神给解答

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
Python爬虫 xpath 列表为空 python 有问必答爬虫
2022-03-08 08:32

回答 2 已采纳第二个li的div下少了结束标签导致etree解析出错了少了div结束标签后，etree将建筑类别后的几点全部归类到第二li下了，改下面这样就可以了 import requests from lxm
python读取excel显示空白是为什么， python
2022-03-05 11:56

回答 1 已采纳路径不要加中文呢
python 爬取财经新闻股票_python 抓取新浪财经股票数据
2020-12-08 13:08

weixin_39681161的博客 ==来获取证券代码为的实时行情数据，可以看到内容为：="华泰证券,,,,20.400,20.200,20.320,20.340,5737081,****.000,1200,20.320,4900,20.310,44300,20.300,30200,20.290,18900,20.280,2300,...
Python爬虫 BeautifulSoup解析网页爬取内容为None python 有问必答
2021-08-31 14:07

回答 2 已采纳你抓的频率太快，IP被墙了
python爬取到的网页文本，保存本地txt显示文件为空？什么原因呢？ python 有问必答
2022-04-07 11:17

回答 3 已采纳 w改为a（追加），要不会将当前写入的内容覆盖文件内容要么将open和close放到for循环外
python爬虫使用json()方法将response结果转化为JSON格式时报错 json python 爬虫
2022-02-11 13:01

回答 4 已采纳网站设计了相应的反扒策略，需要把Cookie添加到headers中，这种问题一般从headers入手，有的限制User-Agent必须有，有的限制Cookie headers = { 'Cooki
Python实验1——网络爬虫及数据可视化
2022-05-19 00:08

ShowM3TheCode的博客 Python实验1——网络爬虫及数据可视化文章目录Python实验1——网络爬虫及数据可视化前言1. 实验目标与基本要求1.1 实验目标1.2 基本要求2. 主要知识点、重点与难点2.1 主要知识点2.2 重点2.3 难点3. 实验过程设计...
python怎么判断字典里key的value为空 python
2022-07-13 19:09

回答 8 已采纳如有帮助，敬请采纳，你的采纳是我前进的动力，O(∩_∩)O谢谢！！！！！！！！ data_dict = {'words_result': [], 'words_result_num': 1, 'log
为什么python找不到excel（入门问题） python
2022-05-20 06:44

回答 2 已采纳同意一楼，一个是路径的问题，要么把文件放到python运行空间路径下，可以直接写文件名字（相对路径）；要么就要写全文件的绝对路径。再一个，文件的名称和路径下尽量不要出现中文，要不然报错都没处找。
python中print(),括号里为空，在代码末尾代表什么？ python
2021-05-12 21:11

回答 2 已采纳换行理解没错也没其他作用了
python抓取股票竞价数据_Python 抓取新浪财经股票数据
2020-12-11 13:00

weixin_39612720的博客新浪并未提供 API，但我们可以通过抓包来获取实时或历史行情...list=sh601688来获取证券代码为 sh601688 的实时行情数据，可以看到内容为：var hq_str_sh601688="华泰证券,20.280,20.250,20.340,20.400,20.200,20.3...
Python爬虫遇到POST响应connection为close的该怎么解决 postman python
2021-04-25 13:00

回答 1 已采纳解决方法（1）随机切换User-Agent： user_agent_list = ["Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537
php 获取新浪股票行情数据,python 抓取新浪财经股票数据
2021-04-14 10:47

weixin_39664136的博客 ==来获取证券代码为的实时行情数据，可以看到内容为：="华泰证券,,,,20.400,20.200,20.320,20.340,5737081,****.000,1200,20.320,4900,20.310,44300,20.300,30200,20.290,18900,20.280,2300,...
【python文本分析】——基于股评文本的情绪分析
2022-04-01 10:45

貮叁的博客 df = ak.stock_zh_a_daily(symbol='sh000001', start_date='20220209', end_date='20220328') sh_df 2.6、计算股票涨跌幅 market = pd.DataFrame() market['日期']=sh_df.iloc[1:,0] market['change']=sh_df['close'...
没有解决我的问题, 去提问

悬赏问题

¥30 求一段fortran代码用IVF编译运行的结果
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 lammps拉伸应力应变曲线分析
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛
¥15 请问Lammps做复合材料拉伸模拟，应力应变曲线问题
¥30 python代码，帮调试，帮帮忙吧
¥15 #MATLAB仿真#车辆换道路径规划

python爬新浪新闻内容，为什么运行完stock里面为空……

2条回答 默认 最新

悬赏问题

2条回答默认最新