求大神指教下我这个程序怎么爬不下来数据

-- coding: utf-8 --

import urllib, sys, os, re
from selenium import webdriver
from bs4 import BeautifulSoup

reload(sys)
sys.setdefaultencoding('utf-8')

def mkdir(path):
if not os.path.exists(path):
os.makedirs(path)

def save(driver, html, parentpath):
driver.get(html)
content = driver.page_source
print content
soup = BeautifulSoup(content, 'lxml')
alist = soup.select("li.tit")
print alist
for i in alist:
path = parentpath
a = i.select('a')[0]

    text = a.text
    title = text.strip().replace(" ", "")

    path = path + "/" + title  # (文件夹名字)
    try:
        mkdir(path)
    except Exception, e:
        print '创建文件夹出错'
        continue
    url = 'http://www.cqzj.gov.cn/' + i.attrs['href']
    driver.get(url)
    content = driver.page_source
    soup = BeautifulSoup(content, 'lxml')
    title = soup.select('span[id="Contentontrol_lblTitle"]')[0].text.replace("\n", "")
    #title1 = title + "1"
    # print title
    # time = soup.select('td.articletddate3')[0].text.replace("\n", "")
    # print time
    content = soup.select('div.con')[0].text.strip()

    try:
        fileName = (path + '/' + title + '.txt').replace("\n", "").replace(" ", "").replace("<", "").replace(">",
                                                                                                                "").replace(
            "《", "").replace("》", "").replace("|", "").decode("utf-8")
        #filename1 = (path + '/' + title1 + '.txt').replace("\n", "").replace(" ", "").replace("<", "").replace(
        #     ">","").replace("《", "").replace("》", "").replace("|", "").decode("utf-8")
        file = open(fileName, 'w')

        file.write(title + '\n\n' + content)


        file.flush()
        file.close()
    except Exception, e:
        print 0
        continue

    for i in alist:
        downlName = i.text
        href = a.attrs['href']
        if href != '' and i.text != '':
            href="http://www.cqzj.gov.cn/"+a.attrs['href'][3:]
            fm = href.rfind('.')
            downlName = re.sub('.*/|\..*', '', downlName) + href[fm:]
            name = path + '/' + downlName

            try:
                urllib.urlretrieve(href, unicode(name))
            except Exception, e:
                continue

def getMaxPage(content):
soup = BeautifulSoup(content)
pagenum = soup.select("td")
pagenum = 23
return pagenum

root_html = 'http://www.cqzj.gov.cn/ZJ_Page/List.aspx?levelid=324&dh=1'

driver = webdriver.PhantomJS(executable_path='E:/work/PyCharm/phantomjs-2.1.1-windows/bin/phantomjs.exe') # 改这里
driver.get(root_html)
content = driver.page_source
page_num = getMaxPage(content)
htmls = [root_html]

for html in htmls:
print html
save(driver, html, 'D:/数据采集/重庆/质检') # 改这里

    跑出来结果 爬不到我需要的列表![图片说明](https://img-ask.csdn.net/upload/201710/31/1509418184_968916.png)  总是为空


    ![图片说明](https://img-ask.csdn.net/upload/201710/31/1509418233_721785.png)这些我爬不到

    我也不太会这个 程序是别人给的 我改了改哪些路径 求大神指点

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2017-10-31 04:41
关注
http://python.jobbole.com/81334/

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python利用while循环求2到100内的素数，求大神指点 python 有问必答
2021-03-30 20:26

回答 5 已采纳 # 外层循环 i 从2循环到99 i = 2 while(i < 100): # 内层循环 j 从2循环到根号 i j = 2 while(j <= (i/j)): #
程序的功能求大神指点！ python
2021-06-11 15:36

回答 2 已采纳获取所有2到n能被n整除的数，并求和
求大神指教！！！python dataframe apply 函数报错 python
2019-09-23 00:20

回答 1 已采纳 unit没有定义，感觉应该就是除以quantity
运行这个深度谱聚类网络的python程序不报错也不停止啊求大神指教~
2019-12-04 09:23

weixin_45396342的博客运行这个深度谱聚类网络的python程序不报错也不停止啊求大神指教~ from future import division, print_function, absolute_import import tensorflow as tf import numpy as np import matplotlib.pyplot as plt ...
程序功能啊什么，求大神指点 python 有问必答
2021-06-11 15:15

回答 3 已采纳计算1000以内不能被7整除的数的余数之和如果对你有帮助，可以点击我这个回答右上方的【采纳】按钮，给我个采纳吗，谢谢
python监听器的问题，求大神指教 python
2018-06-02 13:47

回答 3 已采纳 data中有ASCII编码的字符。先编码处理一下
求大神指点Python温度转换代码报错原因,拜托了 python
2019-01-30 15:06

回答 5 已采纳楼主你的F=(eval(temp[0,-1])-32)/1.8写错了，temp[0,-1]修改为temp[0:-1]，截取最后一个字符的前的所有字符
python csv写入不完整_求大神指点一下CSV读取写入的一点问题
2021-01-13 22:05

weixin_39908758的博客该楼层疑似违规已被系统折叠隐藏此楼查看此楼import pandas as pdimport csvimport linecachedata=pd.read_csv('DIAGNOSES_ICD_DATA_TABLE.csv')print datadisease_data=data.groupby(['ICD9_CODE']).get_group(('...
这题怎么解求大神指点 python 有问必答
2021-06-22 09:07

回答 1 已采纳 depart_code = {0:'big_data',1:'network',2:'infomation',3:'others'} def show_info(name,depart=3,*in
本人python小白，vscode遇到问题，请大神指教！！！ python
2021-01-21 02:10

回答 3 已采纳建议你把 python.exe 加到你系统的 PATH 路径中。再重启电脑。看这个： https://blog.csdn.net/qwe954443563/article/details/11
python写的模型，需要以网页的形式展现效果，请教大神指教 bootstrap python 自然语言处理
2021-02-21 22:42

回答 1 已采纳如果想快速开发一个web应用，我给你推荐tornado框架。python 旗下用于 web 开发的框架很多，比如webpy、web2py、bottle、pyramid、zope2、flask、torn
Qt+python+爬虫
2020-12-22 13:36

通过request请求，获得数据用Json解析数据，对数据提取，将这个写成一个py文件留出用于QT文件的接口。用pyqt_tool制作qt界面并生成py文件。将两个结合到一块，最后用pyinstaller打包生成exe文件代码展示 1. ...
请python高手帮我看看这两个自定义函数哪里错了。 python 有问必答
2021-05-12 22:32

回答 5 已采纳 def sum_factor(M): '''计算N的因数的和''' fact =[] n1 = int(M/2)+1 for i in range(1, n1):
我用python爬取一个网页时只显示了一条信息，这是代码部分，求大神指教
2020-04-20 18:12

qq_42711799的博客 import requests from bs4 import BeautifulSoup url = 'https://ke.qq.com/course/list/%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84c%E8%AF%AD%E8%A8%80?page=2' res = requests.get(url) #print(res.text) ...
两周从爬虫小白变大神，看完你就知道我不是标题党了【五万字教程，建议收藏】
2021-09-28 09:39

五包辣条！的博客大家好，我是辣条，今天给大家带来最硬核的爬虫教程。目录 Python爬虫第一天什么是爬虫爬虫与Web后端服务之间的关系 Python爬虫技术的相关库常见反爬虫的策略爬虫库urllib【重要】作业爬虫第二天 ...
没有解决我的问题, 去提问

悬赏问题

¥15 运筹学排序问题中的在线排序
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥30 求一段fortran代码用IVF编译运行的结果
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 lammps拉伸应力应变曲线分析
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛
¥15 请问Lammps做复合材料拉伸模拟，应力应变曲线问题

求大神指教下 我这个程序怎么爬不下来数据

-*- coding: utf-8 -*-

1条回答 默认 最新

悬赏问题

求大神指教下我这个程序怎么爬不下来数据

-- coding: utf-8 --

1条回答默认最新