在线急！需要实现一个网页爬虫的程序

情况如下，
现在有一个填写注册信息的页面，当一个用户注册完成之后我需要把他填写的注册信息
另存一份在我自己建的数据库中，这样的功能应该怎么实现呀，我萌新小白，python语言
刚刚入门，想请教一下这样的问题的思路，欢迎各位大佬指点

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

悟了个空 2017-10-10 08:43

关注

之前也是了解了一下Python, 你参考一下吧, 可以直接运行

 #coding:utf-8

import urllib2, re

#第一页 http://www.neihan8.com/article/index.html
#其他页码 http://www.neihan8.com/article/index_[x].html

#匹配规则
#得到段子的url路径  <h3><a href="()"
#得到段子标题的      <h1 class="title">()</h1>
#得到段子内容的      </a></p>()<div class="ad610">


class Spider:
    '''爬虫类'''

    def __init__(self):
        #当前爬虫需要爬取的页码
        self.page = 1

    def load_page(self, url):
        '''加载某个页面 得到全部该页码源码'''

        #模拟火狐浏览器
        user_agent="Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0"
        header= {"User-Agent": user_agent}

        request = urllib2.Request(url, headers = header)

        #发送url请求
        response = urllib2.urlopen(request)
        #得到返回数据
        html_text = response.read()

        return  html_text

    def spider_one_page(self):
        '''爬取第page页，同时得到该页的全部端子的url列表'''
        if (self.page == 1):
            url = "http://www.neihan8.com/article/index.html"
        else:
            url = "http://www.neihan8.com/article/index_"+str(self.page)+".html"

        html_text = self.load_page(url)

        #print html_text

        #得到全部的 段子的 url地址
        pattern = re.compile('<h3><a href="(.*?)"', re.S)

        dz_url_list = pattern.findall(html_text)

        print dz_url_list

        return dz_url_list


    def save_title_content_list(self, titles, contents):
        '''将标题和内容写到文件中'''
        print "正在保存 第 " + str(self.page) +"页的全部端子"

        for i in range(len(titles)):
            contents[i]  = contents[i].replace("\r\n", "")\
                                      .replace("<div>", "")\
                                      .replace("</div>", "")\
                                      .replace("<p>", "")\
                                      .replace("</p>", "")\
                                      .replace("&ldquo;", "")\
                                      .replace("&rdquo;", "")\
                                      .replace("&nbsp;", "")\
                                      .replace("&hellip;", "")

            self.write_one_dz(titles[i], contents[i])



    def spider_dzurl_list(self, url_list):
        '''根据url_list 分别请求段子的网页，爬取段子的内容'''

        titles = []
        contents = []

        for url in url_list:
            dz_url = "http://www.neihan8.com"+url

            html_text = self.load_page(dz_url)

            #得到标题
            pattern = re.compile('<h1 class="title">(.*?)</h1>', re.S)
            title = pattern.findall(html_text)
            titles.append(title[0])

            #得到标题
            pattern = re.compile('</a></p>(.*?)<div class="ad610">', re.S)
            content = pattern.findall(html_text)
            contents.append(content[0])

        #将标题和数据 保存到 文件中        
        self.save_title_content_list(titles, contents)




    def write_one_dz(self, title, content):
        fp = open('./myDuanzi.txt', "a")
        fp.write("="*15)
        fp.write("\n")
        fp.write(title)
        fp.write("\n")
        fp.write("+"*15)
        fp.write("\n")
        fp.write(content)
        fp.write("\n")
        fp.close()

    def doWork(self):
        '''爬虫的主业务方法'''

        while True:
            print "输入回车 爬取下一页"
            print "输入的exit退出"
            cmd = raw_input()
            if (cmd == "exit"):
                break

            #开始爬取
            dz_url_list = self.spider_one_page()
            self.spider_dzurl_list(dz_url_list)

            #爬取该页完毕
            print "爬取 " + str(self.page) +" 页 完毕"
            self.page += 1


if __name__=="__main__":

    sp = Spider()

    sp.doWork()

报告相同问题？

关注问题

关于使用python实现的网页爬虫程序卡死的问题 python 有问必答爬虫
2021-08-07 13:04

回答 3 已采纳你可以用time模块进行计时，每过10分钟先用os.system()重新打开程序，然后调用sys.exit()关闭旧进程如果有用，希望采纳哦~
想用pycharm爬虫提取一个网页 pycharm python 爬虫
2021-07-30 00:11

回答 4 已采纳对你有帮助的话，建议采纳。
一个爬虫小程序遇到的问题 javascript python 爬虫
2022-08-26 14:49

回答 2 已采纳改成这样 response = requests.request("POST", url, data=payload) print(response.content.decode('gbk'))
python如何编写爬虫_如何实现一个Python爬虫框架
2020-11-29 13:29

weixin_39977276的博客 image这篇文章的题目有点大，但这并不是说我自觉对Python爬虫这块有多大见解，我只不过是想将自己的一些经验付诸于笔，对于如何写一个爬虫框架，我想一步一步地结合具体代码来讲述如何从零开始编写一个自己的爬虫...
急！请问java的jsoup爬虫如何完整获得响应验证码？ java 开发语言爬虫
2022-04-21 11:40

回答 2 已采纳代码抛了异常，后面的代码没有执行。try catch 下抛出异常的代码试下。
Python爬虫只解析了一部分网页？ python 爬虫
2021-11-19 14:39

回答 1 已采纳第一个问题，你用html.xpath('//div[@class="co_content8"]/ul/table')找不到，是因为在table那一类，有很多分支标签，所以定位不到具体的元素。第二个问题
用爬虫爬取网页，表格第一行内容无法获得 python 爬虫
2021-12-14 09:11

回答 1 已采纳如果是想要获得标题，表头用的是th，不是td。和表格正文内容不是一样的。
好用到爆！20个Python爬虫工具包分享！
2023-11-27 14:30

码农必胜客的博客我相信很多人跟我都有相同的经历：想在网上找点资源，却因为种种原因而...有了 Python 爬虫技巧，相信很多平时你想要的资源，它都可以帮你实现。本文我将给大家分享目前做爬虫所涉及的 Python 库，总会一款是你的最爱。
Jsoup写的一个简单的爬虫出现502 java 爬虫
2022-09-17 20:13

回答 1 已采纳这篇博客也许可以解决你的问题👉 ：Jsoup简单理解笔记
将爬虫工具写成网页，需要学习什么 html python 爬虫
2023-03-27 16:42

回答 2 已采纳你的意思是做一个网站，本身去爬取另一个网站，然后对外发布么？这个你可以用 flask 或者 django，如果你用的是 python 的话还得学习下数据库。
python爬虫一个小问题 python 爬虫
2023-02-17 09:21

回答 5 已采纳你的原代码拷贝过来执行的话，name返回的是None，也就是说你的选择器没有找到你期望的内容，调试代码修改如下：注意看打印输出的内容：所以检查下css选择器的代码是否正确吧有帮助的话，请点采
Python 网络爬虫与数据采集（一）
2022-01-30 21:28

秃顶的博客 Python 网络爬虫与数据采集第1章序章网络爬虫基础1 爬虫基本概述1.1 爬虫是什么1.2 爬虫可以做什么1.3 爬虫的分类1.4 爬虫的基本流程1.4.1 浏览网页的流程1.4.2 爬虫的基本流程1.5 爬虫与反爬虫1.5.1 爬虫的攻与防...
跪求大神帮忙写一个非常简单的爬虫程序，爬取网页上的表格信息！ python
2019-08-01 13:18

回答 2 已采纳 ``` import requests from bs4 import BeautifulSoup import pandas as pd url="https://mp.weixin.q
第一个python爬虫_Python爬虫01——第一个小爬虫
2020-11-30 12:12

weixin_39800387的博客目标：首先肯定要实现图片抓取这个基本功能然后实现对用户所给的链接进行抓取最后要有一定的交互，程序不能太傻吧一、页面获取要让python可以进行对网页的访问，那肯定要用到urllib之类的包。So先来个 import urllib...
网页爬虫教程
2018-09-08 00:18

Melo丶的博客学习爬虫, 首先要懂的是网页. 支撑起各种光鲜亮丽的网页的不是别的, 全都是一些代码. 这种代码我们称之为 HTML, HTML 是一种浏览器(Chrome, Safari, IE, Firefox等)看得懂的语言, 浏览器能将这种语言转换成我...
没有解决我的问题, 去提问

悬赏问题

¥15 delta降尺度计算的一些细节，有偿
¥15 Arduino红外遥控代码有问题
¥15 数值计算离散正交多项式
¥30 数值计算均差系数编程
¥15 redis-full-check比较两个集群的数据出错
¥15 Matlab编程问题
¥15 训练的多模态特征融合模型准确度很低怎么办
¥15 kylin启动报错log4j类冲突
¥15 超声波模块测距控制点灯，灯的闪烁很不稳定，经过调试发现测的距离偏大
¥15 import arcpy出现importing _arcgisscripting 找不到相关程序

码龄粉丝数原力等级 --

在线急！需要实现一个网页爬虫的程序

2条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

在线急！需要实现一个网页爬虫的程序

2条回答 默认 最新

悬赏问题

2条回答默认最新