Python爬虫在Django中的使用问题

新入门Django，现在已经写好了一个Python爬虫，直接用Python跑测试没问题，
------在Django项目中加入了一个新的爬虫app，用model创建了表格，和展示爬虫的html
------但是runserver, 以后查看db.sqlite3里面对应的表已经创建，但是里面没有存爬到的内容，
------ 请大神们指教该怎么办，代码如下

Spider.py，爬虫并存入model.py 创建的**Website**表

 #!/usr/bin/python
# -*- coding: utf-8 -*-
# import data into mysql(sqlite3), must have these four lines defination:
import os
# # 我所创建的project名称为learn_spider;里面的app名称为website
os.environ.setdefault("DJANGO_SETTINGS_MODULE", "blogproject.settings")
# import django
# django.setup()

# urllib2 package: open resource by URL; re package: use regular expression to filter the objects
import urllib.request, re
import urllib.parse
# BeautifulSoup: abstract data clearly from html/xml files
from bs4 import BeautifulSoup
# import tables from models.py
from .models import Website

# urlopen()方法需要加read()才可视源代码，其中decode("utf-8")表示以utf-8编码解析原网页，这个编码格式是根据网页源代码中<head>标签下的<meta charset="utf-8">来决定的。
ul = "https://baike.baidu.com/item/Python"
req = urllib.request.Request(ul)
html_python = urllib.request.urlopen(req).read().decode("utf-8")
#html_python = urllib.request.urlopen('https://baike.baidu.com/item/Python').read().decode("utf-8")
soup_python = BeautifulSoup(html_python, "html.parser")
# print soup
#这里用到了正则表达式进行筛选
item_list = soup_python.find_all('a', href=re.compile("item"))

for each in item_list:
    print (each.string)
    # use quote to replace special characters in string(escape encode method)
    urls = "https://baike.baidu.com/item/" + urllib.parse.quote(each.string.encode("utf-8"))
    print (urls)
    html = urllib.request.urlopen(urls).read().decode("utf-8")
    soup = BeautifulSoup(html, "html.parser")
    if soup.find('div', 'lemma-summary') == None:
        text = "None"
    else:
        text = soup.find('div', 'lemma-summary').get_text()
    print (text)
    Website.objects.get_or_create(name=each.string, url=urls, text=text)


text_python = soup_python.find('div', 'lemma-summary').text

Website.objects.get_or_create(name="Python", url="https://baike.baidu.com/item/Python", text=text_python)

model.py 创建Website 表用于存储爬到的内容

 # -*- coding: utf-8 -*-
from __future__ import unicode_literals

from django.db import models

# Create your models here.
class Website(models.Model):
    name = models.CharField(max_length=100)
    url = models.CharField(max_length=100)
    text = models.TextField()

    def __unicode__(self):
        return self.name

view.py 提取表中已爬取的内容

 from __future__ import unicode_literals
from django.shortcuts import render

# Create your views here.
from .models import Website

def show(request):
# 这里直接通过QuerySet API获取所有的object，默认返回类型为tuple（元组）
    queryset = Website.objects.all()
    # 传入三个渲染参数
    return render(request, 'news/nws.html', {'QuerySet': queryset})

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2018-07-28 00:30
关注
多加点日志，看爬虫跑起来了没，数据有没有获取到。写入数据库有没有成功

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python Django框架中引入jquery报错的问题 django jquery python
2022-03-05 17:38

回答 2 已采纳 settings.py 定义了static 目录了吗？
pythonDjango配置问题 django python
2022-11-18 21:06

回答 1 已采纳如果没人的话，我可以成功给你配置一下
Python和django搭建的网站问题 django html python
2022-12-20 17:02

回答 5 已采纳
基于python爬虫和django打造的搜索引擎
2024-02-23 16:05

本项目是利用python提供的scrapy框架爬取伯乐在线网站，将数据存储到nosql里面，然后利用Django建立一个网站，提供了搜索框和结果页面，里面实现了模糊搜素等功能。
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
在python的django中的报错看看怎么改 django python
2023-03-16 13:16

回答 4 已采纳参考GPT和自己的思路：根据您提供的代码和报错信息，看起来问题出在将字符串类型的时间数据插入到DatetimeField类型的字段中。解决方法是将字符串转换成datetime类型的数据，可以使用Py
python django js问题 javascript python
2023-02-20 16:49

回答 2 已采纳假设页码列表是这样生成的： <ul> {% for page_num in page_range %} <li><a href="#" class="page
影视信息检索网站（python爬虫+django网站搭建）
2020-11-21 12:14

大一小学期布置的大作业（一直鸽到现在才把最后一个大作业发出来），要求首先利用爬虫爬取影视信息，然后用django搭建一个检索网站。由于时间因素（小学期考完一天速成大作业），很多细节以及美观部分做得还欠佳，...
学习python中在django中创建model遇到的疑惑，请求帮助 django python
2021-08-03 20:41

回答 2 已采纳这是python的类的问题python要求类的函数必须传入self作为参数，调用类中的变量必须通过self调用上面没有self的是正常的创建一个变量，下面用self则是规定必须通过传入的self来调用
向大家请教python django题 django python
2022-09-04 09:19

回答 2 已采纳 name = User.objects.filter(sid=sid).first().name 如果帮助到你，请点击一下采纳，谢谢
使用Python中的Django框架开发博客的支持中文问题 django python
2017-09-16 12:40

回答 1 已采纳 http://blog.csdn.net/zhang103886108/article/details/46874735
基于爬虫的减速器数据系统设计，毕业设计项目后端部分，使用python爬虫、Django框架.zip
2023-12-14 12:49

基于python的系统开发项目课程设计毕业设计供参考源代码+说明基于python的系统开发项目课程设计毕业设计供参考源代码+说明基于python的系统开发项目课程设计毕业设计供参考源代码+说明基于python的...
Mac中 python django数据库迁移报错问题，如何解决？ django python 后端有问必答
2022-01-06 10:06

回答 4 已采纳你把python manage.py改成/Users/name/opt/anaconda3/bin/python (指的是anaconda3下面的python) 试试。
基于python爬虫+django的新能源电动汽车使用体验大数据分析系统源码+文档+演示视频.zip
2024-04-10 00:12

基于python爬虫+django的新能源电动汽车使用体验大数据分析系统源码+文档+演示视频.zip 基于python爬虫+django的新能源电动汽车使用体验大数据分析系统源码+文档+演示视频.zip 基于python爬虫+django的新能源电动...
基于Python爬虫+Django的新能源电动汽车使用体验大数据可视化分析系统的设计与实现+详细文档+全部资料（高分毕业设计）
2024-04-18 09:00

基于Python爬虫+Django的新能源电动汽车使用体验大数据可视化分析系统的设计与实现+详细文档+全部资料（高分毕业设计）基于Python爬虫+Django的新能源电动汽车使用体验大数据可视化分析系统的设计与实现+详细文档+...
没有解决我的问题, 去提问

悬赏问题

¥15 使用C#，asp.net读取Excel文件并保存到Oracle数据库
¥15 C# datagridview 单元格显示进度及值
¥15 thinkphp6配合social login单点登录问题
¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场部分对应不上
¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配

Python爬虫在Django中的使用问题

2条回答 默认 最新

悬赏问题

2条回答默认最新