Python爬虫在Django中的使用问题

新入门Django，现在已经写好了一个Python爬虫，直接用Python跑测试没问题，
------在Django项目中加入了一个新的爬虫app，用model创建了表格，和展示爬虫的html
------但是runserver, 以后查看db.sqlite3里面对应的表已经创建，但是里面没有存爬到的内容，
------ 请大神们指教该怎么办，代码如下

Spider.py，爬虫并存入model.py 创建的**Website**表

 #!/usr/bin/python
# -*- coding: utf-8 -*-
# import data into mysql(sqlite3), must have these four lines defination:
import os
# # 我所创建的project名称为learn_spider;里面的app名称为website
os.environ.setdefault("DJANGO_SETTINGS_MODULE", "blogproject.settings")
# import django
# django.setup()

# urllib2 package: open resource by URL; re package: use regular expression to filter the objects
import urllib.request, re
import urllib.parse
# BeautifulSoup: abstract data clearly from html/xml files
from bs4 import BeautifulSoup
# import tables from models.py
from .models import Website

# urlopen()方法需要加read()才可视源代码，其中decode("utf-8")表示以utf-8编码解析原网页，这个编码格式是根据网页源代码中<head>标签下的<meta charset="utf-8">来决定的。
ul = "https://baike.baidu.com/item/Python"
req = urllib.request.Request(ul)
html_python = urllib.request.urlopen(req).read().decode("utf-8")
#html_python = urllib.request.urlopen('https://baike.baidu.com/item/Python').read().decode("utf-8")
soup_python = BeautifulSoup(html_python, "html.parser")
# print soup
#这里用到了正则表达式进行筛选
item_list = soup_python.find_all('a', href=re.compile("item"))

for each in item_list:
    print (each.string)
    # use quote to replace special characters in string(escape encode method)
    urls = "https://baike.baidu.com/item/" + urllib.parse.quote(each.string.encode("utf-8"))
    print (urls)
    html = urllib.request.urlopen(urls).read().decode("utf-8")
    soup = BeautifulSoup(html, "html.parser")
    if soup.find('div', 'lemma-summary') == None:
        text = "None"
    else:
        text = soup.find('div', 'lemma-summary').get_text()
    print (text)
    Website.objects.get_or_create(name=each.string, url=urls, text=text)


text_python = soup_python.find('div', 'lemma-summary').text

Website.objects.get_or_create(name="Python", url="https://baike.baidu.com/item/Python", text=text_python)

model.py 创建Website 表用于存储爬到的内容

 # -*- coding: utf-8 -*-
from __future__ import unicode_literals

from django.db import models

# Create your models here.
class Website(models.Model):
    name = models.CharField(max_length=100)
    url = models.CharField(max_length=100)
    text = models.TextField()

    def __unicode__(self):
        return self.name

view.py 提取表中已爬取的内容

 from __future__ import unicode_literals
from django.shortcuts import render

# Create your views here.
from .models import Website

def show(request):
# 这里直接通过QuerySet API获取所有的object，默认返回类型为tuple（元组）
    queryset = Website.objects.all()
    # 传入三个渲染参数
    return render(request, 'news/nws.html', {'QuerySet': queryset})

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2018-07-28 00:30
关注
多加点日志，看爬虫跑起来了没，数据有没有获取到。写入数据库有没有成功

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python Django框架中引入jquery报错的问题 django jquery python
2022-03-05 17:38

回答 2 已采纳 settings.py 定义了static 目录了吗？
pythonDjango配置问题 django python
2022-11-18 21:06

回答 1 已采纳如果没人的话，我可以成功给你配置一下
Python和django搭建的网站问题 django html python
2022-12-20 17:02

回答 5 已采纳
基于python爬虫和django打造的搜索引擎
2024-02-23 16:05

本项目是利用python提供的scrapy框架爬取伯乐在线网站，将数据存储到nosql里面，然后利用Django建立一个网站，提供了搜索框和结果页面，里面实现了模糊搜素等功能。
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
在python的django中的报错看看怎么改 django python
2023-03-16 13:16

回答 4 已采纳参考GPT和自己的思路：根据您提供的代码和报错信息，看起来问题出在将字符串类型的时间数据插入到DatetimeField类型的字段中。解决方法是将字符串转换成datetime类型的数据，可以使用Py
python django js问题 javascript python
2023-02-20 16:49

回答 2 已采纳假设页码列表是这样生成的： <ul> {% for page_num in page_range %} <li><a href="#" class="page
影视信息检索网站（python爬虫+django网站搭建）
2020-11-21 12:14

大一小学期布置的大作业（一直鸽到现在才把最后一个大作业发出来），要求首先利用爬虫爬取影视信息，然后用django搭建一个检索网站。由于时间因素（小学期考完一天速成大作业），很多细节以及美观部分做得还欠佳，...
学习python中在django中创建model遇到的疑惑，请求帮助 django python
2021-08-03 20:41

回答 2 已采纳这是python的类的问题python要求类的函数必须传入self作为参数，调用类中的变量必须通过self调用上面没有self的是正常的创建一个变量，下面用self则是规定必须通过传入的self来调用
向大家请教python django题 django python
2022-09-04 09:19

回答 2 已采纳 name = User.objects.filter(sid=sid).first().name 如果帮助到你，请点击一下采纳，谢谢
使用Python中的Django框架开发博客的支持中文问题 django python
2017-09-16 12:40

回答 1 已采纳 http://blog.csdn.net/zhang103886108/article/details/46874735
基于爬虫的减速器数据系统设计，毕业设计项目后端部分，使用python爬虫、Django框架.zip
2023-12-14 12:49

基于python的系统开发项目课程设计毕业设计供参考源代码+说明基于python的系统开发项目课程设计毕业设计供参考源代码+说明基于python的系统开发项目课程设计毕业设计供参考源代码+说明基于python的...
Mac中 python django数据库迁移报错问题，如何解决？ django python 后端有问必答
2022-01-06 10:06

回答 4 已采纳你把python manage.py改成/Users/name/opt/anaconda3/bin/python (指的是anaconda3下面的python) 试试。
基于python爬虫+django的新能源电动汽车使用体验大数据分析系统源码+文档+演示视频.zip
2024-04-10 00:12

基于python爬虫+django的新能源电动汽车使用体验大数据分析系统源码+文档+演示视频.zip 基于python爬虫+django的新能源电动汽车使用体验大数据分析系统源码+文档+演示视频.zip 基于python爬虫+django的新能源电动...
基于Python爬虫+Django的新能源电动汽车使用体验大数据可视化分析系统的设计与实现+详细文档+全部资料（高分毕业设计）
2024-04-18 09:00

基于Python爬虫+Django的新能源电动汽车使用体验大数据可视化分析系统的设计与实现+详细文档+全部资料（高分毕业设计）基于Python爬虫+Django的新能源电动汽车使用体验大数据可视化分析系统的设计与实现+详细文档+...
没有解决我的问题, 去提问

悬赏问题

¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？
¥15 求daily translation（DT）偏差订正方法的代码
¥15 js调用html页面需要隐藏某个按钮