关于#python#的问题：用python编写爬虫程序，将文字和图像等信息抓取到sqlite中保存

用python编写爬虫程序，将文字和图像等信息抓取到sqlite中保存，须有整理

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

白驹_过隙算法领域新星创作者 2022-06-04 10:55

关注

import sqlite3
import re
import requests
from lxml import html

findlink = re.compile(r'<a href="(.*?)"')  # 创建正则表达式对象，表示规则（字符串的模式）
findname = re.compile(r'<a href=".*?">(.*?)</a>')
findname2 = re.compile(r'<td style="outline: 0px !important;">(.*?)</td>')
findname3 = re.compile(
    r'<td style="outline: 0px !important;"><p style="line-height: 1.8; outline: 0px !important;">(.*?)</p></td>')
findname4 = re.compile(
    r'<td style="outline: 0px !important;"><p style="line-height: 1.8; outline: 0px !important;"><a href=".*?">(.*?)</a>.*?</p></td>')
findaddres = re.compile(r'<td style="outline: 0px !important;">(.*?)</td>')
findadress1 = re.compile(r'<td style="outline: 0px !important;"><a href=".*?">(.*?)</a></td>')

'''
通过findall找到所有table里面的tr
然后对tr里面的内容进行解析，如果没有链接，则data添加信息为空，有链接调用函数来解析链接网页
再向数据库传输解析内容
'''

def main():
    basicurl = "http://www.qianmu.org/ranking/1528.htm"
    datalist = getData(basicurl)
    for data in datalist:
        print(data)
    saveDatadb(datalist,"university.db")

# 得到一个指定的网页内容
def askURL(url):
    et = html.etree
    respon = requests.get("http://www.qianmu.org/ranking/1528.htm")
    selector = et.HTML(respon.text)
    return selector

# 爬取主网页，将网页的tr提取出来进行分析
def getData(basicurl):
    datalist = []
    selector = askURL(basicurl)
    # 找出每个tr,对每个tr解析
    trs = selector.xpath('//div[@class="rankItem"]//tr[position()>1]')
    # names = selector.xpath('//div[@class="rankItem"]//tr[position()>1]/td/a/text() | //div[@class="rankItem"]//tr['
    #                        'position()>1]/td[2]/text()')
    # links = selector.xpath('//div[@class="rankItem"]//tr[position()>1]/td/a/@href')
    # 获得了每一个tr内容
    for tr in trs:
        data = []
        tr = html.tostring(tr, encoding='utf-8').decode('utf-8')
        name = re.findall(findname, tr)
        name1 = re.findall(findname2, tr)
        if len(name) == 0:
            name = name1[1]
        else:
            name = name[0]
        data.append(name)

        # 获取英文名字
        if len(re.findall(findname4, tr)) > 1 or len(re.findall(findname4, tr)) == 1:
            english = ''.join(re.findall(findname4, tr)[0])
        else:
            english = re.findall(findname3, tr)[1]
        data.append(english)

        if len(re.findall(findadress1, tr)) > 1:
            address = ''.join(re.findall(findadress1, tr)[1])
        else:
            address = re.findall(findaddres, tr)[3]
        data.append(address)
        link = re.findall(findlink, tr)
        # if len(link) > 1:
        #     link = link[0]
        # elif len(link) == 0:
        #     link = ' '
        # else:
        #     link = ''.join(link)
        # 开始对link进行分析

        if len(link) > 1:
            link = link[0]
        elif len(link) == 0:
            link = ' '
        else:
             link = ''.join(link)
        data.append(link)
        datalist.append(data)
    return datalist

# 保存数据
def saveDatadb(datalist, dbpath):
    init_db(dbpath)
    conn = sqlite3.connect(dbpath)
    cur = conn.cursor()  # 获取游标
    # print("我执行了")
    for data in datalist:
        for index in range(len(data)):
            data[index] = '"' + str(data[index]) + '"'  # '"'+data[index]+'"'
        sql = '''
            insert into university(
            name, ename, address, link) 
            values (%s)''' % ",".join(data)
        # print(sql)
        cur.execute(sql)
        conn.commit()  # 提交
    cur.close()
    conn.close()  # 关闭链接

# 创建数据库
def init_db(dbpath):
    sql = '''
        create table university(
        id integer primary key autoincrement,
        name text ,
        ename text ,
        address text ,
        link text
        );
    '''
    conn = sqlite3.connect(dbpath)  # 建表
    cursor = conn.cursor()  # 游标
    cursor.execute(sql)  # 执行sql语句建表
    conn.commit()  # 提交
    conn.close()  # 关闭

if __name__ == "__main__":  # 当程序执行时，调用函数  这样写的目的是严格控制函数执行的主流程
    main()

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

关于#python#的问题：用python编写爬虫程序，将文字和图像等信息抓取到sqlite中保存 python
2022-06-04 10:47

回答 1 已采纳 import sqlite3 import re import requests from lxml import html findlink = re.compile(r'<a href=
关于#python#的问题，请各位专家解答！ python 爬虫
2023-03-01 22:24

回答 2 已采纳应该是Judge = re.findall(findJudge, item)[0]中正则匹配re.findall(findJudge, item)结果是空列表，用[0]读取的时候提示索引越界了。可修改
sqlite3 Python update 变量数据到数据库中失败 python sqlite
2022-04-15 14:41

回答 2 已采纳 c.execute('''UPDATE EssentialInformation SET Attribute = '%s', name = '%s', NowTime = '%s' WHERE ID
Python语言-编写一个网络爬虫程序，将文字和图像等信息抓取到sqlite中保存（实时爬取微博热搜数据）
2021-06-26 21:24

我不学习机器学习的博客 import sqlite3 def opendb(): con = sqlite3.connect("D:/realtimehot.db") cur = con.execute("""create table if not exists realtimehot(snum text primary key, swords text, slink text)""") return cur,
用Python调用sqlite将一列数据从大到小排列 python sqlite 有问必答
2021-09-27 22:05

回答 1 已采纳使用pandas处理得到需要可视化的列数据，然后用matplotlib作出频次的条形图。给你一个示例，应用你的数据时，将相关变量替换一下即可。 df1 = pd.DataFrame({'first_n
python3虚拟环境SQLite3版本显示过低问题 python sqlite
2022-01-14 11:18

回答 1 已采纳你用pip list 看下sqlite3的版本。
python,sqlite批量插入数值问题 python sqlite
2022-03-24 17:31

回答 1 已采纳 import sqlite3 con = sqlite3.connect('example.db') cur = con.cursor() lang_list = [ ("Fortran", 195
Python爬虫程序，特点：使用Python编写脚本，提供强大的APIPython，强大的WebUI和脚本编辑器、任务监控和项目
2023-09-03 23:14

Python爬虫程序，特点：使用Python编写脚本，提供强大的APIPython，强大的WebUI和脚本编辑器、任务监控和项目管理和结果查看支持JavaScript页面后端系统支持：MySQL, MongoDB, SQLite, Postgresql支持任务优先级、重...
python sqlite无法查询中文数据 python sqlite
2022-05-12 00:08

回答 2 已采纳 cur.execute("select * from login where username='{}'".format(self.getusername.get()))拼接sql语句的时候出错了
使用Python中自带的SQLite进行数据库操作，无法查找已经插入的数据。 python sqlite 数据库
2022-01-20 13:28

回答 1 已采纳已经解决，原因是在插入数据以后没有提交事务，conn.commit()
Python和SQLite如何在用SELECT语句查询数据库时忽略'_'和'-'认为他们是一个符号并且忽略大小写? python sqlite 有问必答
2022-07-08 19:22

回答 2 已采纳可以试下是不是忽略大小写，mysql是忽略大小写的。 '_'和'-'认为他们是一个符号？将where 后面查询的字段内容替换一下(_替换为-)
Python编写的爬虫程序
2024-01-03 19:56

Python 编写的爬虫程序是信息技术领域中一种用于自动化数据抓取的技术，它允许开发者从互联网上批量获取信息。Python 作为一门高级编程语言，因其语法简洁、库丰富而成为编写爬虫的理想选择。本篇将深入探讨Python...
关于#javascript#的问题：功能是把sqlite的db文件拖到网页打开，我想把这个拖动的动作去掉改成html只取网页根目录指定的db文件 css javascript
2022-12-30 09:33

回答 3 已采纳弄好了。私聊我发你核心代码就是这
Scrapy-Amazon-Sqlite:这是一个使用python scrapy从Amazon检索背包信息和图像并将项目存储到sqlite数据库的项目
2021-05-07 08:29

Scrapy-Amazon-Sqlite项目是一个使用Python编程语言和Scrapy框架从亚马逊网站抓取背包产品的信息和相关图片，然后将这些数据存储到SQLite数据库中的示例应用。这个项目为那些想要学习网络爬虫和数据存储的初学者提供...
Python网络爬虫程序技术--项目1爬取学生信息.zip
2022-03-18 21:59

Python网络爬虫是一种用于自动化获取网页数据的技术，它在信息技术领域有着广泛的应用，尤其是在数据分析、信息挖掘和搜索引擎...在实践中，不断提升对网络数据的抓取和处理能力，将网络上的信息转化为有价值的资源。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月4日

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵

关于#python#的问题：用python编写爬虫程序，将文字和图像等信息抓取到sqlite中保存

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新