关于网络爬虫的一些问题（java）

爬虫的功能需求
1.需要爬取海量数据
2.爬取过程可能需要很久，几个月甚至一年
3.将爬取的数据保存起来作为语料库使用
4.需要提取网页中特定的信息，比如百度百科中的关于股票的所有词条信息或者其他网站的股票信息

问题：
选取什么样的爬虫比较合适，存放地点是选择mysql数据库好还是其他

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
云霏阳 2015-12-14 06:56
关注
1.可以考虑使用python来实现爬虫；
2.存储如果不考虑效率的话，可以使用数据库。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于手机爬虫的一些问题 python 爬虫
2021-08-10 16:33

回答 1 已采纳刚刚发现,爬取的时候那取url时会把省略号一起爬取下来而不是把省略号之后的部分url继续爬取下来...省略号之后的url好像要点击才能展开这是完整的url那么问题来了,有人知道完整的url该怎么爬取
关于python爬虫的问题 python 爬虫
2022-03-02 15:43

回答 1 已采纳 lis = re.findall(p, html, re.M|re.I|re.S)
关于xpath爬虫遇到的问题 python 其他爬虫
2023-03-13 17:09

回答 5 已采纳 titles=html.xpath('//*[@class="title"]/a//text()') abstracts=html.xpath('//*[@class="abstract"]') r
通过网络爬虫采集大数据
2021-01-07 03:39

在大数据时代，网络爬虫更是从互联网上采集数据的有利工具。目前已经知道的各种网络爬虫工具已经有上百个，网络爬虫工具基本可以分为 3 类。分布式网络爬虫工具，如 Nutch。 Java 网络爬虫工具，如 Crawler4j、...
关于 java 利用jsoup爬取图片的问题？ java 爬虫
2023-02-13 14:54

回答 3 已采纳每个网站的数据请求方式可能不一样，甚至有些网站不让下载，能够检测到不是人工下载。你可以手动打开那个不能下载的url，复制到浏览器上打开看能否正常显示，其次url是否发生了变化。望采纳！！
关于爬虫爬取页数的问题 json python 爬虫
2022-09-14 23:27

回答 2 已采纳 import requests import re import json import time fh = open('测试写入.txt', 'a') for i in range(1, 20,
python爬虫有一些小问题 pycharm python 爬虫
2023-03-12 01:58

回答 4 已采纳。。。。你要明白，源文件和查看元素的区别在浏览器里，使用查看元素方式得到的是已经经过浏览器渲染之后的数据而查看源文件，则是真正这个页面返回的数据那么问题来了，你在查看元素时有，但抓取时没有，那么
Java网络爬虫MySpider.zip
2024-01-12 23:44

Java网络爬虫MySpider，特点是组件化，可插拔式的，可以根据一套接口实现你自己自定义的网络爬虫需求（本人JavaSE的温习项目，适合java新人）软件开发设计：应用软件开发、系统软件开发、移动应用开发、网站开发C++...
关于python爬虫的问题，如何解决？ python 爬虫
2022-09-24 14:13

回答 1 已采纳可以看下python参考手册中的 python- 接下来？
网络爬虫spider-flow无法运行 java 爬虫
2022-06-05 09:45

回答 1 已采纳问题已解决，PRoject settings里的sdk 版本换成corretto-1.8就好了
爬虫关于获取标签内容的问题 python 大数据
2022-09-05 23:42

回答 2 已采纳 import re from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen('https:
大数据爬虫
2023-02-22 09:53

qq^^614136809的博客目前在不少大数据团队中，数据分析和数据挖掘工程师通常都有明确的分工，数据采集往往并不是数据分析和挖掘工程师的任务，通常做爬虫的是大数据应用开发程序员或者是数据采集工程师（使用爬虫工具）的工作任务。...
关于爬虫爬取动态网站的问题 python 有问必答爬虫
2022-04-17 18:40

回答 2 已采纳你这个网页中的内容通过 js代码读取外部json数据来动态更新的。可以通过F12控制台分析页面数据加载的链接，找到真正json数据的地址进行爬取。或者参考selenium滚动到页面底部的几种解决方案
基于网络爬虫技术的网络新闻分析
2023-02-15 06:57

基于网络爬虫技术的网络新闻分析由以下几个模块构成：网络爬虫模块。中文分词模块。中文相似度判定模块。数据结构化存储模块。数据可视化展示模块。基于网络爬虫技术的网络新闻分析主要用于网络数据爬取。本...
Java网络爬虫小说下载器。.zip
2024-01-12 23:44

Java网络爬虫小说下载器。使用httpclient，jsoup，dom4j，json-lib，SWT创建的可下载小说的网络爬虫项目。软件开发设计：应用软件开发、系统软件开发、移动应用开发、网站开发C++、Java、python、web、C#等语言的...
没有解决我的问题, 去提问

悬赏问题

¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？
¥100 求三轴之间相互配合画圆以及直线的算法
¥100 c语言，请帮蒟蒻写一个题的范例作参考
¥15 名为“Product”的列已属于此 DataTable
¥15 安卓adb backup备份应用数据失败
¥15 eclipse运行项目时遇到的问题

关于网络爬虫的一些问题（java）

3条回答 默认 最新

悬赏问题

3条回答默认最新