用RPA怎么抓取一个商品“电脑”的所有数据,就是用RPA去操作把网页淘宝的电脑所有数据抓出来,但是我抓不到那个显示URI无效,格式不对,
其中抓取的文字怎么改成链接形式呢?
在源码里改什么
用RPA怎么抓取一个商品“电脑”的所有数据,就是用RPA去操作把网页淘宝的电脑所有数据抓出来,但是我抓不到那个显示URI无效,格式不对,
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
1条回答 默认 最新
- IT大鸵鸟 2023-04-13 21:01关注
打开网页并进行搜索。
等待网页加载完成。
找到商品信息的HTML元素。
解析HTML元素并提取所需数据。
将提取的数据保存到文件或输出到控制台。
下面是一个Python实现的例子:import time from selenium import webdriver # 启动Chrome浏览器 driver = webdriver.Chrome() # 打开淘宝首页并搜索“电脑” driver.get('https://www.taobao.com/') driver.find_element_by_name('q').send_keys('电脑') driver.find_element_by_class_name('btn-search').click() # 等待页面加载完成 time.sleep(5) # 获取商品信息的HTML元素 items = driver.find_elements_by_class_name('item') # 提取商品信息并保存到文件 with open('items.txt', 'w', encoding='utf-8') as f: for item in items: title = item.find_element_by_class_name('title').text price = item.find_element_by_class_name('price').text link = item.find_element_by_class_name('title').get_attribute('href') f.write(f'{title}\t{price}\t{link}\n') # 关闭浏览器 driver.quit()
在这个例子中,我们使用了Python的selenium库来模拟浏览器操作。首先,我们启动了Chrome浏览器并打开淘宝首页。然后,在搜索框中输入“电脑”并点击搜索按钮。接着,我们等待页面加载完成,使用find_elements_by_class_name方法获取所有商品信息的HTML元素,然后使用text和get_attribute方法提取商品标题、价格和链接信息。最后,我们将提取的数据保存到文件中,并关闭浏览器。
如果你想将提取的文字变成链接形式,可以在保存数据时将标题和链接信息组合成HTML超链接的格式,例如:with open('items.html', 'w', encoding='utf-8') as f: for item in items: title = item.find_element_by_class_name('title').text price = item.find_element_by_class_name('price').text link = item.find_element_by_class_name('title').get_attribute('href') f.write(f'<a href="{link}">{title}</a>\t{price}<br>\n')
在这个例子中,我们将每个商品的标题和链接信息组合成一个HTML超链接,并将其保存到文件中。注意,在这种情况下,我们将数据保存到HTML文件中,而不是文本文件中。
解决 无用评论 打赏 举报
悬赏问题
- ¥15 悬赏Python-playwright部署在centos7上
- ¥15 psoc creator软件有没有人能远程安装啊
- ¥15 快速扫描算法求解Eikonal方程咨询
- ¥20 我的是道格手机,重置后屏幕右上角出现红色字的未写入tee key 和未写入google key请问怎么去掉啊
- ¥30 关于R语言运行分区生存模型中的问题!
- ¥15 校内二手商品转让网站
- ¥20 高德地图聚合图层MarkerCluster聚合多个点,但是ClusterData只有其中部分数据,原因应该是有经纬度重合的地方点,现在我想让ClusterData显示所有点的信息,如何实现?
- ¥100 求Web版SPC控制图程序包调式
- ¥20 指导如何跑通以下两个Github代码
- ¥15 大家知道这个后备文件怎么删吗,为啥这些文件我只看到一份,没有后备呀