颂之之 2023-04-13 20:51 采纳率: 64.3%
浏览 13

用RPA怎么抓取一个商品“电脑”的所有数据,就是用RPA去操作把网页淘宝的电脑所有数据抓出来,但是我抓不到那个显示URI无效,格式不对,

用RPA怎么抓取一个商品“电脑”的所有数据,就是用RPA去操作把网页淘宝的电脑所有数据抓出来,但是我抓不到那个显示URI无效,格式不对,
其中抓取的文字怎么改成链接形式呢?
在源码里改什么

  • 写回答

1条回答 默认 最新

  • IT大鸵鸟 2023-04-13 21:01
    关注

    打开网页并进行搜索。
    等待网页加载完成。
    找到商品信息的HTML元素。
    解析HTML元素并提取所需数据。
    将提取的数据保存到文件或输出到控制台。
    下面是一个Python实现的例子:

    
    import time
    from selenium import webdriver
    
    # 启动Chrome浏览器
    driver = webdriver.Chrome()
    
    # 打开淘宝首页并搜索“电脑”
    driver.get('https://www.taobao.com/')
    driver.find_element_by_name('q').send_keys('电脑')
    driver.find_element_by_class_name('btn-search').click()
    
    # 等待页面加载完成
    time.sleep(5)
    
    # 获取商品信息的HTML元素
    items = driver.find_elements_by_class_name('item')
    
    # 提取商品信息并保存到文件
    with open('items.txt', 'w', encoding='utf-8') as f:
        for item in items:
            title = item.find_element_by_class_name('title').text
            price = item.find_element_by_class_name('price').text
            link = item.find_element_by_class_name('title').get_attribute('href')
            f.write(f'{title}\t{price}\t{link}\n')
    
    # 关闭浏览器
    driver.quit()
    
    

    在这个例子中,我们使用了Python的selenium库来模拟浏览器操作。首先,我们启动了Chrome浏览器并打开淘宝首页。然后,在搜索框中输入“电脑”并点击搜索按钮。接着,我们等待页面加载完成,使用find_elements_by_class_name方法获取所有商品信息的HTML元素,然后使用text和get_attribute方法提取商品标题、价格和链接信息。最后,我们将提取的数据保存到文件中,并关闭浏览器。
    如果你想将提取的文字变成链接形式,可以在保存数据时将标题和链接信息组合成HTML超链接的格式,例如:

    
    with open('items.html', 'w', encoding='utf-8') as f:
        for item in items:
            title = item.find_element_by_class_name('title').text
            price = item.find_element_by_class_name('price').text
            link = item.find_element_by_class_name('title').get_attribute('href')
            f.write(f'<a href="{link}">{title}</a>\t{price}<br>\n')
    
    

    在这个例子中,我们将每个商品的标题和链接信息组合成一个HTML超链接,并将其保存到文件中。注意,在这种情况下,我们将数据保存到HTML文件中,而不是文本文件中。

    评论

报告相同问题?

问题事件

  • 创建了问题 4月13日

悬赏问题

  • ¥15 悬赏Python-playwright部署在centos7上
  • ¥15 psoc creator软件有没有人能远程安装啊
  • ¥15 快速扫描算法求解Eikonal方程咨询
  • ¥20 我的是道格手机,重置后屏幕右上角出现红色字的未写入tee key 和未写入google key请问怎么去掉啊
  • ¥30 关于R语言运行分区生存模型中的问题!
  • ¥15 校内二手商品转让网站
  • ¥20 高德地图聚合图层MarkerCluster聚合多个点,但是ClusterData只有其中部分数据,原因应该是有经纬度重合的地方点,现在我想让ClusterData显示所有点的信息,如何实现?
  • ¥100 求Web版SPC控制图程序包调式
  • ¥20 指导如何跑通以下两个Github代码
  • ¥15 大家知道这个后备文件怎么删吗,为啥这些文件我只看到一份,没有后备呀