weixin_52426213
2021-10-25 18:14
采纳率: 0%
浏览 149
已结题

外国小语种网站上的用户讨论如何快速抓取并进行数据分析

目前在一家消费品公司做海外市场洞察(研究分析海外市场和消费者,产出营销策略和销售策略),针对消费者研究部分,希望能对消费者在网上关于产品的讨论做快速高效的分析,但没有相关的大数据技术经验,希望各位赐教,如有机会可洽谈freelancer业务外包。具体需求举例如下:

假设想做手机产品的海外市场洞察

  1. 发现东南亚某国有一个特别流行的网站,类似国内的知乎,消费者买手机之前喜欢在这个网站上发帖,询问网友的意见,所以会有大量的关于手机产品&品牌的讨论帖(提问帖、留言帖)
  2. 希望将这个网站上所有与手机相关的消费者讨论都抓取出来
  3. 希望根据抓取出的消费者讨论,能做出以下几点分析:
    a. 各个手机品牌的讨论量(如果能进一步分析到消费者对各个品牌的情感倾向正面/中立/负面就更好了)
    b. 各个手机品牌,大家主要都在讨论些什么,讨论的高频关键词是什么,大家对不同手机品牌的印象是什么
    c. 消费者在购买手机前,主要关注什么信息(比如售后、续航等),高频关键词是什么
  4. 网站上的语言都是本地语言(非英语)

目前只有一个大体的概念,可能可以通过Python爬取数据并做分析,但没有相关的技术知识,目前学习的时间成本也比较高。所以现在的做法是:

  1. 页面先用chrom浏览器的网页翻译功能,先把本地语言翻译成英文语言页面
  2. 通过最基础的爬虫工具把所有帖子的标题爬取下来
  3. 再用人工的方式点进每个帖子,把这条帖子中的相关留言copy出来(太浪费时间,所以只局限在很小数量的帖子分析)
  4. 再逐一阅读整理出的每条语句,按照包含的关键词做标签,最后统计各个关键词标签的数量。

感觉上述方式非常低效,配不上2021年的科技发达程度,所以请各位赐教。请问是否有更高效的现成工具可以直接拿来使用?如果没有的话,有谁可以做一套谁都可以上手使用的工具出来(有酬金!但是需要介绍一下相关经验或案例)

  • 好问题 提建议
  • 收藏

1条回答 默认 最新

  • 星空下0516 2021-10-25 20:05

    首先,你这个不给网站,不知道怎么写爬取策略,每个网站的具体内容都不一样。
    建议:先爬取,再翻译!爬取到文件,然后用软件可以做到逐句翻译。
    我手里有YouTube爬取评论的代码,使用的是selenium,你想要爬的网站应该也没问题,操作方便,如果需要,可以私信。

    如果有帮助,请采纳,多谢!

    评论
    解决 2 无用
    打赏 举报

相关推荐 更多相似问题