如何用八爪鱼爬取一个话题下,不是微博蓝V用户的博文,就是我要把微博官方组织认证用户(即头像右下角有个蓝V)发布的博文排除掉。
我的初步思路有两种,一是在爬取时就判断该用户是否含有蓝V标识,若有,不收集,若没有,收集 ;另一种是全部博文和用户信息(包括蓝V标识)都爬取下来,再在excel里做筛选,把含有蓝V标识的一行数据删掉。
但现在问题是无论是八爪鱼还是XPATH好像都无法直接识别出蓝V标识,微博用户信息也没有专门的一列是放用户认证标识的,盾牌形状的认证名称有的有“官方”二字但有的又没有,让我非常犯难、,。
知道怎么处理的友友麻烦解答一下,谢谢!


