项目需要,需要去淘宝抓几页搜索结果进行分析。但是对于搜索的URL中的cat参数完全找不出规律。
举个例子:
1.. 我生成一个URL
https://s.taobao.com/search?q=项链&s=0 ,在生成的页面当中可以抓到每个商品的一些信息。比如这个商品
S999纯银项链女锁骨四叶草吊坠简约饰品生日韩版情,可以抓到
category=50013865, nid=555713693267
其中nid就是商品的ID,category应该就是淘宝的类目ID。在网上能找到的淘宝类目大全中能够查到这个category数字代表的就是“项链”的三级类目。(貌似类目总共有5级)
2.. 同时,在淘宝分类列表(list.taobao.com)可以点击一些类目词进入列表页面,比如项链的就是
https://s.taobao.com/list?spm=a21bo.7723600.8575.3.6ad85ec9xbbFqU&q=%E9%A1%B9%E9%93%BE&cat=50015926%2C1705%2C50005700%2C28&style=grid&seller_type=taobao
_其中有cat的值:50015926,1705,50005700,28。
看着URL的形式,感觉这个应该也是类目值。然而如果拿这几个数字在列表文件中查,1个都找不到。
反之,如果把这个url的cat部分改成cat=50013865,也就是上面找到的属性,出现的页面却会是“筛选条件加的太多啦,未找到与“项链”相关宝贝”。
3..所以判断搜索页面中找到的category的数字,和这个url中的cat的数字,不是一个域下面的数字,虽然看上去都是cat,而且也很像。亦或是这个数字做了处理?
因为搜索结果里面很乱,比如搜项链还会搜出来衣服,所以希望用限制cat的方式来进行数据获取。
请问有同学了解这个url的cat参数该如何处理吗?谢谢