淘宝列表URL中的cat参数怎么搞? 10C

项目需要,需要去淘宝抓几页搜索结果进行分析。但是对于搜索的URL中的cat参数完全找不出规律。

举个例子:
1.. 我生成一个URL
https://s.taobao.com/search?q=项链&s=0 ,在生成的页面当中可以抓到每个商品的一些信息。比如这个商品
S999纯银项链女锁骨四叶草吊坠简约饰品生日韩版情,可以抓到
category=50013865, nid=555713693267
其中nid就是商品的ID,category应该就是淘宝的类目ID。在网上能找到的淘宝类目大全中能够查到这个category数字代表的就是“项链”的三级类目。(貌似类目总共有5级)

2.. 同时,在淘宝分类列表(list.taobao.com)可以点击一些类目词进入列表页面,比如项链的就是
https://s.taobao.com/list?spm=a21bo.7723600.8575.3.6ad85ec9xbbFqU&q=%E9%A1%B9%E9%93%BE&cat=50015926%2C1705%2C50005700%2C28&style=grid&seller_type=taobao
_其中有cat的值:50015926,1705,50005700,28。
看着URL的形式,感觉这个应该也是类目值。然而如果拿这几个数字在列表文件中查,1个都找不到。
反之,如果把这个url的cat部分改成cat=50013865,也就是上面找到的属性,出现的页面却会是“筛选条件加的太多啦,未找到与“项链”相关宝贝”。

3..所以判断搜索页面中找到的category的数字,和这个url中的cat的数字,不是一个域下面的数字,虽然看上去都是cat,而且也很像。亦或是这个数字做了处理?

因为搜索结果里面很乱,比如搜项链还会搜出来衣服,所以希望用限制cat的方式来进行数据获取。

请问有同学了解这个url的cat参数该如何处理吗?谢谢

4个回答

能不能展开说一说什么叫生成一个URL, 譬如URL是不是代理生成的。

对于一个页面,收录多个url是不利的。1. 做301重定向,选好其中一个形式使用,并把其他的重定向到这个上面2. 使用canonical属性规范url (只对Google有用) 格式: 3. 做伪静态4. 在站内、站外的链接全部统一一种形式

后面的是时间戳,中间小数点的是ip,还有两个不知道

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问