reffud 2018-07-01 15:55 采纳率: 0%
浏览 1985
已结题

淘宝列表URL中的cat参数怎么搞?

项目需要,需要去淘宝抓几页搜索结果进行分析。但是对于搜索的URL中的cat参数完全找不出规律。

举个例子:
1.. 我生成一个URL
https://s.taobao.com/search?q=项链&s=0 ,在生成的页面当中可以抓到每个商品的一些信息。比如这个商品
S999纯银项链女锁骨四叶草吊坠简约饰品生日韩版情,可以抓到
category=50013865, nid=555713693267
其中nid就是商品的ID,category应该就是淘宝的类目ID。在网上能找到的淘宝类目大全中能够查到这个category数字代表的就是“项链”的三级类目。(貌似类目总共有5级)

2.. 同时,在淘宝分类列表(list.taobao.com)可以点击一些类目词进入列表页面,比如项链的就是
https://s.taobao.com/list?spm=a21bo.7723600.8575.3.6ad85ec9xbbFqU&q=%E9%A1%B9%E9%93%BE&cat=50015926%2C1705%2C50005700%2C28&style=grid&seller_type=taobao
_其中有cat的值:50015926,1705,50005700,28。
看着URL的形式,感觉这个应该也是类目值。然而如果拿这几个数字在列表文件中查,1个都找不到。
反之,如果把这个url的cat部分改成cat=50013865,也就是上面找到的属性,出现的页面却会是“筛选条件加的太多啦,未找到与“项链”相关宝贝”。

3..所以判断搜索页面中找到的category的数字,和这个url中的cat的数字,不是一个域下面的数字,虽然看上去都是cat,而且也很像。亦或是这个数字做了处理?

因为搜索结果里面很乱,比如搜项链还会搜出来衣服,所以希望用限制cat的方式来进行数据获取。

请问有同学了解这个url的cat参数该如何处理吗?谢谢

  • 写回答

4条回答 默认 最新

  • 毛线一团 2018-07-01 16:23
    关注

    能不能展开说一说什么叫生成一个URL, 譬如URL是不是代理生成的。

    评论

报告相同问题?

悬赏问题

  • ¥15 MATLAB动图问题
  • ¥15 【提问】基于Invest的水源涵养
  • ¥20 微信网友居然可以通过vx号找到我绑的手机号
  • ¥15 寻一个支付宝扫码远程授权登录的软件助手app
  • ¥15 解riccati方程组
  • ¥15 display:none;样式在嵌套结构中的已设置了display样式的元素上不起作用?
  • ¥15 使用rabbitMQ 消息队列作为url源进行多线程爬取时,总有几个url没有处理的问题。
  • ¥15 Ubuntu在安装序列比对软件STAR时出现报错如何解决
  • ¥50 树莓派安卓APK系统签名
  • ¥65 汇编语言除法溢出问题