想要问问各位如何实现这样的一个图像检测目标就是同时检测出行人和手提袋。然后如何能够将每个行人和该行人携带的手提袋一一对应起来并输出呢?(RGB-D 数据)现阶段可以通过算法估计手提袋与行人的位置关系来做出判断。但有没有更简便的方法呢?最好通过深度学习工具对行人和手提袋的关系直接训练模型。在后续的检测过程中直接通过模型做出判断。希望给与回答。最好有相关的论文和代码。
收起
如何认为这种方案不可行的话也请告知
报告相同问题?