CVPR2021 Oral | HOTR:不再需要后处理!Kakao Brain提出端到端Human-Object交互检测模型

论文链接:https://arxiv.org/abs/2104.13682
项目链接:https://github.com/kakaobrain/HOTR

01
首先,直接的集合预测使HOTR能够消除手工设计的后处理阶段 。本文的模型以一种端到端方式训练,通过与Ground-Truth的<人,物体,互动>集合的匹配预测损失函数来优化模型。 其次,Transformer的自注意机制使该模型利用了人和对象之间的上下文关系以及它们的交互作用 ,从而使得本文的模型更适用于复杂的场景理解。

02
2.1. Detection as Set Prediction
Object Detection as Set Prediction
HOI Detection as Set Prediction
2.2. HOTR architecture

Transformer Encoder-Decoder architecture

在直接回归方法中,相同对象的定位因交互的不同会存在不同 。本文的结构通过使用单独的实例和交互表示并使用HO指针将它们关联起来来解决这个问题。 此外,本文的结构允许更有效地学习目标和人的定位,而无需在每次交互中重复学习定位 。
HO Pointers


Recomposition for HOI Set Prediction

2.3. Training HOTR
Hungarian Matching for HOI Detection



Final Set Prediction Loss for HOTR


Defining No-Interaction with HOTR
03
3.1. Quantitative Analysis


3.2. Ablation Study

With vs Without HO Pointers
Shared Encoder vs Separate Encoders
With vs Without Interactiveness Suppression
04

END
赞 (0)
