JEMC
Last updated
Last updated
๋ฆฌ๋ทฐํ paper๋ Learning Joint Embedding with Multimodal Cues for Cross-Modal Video-Text Retrieval ์ ๋๋ค. ๋ ผ๋ฌธ์์ ์ ์ํ JEMC๋ Video Retrieval on MSR-VTT์ ํ์ 4์์ rank๋์ด ์์ต๋๋ค.
cross-modal video-text retrieval task์์, ํ์ต์ video feature์ text feature๋ฅผ ํ๋์ space์ projectํ๋ ๋ฐฉ์์ผ๋ก ์ด๋ฃจ์ด ์ง๋๋ค. ์ด๋, video์ ํฌํจ๋ ๋ค์ํ feature (actions , objects, place, time)๋ค์ ์ผ๋ง๋ ์ ํ์ฉํ๋์ง๊ฐ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฒฐ์ ํ๋ ์ค์ํ ์์์ ๋๋ค. video์์ objects(ResNet), activities(I3D) feature๋ฅผ ์ถ์ถํ๋ ๋ฐฉ๋ฒ๋ค์ ๋ง์ด ๊ฐ๋ฐ๋์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ feature๋ค์ ํจ์จ์ ์ผ๋ก fustionํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ฐฉ๋ฒ์ contribution์ ํฌ๊ฒ ์๋ 2๊ฐ์ง ์ ๋๋ค.
acttion, object, text, audio features๋ฅผ fusionํ ์ ์๋ architecture
hinge based triplet loss๋ฅผ ๊ธฐ๋ฐ์ผ๋กํ, ranking loss function
paper: Contributions: The main contributions of this work can be summarized as follows. โข The success of video-text retrieval depends on more robust video understanding. This paper studies how to achieve the goal by utilizing multi-modal features from a video (different visual features and audio inputs.). โข Our proposed framework uses action, object, text and audio features by a fusion strategy for efficient retrieval. We also present a modified pairwise loss to better learn the joint embedding. โข We demonstrate a clear improvement over the state-of-the-art methods in the video to text retrieval tasks with the MSR-VTT dataset [35] and MSVD dataset [4].
์ฃผ๋ก loss function์ ๋ํ related work์ ๋ถ์ํ์์ต๋๋ค. ์๋ก ๋ค๋ฅธ feature๋ค์ ํ๋์ space๋ก projectํ๋๋ก ํ์ตํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก, hinge based triplet loss๊ฐ ๋ง์ด ์ฌ์ฉ๋์์ต๋๋ค. ์ฌ๊ธฐ์ ์ถ๊ฐ์ ์ผ๋ก ์๋์ ๊ฐ์ ๋ฐฉ๋ฒ์ด ์ฌ์ฉ๋์์ต๋๋ค.
sample์ ranking์ ์ถ๊ฐ๋ก ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ[1]
closest negative sample๋ง ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ[2]
triplet loss์ ๊ฐ๋ ๊ณผ closest negative sample๋ง์ ์ฌ์ฉํ๋ VSEPP[2]๊ฐ ์ด๋ป๊ฒ ์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์๋ ์ง๋ ์๋ ๊ทธ๋ฆผ์ ํตํด ์ ์ ์์ต๋๋ค.
์ด์ ๋ฐฉ๋ฒ๋ค์์๋ Video์์ ์ถ์ถํ ์ ์๋ ์ฌ๋ฌ feature๋ค์ด ์ ํ ์ ์ผ๋ก ์ฌ์ฉ๋์๋ค๋ ๋ด์ฉ์ด ์ฃผ๋ก ๋์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ์ ์ฒด architecture๋ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ต๋๋ค.
input (video, text)์์ text, activity, object, audio feature๋ฅผ ๊ฐ๊ฐ์ model์ ์ฌ์ฉํด์ ์ถ์ถํฉ๋๋ค. ์ถ์ถ๋ feature๋ค์ 2๊ฐ์ joint space(ObjectText Space, Activity-Text Space)์ projectํ์ฌ, sentence์ video์ similarity score๋ฅผ ๊ตฌํฉ๋๋ค. ์ด๋, ๊ฐ joint space๋ ์ ์ํ๋ Ranking loss๋ฅผ ์ฌ์ฉํ์ฌ ํ์ตํฉ๋๋ค.
ObjectText Space = text(GRU) + object(Resnet152)
Activity-Text Space = text(GRU) + [activity(I3D), audio feature(Sound Net)]
๊ฐ joint space์์ ๊ตฌํด์ง similarity scores ๋ํด์ ธ ์ต์ข ranking์ ๊ตฌํฉ๋๋ค.\
๊ฐ feature๋ฅผ ์ถ์ถํ๋ ๋ฐฉ๋ฒ์ ์๋์ ๊ฐ์ต๋๋ค.
Text Feature:
model: GRU
input: word embedding (D=300)
end-to-end ํ์ต
Object Feature:
model: Resnet152
input: image (224 x 224)
embedding size = 2048
use pre-trained model (ImageNet dataset)
Activity Feature:
model: I3D
input: use 16 frame images
embedding size = 1024
use pre-trained model (RGB-I3D model)
Audio Feature:
model: SoundNet CNN
embedding size = 1024
use pre-trained model
joint space๋ก์ project๋ฅผ ์ํด ์ฌ์ฉํ, ranking loss function์ ๋ํด์ ์ค๋ช ํ๋ session์ ๋๋ค. ์์์์ ๋์ค๋ ๋ณ์๋ค์
$v$
: video feature๋ฅผ joint space์ embeddingํ vectore
$t$
: text feature๋ฅผ joint space์ embeddingํ vectore
$v^-, t^-$
: negarive sample์์ non-matching vectore
$s(v,t)$
: positive sample์ score
$s(v,t^-) or s(v^-,t)$
: negative sample์ score
$\hat{v}, \hat{t}$
: hardest negative sample
hinge based triplet loss์ ์ฌ์ฉํ ์์์ ์๋์ ๊ฐ์ต๋๋ค. ์ฌ๊ธฐ์ $[f]_+ = max(f,0)$
์
๋๋ค.
๋ชจ๋ negative samples์ ๋ํด optimize๋ฅผ ์งํํ๋ฏ๋ก, local minimun์ ๋น ์ง๊ธฐ ์ฝ์ต๋๋ค. $$ \min_ฮธ \sum_v \sum_{t^-} [ฮฑ โ S(v, t) + S(v, t^-)]_+ + \sum_t \sum_{v^โ} [ฮฑ โ S(t, v) + S(t, v^-)]_+\\ $$
closest negative sample๋ง์ ์ฌ์ฉํ๋ VSEPP[2]์ ์์์ ์๋์ ๊ฐ์ต๋๋ค. negative sample๋ค์ค ๊ฐ์ฅ similarity๊ฐ ๋์ sample์ ๋ํด์๋ง ๊ณ์ฐํฉ๋๋ค. $$ \min_ฮธ \sum_v [ฮฑ โ S(v, t) + S(v, \hat{t})]_+ + \sum_t [ฮฑ โ S(t, v) + S(t, \hat{v})]_+\\ $$
๋ณธ ๋
ผ๋ฌธ์์๋ VSEPP์ weighted ranking์ ๊ฒฐํฉํ ๋ฐฉ์์ ์ ์ํ์์ต๋๋ค. ์์์ ์๋์ ๊ฐ์ต๋๋ค. $$ \min_ฮธ \sum_v L(r_v) [ฮฑ โ S(v, t) + S(v, \hat{t})]_+ + \sum_t L(r_t) [ฮฑ โ S(t, v) + S(t, \hat{v})]_+\\ L(r_v)=(1 + 1/(N-r_v+1))\\ r_v = rank\ of\ (v,t) $$
์ด ranking์ Object-Text space์ Activity-Text space์ similirity score ํฉ์ผ๋ก ๊ฒฐ์ ๋ฉ๋๋ค.
์คํ์๋ Video to Text(MSR-VTT) dataset๊ณผ Microsoft Video Description(MSVD) dataset์ด ์ฌ์ฉ๋์์ต๋๋ค.
hyperparameter
batch size = 128
learning rate = 0.002 (/10 per 15 epochs)
ADAM optimizer
empirically choose margine ฮฑ = 0.2
Evaluated on the validation set after every epoch. The model with the best sum of recalls on the validation set is chosen finally.
์คํ ์ค๋ช
#1.1 Performance of loss function
#1.2 Performance of different features
#1.3 Performance of direct concatenation of different video features
#1.4 Performance of one shared aligned space (using image-text and image-sound pairs loss)
#1.5 Performance of two video-text spaces
๊ฒฐ๊ณผ ๋ถ์
Loss Function:
์ ๋ฐ์ ์ผ๋ก ์ ์ํ weighted ranking loss > VSEPP > VSE์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
MeanRank์์ VSE๊ฐ ์ฑ๋ฅ์ด ์๋์ค๊ธฐ๋ ํ๋๋ฐ์. ์ด๋ VSE๊ฐ ๋ชจ๋ sample์ optimizeํ๋ ค๋ ํน์ง์ด ์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค.
Video Features:
Audio ๋จ๋ ์ผ๋ก ์ฌ์ฉ์ ๋งค์ฐ ๋ฎ์ performance๋ฅผ ๋ณด์ ๋๋ค.
Audio๋ฅผ ๋ค๋ฅธ feature์ ๊ฐ์ด ์ฌ์ฉํ๋ฉด ์ฑ๋ฅ์ ์ ์๋ฏธํ ์ฐจ์ด๋ฅผ ๋ณด์ ๋๋ค.
Feature Concatenation for Representing Video:
multi video feature๋ค์ ๋จ์ํ concat์ ์คํ๋ ค single feature๋ฅผ ์ฌ์ฉํ ๋๋ณด๋ค ์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
์ด๋ฅผ ํตํด, ์๋ก ๋ค๋ฅธ ์ฑ์ง์ feature๋ฅผ concateํ๋ ๊ฒ์ ์คํ๋ ค ์ ์ข๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.
Learning a Shared Space across Image, Text and Audio:
๋จ์ concat์ด ์๋ pair wise loss๋ฅผ ์ฌ์ฉํ์ฌ, ํ๋์ space์ projectํ์ฌ๋ ์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
3๊ฐ์ feature๋ฅผ ํ๋์ space์ projectํ๋ ๋ฐฉ์์ด model์ flexibility๋ฅผ ๋ ์ค ์ ์์ง๋ง, ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ ๋ณต์กํ task๊ฐ ๋์ด ์ฑ๋ฅ ์ต์ ํ๋ฅผ ์ํ ์ข์ ๋ฐฉ๋ฒ์ ์๋๋ผ๊ณ ๊ฒฐ๋ก ์ง์ต๋๋ค.
Fusion:
Audio feature๋ฅผ ์ถ๊ฐ๋ก ์ฌ์ฉํ ๊ฒฝ์ฐ, ์ ์๋ฏธํ ์ฑ๋ฅ๊ฐ์ ์ ๋ณด์ ๋๋ค.
ํ์ง๋ง main feature๋ผ๊ณ ๋ณผ ์๋ ์๊ธฐ ๋๋ฌธ์, model์์ ๋ณ๋์ space๋ฅผ ๋ถ์ฌํ์ง๋ ์์์ต๋๋ค.
Table2,3์ MSVD Dataset์ ์ฌ์ฉํ ๊ฒฐ๊ณผ์ ๋๋ค. MSVD Dataset์ mute dataset์ ๋๋ค. ๊ฒฐ๋ก ์ ์ผ๋ก ์ ์ํ๋ ๋ฐฉ๋ฒ์ด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ cross-modal video-text retrivel ์ ์ํ, ์ฌ๋ฌ video feature๋ค๊ณผ audio feature๋ฅผ joint embeddingํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์์ต๋๋ค. ๋ํ ํจ์จ์ ์ธ ํ์ต์ ์ํ์ฌ, loss function์ weighted ranking์ ๊ฒฐํฉํ ๋ฐฉ๋ฒ์ ์ ์ํ์์ต๋๋ค. ์ด๋ฅผ ํตํด์, 2๊ฐ์ง dataset์์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
Table1๋ MSR-VTT Dataset๋ฅผ ์ฌ์ฉํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ ์ค๋๋ค. Ablation Studies๋ ๊ฐ์ด ๋์ ์์ต๋๋ค.