Jonathan Malmaud, Jonathan Huang, Vivek Rathod,
Nick Johnston, Andrew Rabinovich, and Kevin
Murphy
発表者: 塩田健人
1
u  人間の知識は宣言的知識ベースに言及されていない手
続き的な情報も含まれる
u  宣言的知識
u  言葉で説明できるような知識「AはBである」「AならばBである」などの形
で表現される
u  手続き的知識
u  行為に関する知識(...
u  どんな問題を解いたか?
u  「テキストや言葉」と「ビデオの内容」を結合させる
u  自動的に手続き的知識から多様なDBを作る
u  どうやって解いたか?
u  文章のレシピを構文解析してbag-of-wordsの素
性ベクトル...
u  映像データ
u  You TubeでCooking, recipeとタグ付けされていて、英語の内
容のもの
7.4Mのうち調理法を解説しているもの6.2Mを使用
少なくとも1つの文と1つのレシピ文を
持っているビデオだけを選定:180...
u  構文木構造を分割する際に使った
u  動詞が無い句はノイズと見なされ、削除される
u  レシピと関連した成分の類似度を計算することによっ
て、正規化する
u  成分が類似していれば同じく扱われ、類似していなけれ
ば新たなものとして...
u  HMMを用いて語の対応するシーケンスにレシピの
各ステップを並べ替える
u  文章のレシピが映像に字幕のように同タイミングで流
れるようにする
u  ヴィタビアルゴリズムを用いてMAPシーケンスを推定
6
u  レシピの中のadd, flyなど調理で使われる動詞を探
し、その周りで起こったことを引き出す手法
u  keywordがいつ話されるかについて確認し、このま
わり8秒のビデオ・クリップを抜き出す
(言及されている行動の後6秒と前に2秒...
u  実験を続けていくうちにkeyword spottingによるラ
ベル付けが良くないと気づき、またHMMのrecallが
keyword spottingに比べ5倍も低い
u  Keyword spottingを行い、かつ対応するものを...
u  3人に「どれくらい映像と字幕があっているか」につい
て-1, 0, 1の3段階で評価
9
u  映像に解説テキストを並べる手法を提案した
u  提案手法は既存のkeyword spottingを用いた手法より
も上回った
u  提案手法を用いることによって自動的に映像を解説でき、
また映像の内容を文字で検索することが可能となる...
of 10

Naacl 読み会

NAACL読み会
Published on: Mar 3, 2016
Published in: Engineering      
Source: www.slideshare.net


Transcripts - Naacl 読み会

  • 1. Jonathan Malmaud, Jonathan Huang, Vivek Rathod, Nick Johnston, Andrew Rabinovich, and Kevin Murphy 発表者: 塩田健人 1
  • 2. u  人間の知識は宣言的知識ベースに言及されていない手 続き的な情報も含まれる u  宣言的知識 u  言葉で説明できるような知識「AはBである」「AならばBである」などの形 で表現される u  手続き的知識 u  行為に関する知識(タンゴの踊り方や車のタイヤ交換の方法など)反復 練習によって意識せずに行動ができる知識である。 u  手続き的知識を系統立てて検索するための知識ベース は人間が学習する上での援助となる 2
  • 3. u  どんな問題を解いたか? u  「テキストや言葉」と「ビデオの内容」を結合させる u  自動的に手続き的知識から多様なDBを作る u  どうやって解いたか? u  文章のレシピを構文解析してbag-of-wordsの素 性ベクトルの類似度を計算し、HMMで映像にあ うレシピの文を推定した 3
  • 4. u  映像データ u  You TubeでCooking, recipeとタグ付けされていて、英語の内 容のもの 7.4Mのうち調理法を解説しているもの6.2Mを使用 少なくとも1つの文と1つのレシピ文を 持っているビデオだけを選定:180,000動画がとれた u  ビデオに対応するレシピを抽出するために、ビデオの中に recipe, steps, cookなどのリンクが出てきたらリンクと同じ名前 について書かれている文章をその映像のレシピに加える 4
  • 5. u  構文木構造を分割する際に使った u  動詞が無い句はノイズと見なされ、削除される u  レシピと関連した成分の類似度を計算することによっ て、正規化する u  成分が類似していれば同じく扱われ、類似していなけれ ば新たなものとして扱われる 「トマトソースとパスタを混ぜる」 スパゲッティ(既知) = パスタ 「トマトソースとスパゲッティを混ぜる」 5
  • 6. u  HMMを用いて語の対応するシーケンスにレシピの 各ステップを並べ替える u  文章のレシピが映像に字幕のように同タイミングで流 れるようにする u  ヴィタビアルゴリズムを用いてMAPシーケンスを推定 6
  • 7. u  レシピの中のadd, flyなど調理で使われる動詞を探 し、その周りで起こったことを引き出す手法 u  keywordがいつ話されるかについて確認し、このま わり8秒のビデオ・クリップを抜き出す (言及されている行動の後6秒と前に2秒) 7
  • 8. u  実験を続けていくうちにkeyword spottingによるラ ベル付けが良くないと気づき、またHMMのrecallが keyword spottingに比べ5倍も低い u  Keyword spottingを行い、かつ対応するものを推 定するためにHMMアライメントも行う手法 8
  • 9. u  3人に「どれくらい映像と字幕があっているか」につい て-1, 0, 1の3段階で評価 9
  • 10. u  映像に解説テキストを並べる手法を提案した u  提案手法は既存のkeyword spottingを用いた手法より も上回った u  提案手法を用いることによって自動的に映像を解説でき、 また映像の内容を文字で検索することが可能となる u  視覚と言語を結合することは照応解決や語義曖昧性解 消などの今後の自然言語処理への貢献するだろう 10

Related Documents