Unsupervised Morphology
Induction Using Word
Embeddings
NAACL2015読み会 首都大学東京 小町研究室
2015/06/24 M1 北川善彬
Radu soricut, Franz O...
Abstract
• Word embedding を使って形態素の変換を見つける話
• 6個の異なる言語で改善を見せた
• 例: cars car と dogs dog の関係が似ているという直感
• 有名な King = man + Que...
Main contribution
1. 教師なしで形態素のルールを獲得する手法を提案
2. ルールを知られている単語に適用する仕組みを提案

例: boldly → bold + ly とか onlyには適用しなくて
大丈夫とか
3. ルール...
形態素の変換の主な流れ
• 今回の論文では他の形態素の変換は考えていなくてこの2つ
の主な形態素の変換を考える
• 形態素の変換は4つのステージに分けて行う
1. 語彙(V)から prefix/suffix の候補を選択
2. Word embedd...
形態素の変換の主な流れ
• 今回の論文では他の形態素の変換は考えていなくてこの2つ
の主な形態素の変換を考える
• 形態素の変換は4つのステージに分けて行う
1. 語彙(V)から prefix/suffix の候補を選択
2. Word embedd...
1. 語彙(V)から prefix/
suffix の候補を選択
• 語彙から2つのペアの組みあわせを考え可能な全て
のペアを候補として抽出
• 候補は type: from: to の 3つ組で考える

例: suffix: ed: ing だったら ...
形態素の変換の主な流れ
• 今回の論文では他の形態素の変換は考えていなくてこの2つ
の主な形態素の変換を考える
• 形態素の変換は4つのステージに分けて行う
1. 語彙(V)から prefix/suffix の候補を選択
2. Word embedd...
2. Word embedding のトレーニング
• これは word2vec を使用してトレーニングしている (https://
code.google.com/p/word2vec/)(ほんのちょっと違うらしい)
• 例: 入力: fra...
形態素の変換の主な流れ
• 今回の論文では他の形態素の変換は考えていなくてこの2つ
の主な形態素の変換を考える
• 形態素の変換は4つのステージに分けて行う
1. 語彙(V)から prefix/suffix の候補を選択
2. Word embedd...
3. 候補として出てきたルールの質を評価(1/2)
• 候補を以下のように表現:
• ここから十分な数だけサンプリング 1000

1000個とれば prefix/suffix 変換が網羅できるのだろう
• 評価関数を作成する単純に類似度をとってラン...
3. 候補として出てきたルールの質を評価 (2/2)
• 候補の評価例
• 意味のある変換は

高いhit rate

例(suffix: ed: ing)

過去/今 の意味をもつ
• 意味のない変換は

低いhit rate
11
形態素の変換の主な流れ
• 今回の論文では他の形態素の変換は考えていなくてこの2つ
の主な形態素の変換を考える
• 形態素の変換は4つのステージに分けて行う
1. 語彙(V)から prefix/suffix の候補を選択
2. Word embedd...
4. 形態素の変換の生成
• only を on にするような変換は避けたい

(hit rate 32% なら 68% は避けたい)
• 2つの閾値(r, c)を使って避ける

rank = 30 and cos類似度 = 0.5
13
node: w, edge: 重み(r, c)で
グラフを書くと
• 綺麗なグラフが
かける
• 同じ矢印が2本あ
るのは同じ変換
でも意味の違う
変換があるから
(ここでは最大2
本としている)

例: 

複数形の s 

三単現の s
ルールを作ってグラフを1:1
にマッピングすると
• ルールを自分で決めるこ
とで欲しいグラフができ
る
• 正規化へ向かう流れに近
い(もしそうな
ら create が一番下が良
い)
• これはもっともよく使わ
れる created へのマ...
これを使ってRare wordにア
プローチ
• さっき示した1:1のグラフから変換ルールの系列 sを獲得(グラフの
下から上に るようなやつ)
1. 適用できる系列 s があればそれを適用
2. 適用できる系列 s がなければ以下のようにする...
Results(6言語で比較)
• SG: skip-gram SG+morph: 提案手法
• LSM2013, BB2014: 先行研究
• DEのZGテストセットを除くすべてのテストセットで提案手法が優
位
17
Conclusion
• 教師なしで形態素を見つける手法を提案した
• 必要なのは単言語のコーパスのみ(word
embedding の学習のため)
• 提案手法で多様な language family を発見できた
• スタンフォードのリッチ...
of 18

Naacl2015unsupervised morph

首都大学東京 小町研究室 NAACL読み会2015 北川善彬 @Ace1235813
Published on: Mar 3, 2016
Published in: Technology      
Source: www.slideshare.net


Transcripts - Naacl2015unsupervised morph

  • 1. Unsupervised Morphology Induction Using Word Embeddings NAACL2015読み会 首都大学東京 小町研究室 2015/06/24 M1 北川善彬 Radu soricut, Franz Och
  • 2. Abstract • Word embedding を使って形態素の変換を見つける話 • 6個の異なる言語で改善を見せた • 例: cars car と dogs dog の関係が似ているという直感 • 有名な King = man + Queen - women の形態素verみたいな感じ • つまり cars = car + dogs - dog 2 dog dogs car cars dogs - dog dogs - dog
  • 3. Main contribution 1. 教師なしで形態素のルールを獲得する手法を提案 2. ルールを知られている単語に適用する仕組みを提案
 例: boldly → bold + ly とか onlyには適用しなくて 大丈夫とか 3. ルールを未知、あるいは低頻度の単語に適用する仕 組みを提案
 3
  • 4. 形態素の変換の主な流れ • 今回の論文では他の形態素の変換は考えていなくてこの2つ の主な形態素の変換を考える • 形態素の変換は4つのステージに分けて行う 1. 語彙(V)から prefix/suffix の候補を選択 2. Word embedding のトレーニング 3. 候補として出てきたルールの質を評価 4. 形態素の変換の生成 4
  • 5. 形態素の変換の主な流れ • 今回の論文では他の形態素の変換は考えていなくてこの2つ の主な形態素の変換を考える • 形態素の変換は4つのステージに分けて行う 1. 語彙(V)から prefix/suffix の候補を選択 2. Word embedding のトレーニング 3. 候補として出てきたルールの質を評価 4. 形態素の変換の生成 5
  • 6. 1. 語彙(V)から prefix/ suffix の候補を選択 • 語彙から2つのペアの組みあわせを考え可能な全て のペアを候補として抽出 • 候補は type: from: to の 3つ組で考える
 例: suffix: ed: ing だったら (bored,borring) • この候補の中には正しくないルールも含まれる
 例: prefix: S: ε (Scream, cream), (Scope, cope)
 3. 候補として出てきたルールの質を評価 で取り除く 6
  • 7. 形態素の変換の主な流れ • 今回の論文では他の形態素の変換は考えていなくてこの2つ の主な形態素の変換を考える • 形態素の変換は4つのステージに分けて行う 1. 語彙(V)から prefix/suffix の候補を選択 2. Word embedding のトレーニング 3. 候補として出てきたルールの質を評価 4. 形態素の変換の生成 7
  • 8. 2. Word embedding のトレーニング • これは word2vec を使用してトレーニングしている (https:// code.google.com/p/word2vec/)(ほんのちょっと違うらしい) • 例: 入力: france これは単なるcos類似度の近い単語を探す例 8
  • 9. 形態素の変換の主な流れ • 今回の論文では他の形態素の変換は考えていなくてこの2つ の主な形態素の変換を考える • 形態素の変換は4つのステージに分けて行う 1. 語彙(V)から prefix/suffix の候補を選択 2. Word embedding のトレーニング 3. 候補として出てきたルールの質を評価 4. 形態素の変換の生成 9
  • 10. 3. 候補として出てきたルールの質を評価(1/2) • 候補を以下のように表現: • ここから十分な数だけサンプリング 1000
 1000個とれば prefix/suffix 変換が網羅できるのだろう • 評価関数を作成する単純に類似度をとってランクを出す関数: • それぞれの(1)のスコアが100(事前に決めた閾値)以下である率: hit rate 10
  • 11. 3. 候補として出てきたルールの質を評価 (2/2) • 候補の評価例 • 意味のある変換は
 高いhit rate
 例(suffix: ed: ing)
 過去/今 の意味をもつ • 意味のない変換は
 低いhit rate 11
  • 12. 形態素の変換の主な流れ • 今回の論文では他の形態素の変換は考えていなくてこの2つ の主な形態素の変換を考える • 形態素の変換は4つのステージに分けて行う 1. 語彙(V)から prefix/suffix の候補を選択 2. Word embedding のトレーニング 3. 候補として出てきたルールの質を評価 4. 形態素の変換の生成 12
  • 13. 4. 形態素の変換の生成 • only を on にするような変換は避けたい
 (hit rate 32% なら 68% は避けたい) • 2つの閾値(r, c)を使って避ける
 rank = 30 and cos類似度 = 0.5 13
  • 14. node: w, edge: 重み(r, c)で グラフを書くと • 綺麗なグラフが かける • 同じ矢印が2本あ るのは同じ変換 でも意味の違う 変換があるから (ここでは最大2 本としている)
 例: 
 複数形の s 
 三単現の s
  • 15. ルールを作ってグラフを1:1 にマッピングすると • ルールを自分で決めるこ とで欲しいグラフができ る • 正規化へ向かう流れに近 い(もしそうな ら create が一番下が良 い) • これはもっともよく使わ れる created へのマッ ピング 15
  • 16. これを使ってRare wordにア プローチ • さっき示した1:1のグラフから変換ルールの系列 sを獲得(グラフの 下から上に るようなやつ) 1. 適用できる系列 s があればそれを適用 2. 適用できる系列 s がなければ以下のようにする (d=1で事前に定義) 16 • 例: 系列が s=prefix : un : ε, suffix : ness : ε なら
 unassertiveness → assertive. s
  • 17. Results(6言語で比較) • SG: skip-gram SG+morph: 提案手法 • LSM2013, BB2014: 先行研究 • DEのZGテストセットを除くすべてのテストセットで提案手法が優 位 17
  • 18. Conclusion • 教師なしで形態素を見つける手法を提案した • 必要なのは単言語のコーパスのみ(word embedding の学習のため) • 提案手法で多様な language family を発見できた • スタンフォードのリッチなのRare-word dataset において stage-of-the-art の結果を改善した 18

Related Documents