水中小型ヒューマノイドロボットの 立位姿勢における移動行動学習 Adaptive Underwater Locomotive for Small Humanoid Robot with Standing Posture
複雑系工学講座 調和系...
背景
課題
水中環境がロボットに与える影響
•重量・浮量バランスの調整が必要
•正確なセンサ計測が困難
•流れの変化による外乱が大きく移動制御が困難
多数アクチュエータに対しての制御目標量の多様性
水中ロボットのアプリケーショ...
目的
小型ヒューマノイドロボットによる水中移動行動の実現
•水中ヒューマノイドロボットモデルの立案
•水中ロボットシステムの作成
•水中小型ヒューマノイドロボットによる行動の実現
水中ヒューマノイドロボットモデル
f Mv OW  BGT  F
運動方程式
M
W
B
G
T
F
重心周りに働く慣性力によるモーメント
G C G C n  ( p  p ) f  n
C n ...
ロボットの浮力設定
•ロボット本体:1.3kg
•ダイバースーツ:0.6kg
•重り1.0kg×4
本体質量m:5.9kg
•スーツ容量V :4.7l 浮量ρV:4.8kg
水中質量:1.1kg
G G p ,n
C p F
...
ロボットシステムアーキテクチャ
AD変換ボード
ホスト PC
駆動部
内界センサ
制御部
加速度 データ
モータ駆動 コマンド
制御 信号
センサ電圧
防水スーツ
manoi-AT01
•高さ:34cm
•17自由度 ...
動作環境
高さ 600mm
幅1200mm
奥行600mm
カメラセンサ
PC・A/Dボードと の接続ケーブル
安定化電源との 接続ケーブル
水槽環境
水中立位姿勢
位置座標・ヨー角検出用マーカー
ロボットが全身運動を実現可...
ロボットの運動
手の動作 足の動作
四肢が独立して持つ発振器と目標関節角度により運動パターンを生成
θ=0
ω Θ=0
π
π/2
3π/2
ω
π/2
π
3π/2
•発振器ダイナミクス: (T  0.3[sec])...
実験
手法:強化学習
目的:立位姿勢における移動行動の実現
手法:フィードバック制御
目的:移動行動の際の全身動作の検証
四肢を使った行動をQ学習により実現
実験2
実験1
目的:固定パターン動作に基づく運動による移動行動検証 ...
実験1 PD制御による移動行動実現
T
d t d t T
m t KP d t KD
T
d t d t T
m t KP d t KD x x
x x x x

  
 

  
 
( ...
PD制御結果
xy平面上の移動軌跡
Xの時間推移
θの時間推移
2地点間移動行動を実現
3試行の結果
実験2 強化学習による移動行動実現
•発振器固有振動数(大小):
T T



 2
1
4 ,
1
 
    D D 0,
行動状態数(全身)
2 ( 4096) 3 4   状態
n ...
ゴールとロボット距離d(2段階)
ゴールとロボットの相対角度θ(3段階)
•遠距離領域:d > 250mm
•近距離領域:d < 250mm
•中央 :-PI/16 < θ < PI/16
•左 :θ < -PI/16
•右 :θ ...
強化学習(Q学習)
Q(s, a) <- Q(s, a) + α[r + γmax a’ Q(s’, a’) – Q(s, a) ]
状態 s ∈ S, 行動 a ∈ A, 報酬 r
Q値更新式
α=0.1,γ=0.8
報酬 ゴール地...
強化学習による獲得行動
78エピソード 経過後の結果
四肢の行動(横軸)毎にQ値についてソート
遠方右にゴール
状態:遠方左にゴール
行動:右向きに旋回
状態:遠方中央にゴール 行動:直進
状態:近辺右にゴール 行動:右向きに旋回...
強化学習実験結果
学習前後で観測された状態-行動の回数
(初期) エピソード1~5合計
エピソード74~78合計
左手
右手
右足
左足
左手
右手
右足
左足
角速度大
四肢ともほぼ同じ動作パターン
環境状態毎に様...
学習中における指標推移
ゴール到達ステップ数の時間推移 (タスクを成功したエピソード)
タスク成功率 (直近10試行の移動平均)
学習進行に伴うタスク成功率の低下
•状態空間の分割が適切でない可能性
•報酬の与え方が適切でない可能性 ...
まとめ
•水中小型ヒューマノイドロボットシステムの構築を行った
•水中立位姿勢におけるロボットの移動行動を検証した
強化学習の結果,全身動作によりに移動する行動が見られた
PD制御により,ロボットによる2地点間の移動行動を実現した
•...
行動の様子
強化学習79エピソード目
移動軌跡(xy平面)
13ステップ(31[sec])でゴール達成
START
GOAL
of 19

nakabayasi m

Published on: Mar 3, 2016
Source: www.slideshare.net


Transcripts - nakabayasi m

  • 1. 水中小型ヒューマノイドロボットの 立位姿勢における移動行動学習 Adaptive Underwater Locomotive for Small Humanoid Robot with Standing Posture 複雑系工学講座 調和系工学研究室 修士課程2年 中林 佑太
  • 2. 背景 課題 水中環境がロボットに与える影響 •重量・浮量バランスの調整が必要 •正確なセンサ計測が困難 •流れの変化による外乱が大きく移動制御が困難 多数アクチュエータに対しての制御目標量の多様性 水中ロボットのアプリケーション 漁業における作業代替・補助 港湾における点検保守 宇宙空間における作業の検証[08 F.Diot et al,ESA] ダイバーロボット構想 [04 金岡 他] 要求 多自由度アームによる多様な全身運動の実現 極限環境下における作業代替 ヒューマノイドロボットのような形状 [浦 他]
  • 3. 目的 小型ヒューマノイドロボットによる水中移動行動の実現 •水中ヒューマノイドロボットモデルの立案 •水中ロボットシステムの作成 •水中小型ヒューマノイドロボットによる行動の実現
  • 4. 水中ヒューマノイドロボットモデル f Mv OW  BGT  F 運動方程式 M W B G T F 重心周りに働く慣性力によるモーメント G C G C n  ( p  p ) f  n C n G p 重心位置 系全体の力がかかる位置 環境から受ける 周りのモーメント C p C p 質量 波浪による力 抵抗力 浮力 重力・遠心力・コリオリの力 接地面から受ける力 全身動作による推進力 G G p ,n C p c f n B  0を満たす領域で  0 G n を目標とする動作を実現 水中ヒューマノイドロボットの動作 O
  • 5. ロボットの浮力設定 •ロボット本体:1.3kg •ダイバースーツ:0.6kg •重り1.0kg×4 本体質量m:5.9kg •スーツ容量V :4.7l 浮量ρV:4.8kg 水中質量:1.1kg G G p ,n C p F c n G G p ,n C p F c n G G p ,n C p c F n T B  0T  0 を満たす領域で  0 G n を目標とする動作を実現する f f f 水中ヒューマノイドロボットモデル 適切な質量・重心位置の調整が必要 対象領域 T>0 今回は O
  • 6. ロボットシステムアーキテクチャ AD変換ボード ホスト PC 駆動部 内界センサ 制御部 加速度 データ モータ駆動 コマンド 制御 信号 センサ電圧 防水スーツ manoi-AT01 •高さ:34cm •17自由度 外界センサ 制御 ボード 3軸加速度 センサ カメラ センサ 画像 データ ヒューマノイドロボット:有索での遠隔操作により動作(ROV) 水中ヒューマノイドロボット
  • 7. 動作環境 高さ 600mm 幅1200mm 奥行600mm カメラセンサ PC・A/Dボードと の接続ケーブル 安定化電源との 接続ケーブル 水槽環境 水中立位姿勢 位置座標・ヨー角検出用マーカー ロボットが全身運動を実現可能な広さと深さの水槽環境
  • 8. ロボットの運動 手の動作 足の動作 四肢が独立して持つ発振器と目標関節角度により運動パターンを生成 θ=0 ω Θ=0 π π/2 3π/2 ω π/2 π 3π/2 •発振器ダイナミクス: (T  0.3[sec]) D  (t)  iT  (i  0,1,2,,7) 発振器 発振器 n arm t i n i q m t q max •手足の目標関節角:  ( ) m (t) :操作量(サーボモータ番号n 1,2,3,,16) arm
  • 9. 実験 手法:強化学習 目的:立位姿勢における移動行動の実現 手法:フィードバック制御 目的:移動行動の際の全身動作の検証 四肢を使った行動をQ学習により実現 実験2 実験1 目的:固定パターン動作に基づく運動による移動行動検証 2地点間移動タスクによる検証
  • 10. 実験1 PD制御による移動行動実現 T d t d t T m t KP d t KD T d t d t T m t KP d t KD x x x x x x             ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )       X軸 : Θ軸 : : : : ΔT d(t) m(t) 微分項のパラメータ 比例項のパラメータ : : KD KP 手足毎の操作量 目標位置に対する偏差 サンプリング時間(1.2s) ( ) ( ) ( ) ( ) ( ) ( ) m t m t m t m t m t m t r x l x       制御目標(左右) 位置偏差と出力値の変化を考慮 ゴール地点 カメラの視野限界 θ X x y •発振器固有振動数: T   2 1   0,  0,  ,  0 D右手D左手D右足D左足     動作設定 n arm t i n i q m t q max  ( ) (サーボモータ番号n 1,2,3,,16) •発振器位相遅れ: •手足の目標関節角: 水槽底面xy平面
  • 11. PD制御結果 xy平面上の移動軌跡 Xの時間推移 θの時間推移 2地点間移動行動を実現 3試行の結果
  • 12. 実験2 強化学習による移動行動実現 •発振器固有振動数(大小): T T     2 1 4 , 1       D D 0, 行動状態数(全身) 2 ( 4096) 3 4   状態 n t i n n t i n i q q q q max i max , 2 1   (サーボモータ番号n 1,2,3,,16) •発振器位相遅れ(大小): •目標関節角(大小): 動作設定 動作状態数(各腕) 2 ( 8) 3  状態 車輪型ロボットによるサッカータスクに対してQ学習適用[浅田他]
  • 13. ゴールとロボット距離d(2段階) ゴールとロボットの相対角度θ(3段階) •遠距離領域:d > 250mm •近距離領域:d < 250mm •中央 :-PI/16 < θ < PI/16 •左 :θ < -PI/16 •右 :θ > PI/16 強化学習(環境状態) ゴール地点 (ゴール範囲) カメラの視野限界 θ d ロボットがカメラの視野範囲にある場合 ロボットがカメラの視野範囲にない場合 ゴール消失角度θ(3段階) 環境状態を9状態に分割 合計6状態 合計3状態 x y 近距離領域 遠距離領域 水槽底面xy平面 環境状態設定
  • 14. 強化学習(Q学習) Q(s, a) <- Q(s, a) + α[r + γmax a’ Q(s’, a’) – Q(s, a) ] 状態 s ∈ S, 行動 a ∈ A, 報酬 r Q値更新式 α=0.1,γ=0.8 報酬 ゴール地点到達(タスク成功)時 r=1.0/tstep (1tstep:2.4sec) ε(ε-greedy方策)=0.3 パラメータ 直接強化学習(Q学習)を適用 観測状態 s’ ∈ S, 行動 a ‘∈ A 1エピソード 初期位置からゴール領域に到達する あるいはタイムアウト時間T=180[sec]が経過するまで
  • 15. 強化学習による獲得行動 78エピソード 経過後の結果 四肢の行動(横軸)毎にQ値についてソート 遠方右にゴール 状態:遠方左にゴール 行動:右向きに旋回 状態:遠方中央にゴール 行動:直進 状態:近辺右にゴール 行動:右向きに旋回 状態:近辺左にゴール 行動:右向きに旋回 状態:近辺中央にゴール 行動:直進 Q値が収束に向かわないあるいは誤った行動に収束 •壁との衝突 •壁付近での水流の変化 が影響
  • 16. 強化学習実験結果 学習前後で観測された状態-行動の回数 (初期) エピソード1~5合計 エピソード74~78合計 左手 右手 右足 左足 左手 右手 右足 左足 角速度大 四肢ともほぼ同じ動作パターン 環境状態毎に様々な動作パターン を探索
  • 17. 学習中における指標推移 ゴール到達ステップ数の時間推移 (タスクを成功したエピソード) タスク成功率 (直近10試行の移動平均) 学習進行に伴うタスク成功率の低下 •状態空間の分割が適切でない可能性 •報酬の与え方が適切でない可能性 学習手法再検討の必要性 タスク達成時間平均:PID制御65[s],Q学習36[s]
  • 18. まとめ •水中小型ヒューマノイドロボットシステムの構築を行った •水中立位姿勢におけるロボットの移動行動を検証した 強化学習の結果,全身動作によりに移動する行動が見られた PD制御により,ロボットによる2地点間の移動行動を実現した •水中小型ヒューマノイドロボットのモデル立案を行った 陸上ヒューマノイドロボットモデルとは異なる運動の実現可能性を示した
  • 19. 行動の様子 強化学習79エピソード目 移動軌跡(xy平面) 13ステップ(31[sec])でゴール達成 START GOAL

Related Documents