山 本 章 博
京都大学 情報学研究科 知能情報学専攻
2008年6月
最近の研究内容を「第3回プログラミングおよびプログラミング言語サマースクール」のチュートリアルで話しました.
チュートリアルの資料はこちら.
さらにコンピュータ・ソフトウェ ア誌の解説記事としてまとめましたので,そちらもご覧ください.
この研究は,機械学習と論理との関係を明ら かにしながらその性質を解 明してゆくことを目標にしています.
人工知能の研究を私なりに定義するとすれば,人間が行っている様々な推論を計算機を用いて定式化しその性質を解明すること, さらにはその推論を用いて情報を適切に取り扱い,また適切な情報を創出する方式を与えることです.学習とは人間の知的な行為の一つですから,人工知能研究 の対象の一つとなります.
最近では機械学 習ということばも定着してきたように思います.人工知能学会のホームページにも紹介されています.機械学習とは,本来,学習と
いう行為を計算機に行わせること,という意味ですが,データマイニング(大量データから未知の有用な知識を発見すること)への応用ばかりが強調されています.本研究室でもデータマイニングにも注目はしますが,あくまでも学習の機械化の本質に論理と 計算から迫りたいと考えています.
2. 計算論的学習理論と は
機械学習の研究手法は様々ですが.本研究室では計算論的なアプローチをとります.
計算論的学習理論は,機械学習の手法を計算論的手法で解明する研究です.機械学習は,計算機構の視点からは,複数のエージェント間での情報伝達をモデルするものであり,一方で,データや知識の扱いの視点からは,具体的なデータから一般的な規則性をみいだすデータマイニングなどの帰納的な推論のモデル化の一種でもあります.計算が単独のエージェントが行う機構であり,記号論理の視点では演繹的証明の一種とみなすことができることとは対照的な概念です.計算論的学習は,計算と学習,演繹と帰納をつなぐ研究分野といえる.具体的な研究内容は次のような大きく2方向になります.
A) 機械学習(帰納的推論)への計算(演繹的推論)の導入
B) 計算(演繹的推論)への機械学習(帰納的推論)の導入
A)方向の研究は,具体的な機械学習機構を選び,そこに記号論理や形式言語理論における「導出」という概念を機械学習へ導入することになります.「導出」とは,あらかじめ与えられた推論規則に基づいて,式を変形する操作であり,計算や演繹的証明を構成する基本的な操作です.
まず,機械学習のような帰納的な推論においては,どのような推論規則を利用してもよい,というものではなく,学習機構の一部として組込むために適切なものを選択する必要があります.適切な比喩ではないかも知れませんが,統計学において扱う確率分布は関数としては強い制約が必要であることを考えていただければわかりやすいかと思います.学習機構の一部として組込まれる推論規則を精密化とよんでいます.精密化を組込む対象としての機械学習としては,これまでに,形式言語の極限同定,サポートベクトルマシン,データマイニングにおける頻出パターン発見などを扱ってきました.
形式言語の極限同定は計算論的学習において古典的なモデルであり,精密化という用語はもともと,このモデルに導出を組込む際に発案されました.精密化と極限同定モデルの基本的な関係を洗い出した上で,形式言語の極限同定研究において難問とされている,「言語の非有界和が正データから同定可能なクラスを見つけ出す」いう問題に解を与えることに成功しました.
サポートベクトルマシンへの精密化の導入については,精密化を利用した構造データに対する新たなカーネル関数の一族を「内包カーネル」として定式化した上で,一階述語論理の原子論理式や文脈自由文法を利用した内包カーネルを計算の効率化を含めて設計していました.サポートベクトルマシンの研究では,合成積カーネルが有名であるが,内包カーネルはそれとは対照的である(上図).実問題への応用としてRNAの分類問題を取り上げ,合成積カーネルと比肩して遜色ない性能を出しています.
こちらB)方向の研究としては,計算の具体的な対象として計算代数を対象としています
代数学では,多項式環イデアルが有限基底性を持つことはよく知られていますが,この事実は正データからの極限同定による形式言語の学習可能性の特別な場合であることが明らかになりました.そこで,代数幾何学におけるある種の特異点解消についても同様に極限同定とみなせることを指摘した上で,代数系を機械学習の視点から分析する研究を行っています.
まず,学習可能性の方が有限基底性よりも詳細な条件分析が行われていることから,学習可能性の条件を基準にして,抽象代数の備えるべき性質を分類する,という研究を行いました.さらに,その発展として,極限同定における学習の複雑さの理論を用いて,従来よりも大きな超限順序数に意味を与えることに成功しました.さらに,代数学ではあまり考察の対象とはなっていないが,形式言語の学習ではよく考察の対象となっている「有界集合和」を,多項式環イデアルに適用し,その性質を明らかにする研究も開始しています.
帰納推論が数学的な論証の中に使われている,という事実は数学史的にも重要な意味をもつことが,本学文学研究科 林晋教授の研究で明らかにされつつあります.
機械学習の応用分野としては,分子生物学データや自然言語テキストの解析が最も注目されています.その他にも,上述した類似性を用いると,数学理論の中に も応用分野があると考えています.
まずは研究室にご連絡ください.工学部10号館4Fにあります.
6. 興味をもっていただいた方に