1. [ホーム]
  2. [研究業績]
  3. [研究業績詳細]

研究業績詳細

タイトル ベイズ決定理論に基づく階層Nグラムを用いた最適予測法
著者 末永高志 、松嶋敏泰
年度 2012
形式 論文誌
分野 知識情報処理
掲載雑誌名 情報処理学会論文誌数理モデル化と応用(TOM)
掲載号・ページ vol.6, no.1, pp.102-110
掲載年 2013
掲載月 3
アブスト
(日本語)
査読:有
DOI:なし

ユーザ入力をもとにシステムが予測し候補を提示する文書作成支援技術が普及している.この応用を想定したNグラムモデルを用いた単語の予測法を検討する.Nグラムモデルは学習データをもとに構築されるが,単語列を構成する単語の組合せが膨大なため次数が増加するにつれ疎となる.モデル構築においては,高次のモデルの推定に対し,低次のモデルの推定結果をもとにいかに補間するかが課題である.従来は混合分布の仮定や,ごく少数にしか出現しない単語列を考慮した割引係数をもとに,各次数のモデルを重みづけ足し合わせることが行われていたが,予測に対する理論的な保証はない.本稿では,これに対し真の次数が未知の統計問題ととらえ,ベイズ決定理論に基づいて,単語の予測誤りの損失に対しベイズ基準のもとで最小となることが保証された予測法を導出する.さらに,日本語文書データでの単語予測の実験を行い,提案法が実用的にも有効であることを示す.
アブスト
(英語)
Predictive word is an input technology showing candidate words which a system predict by user partial input. We treat predictive methods using an N-gram model. The model is generally produced by analyzing train data. The data is more sparse in proportion to an N-gram order, because of enormous combinations of words in the sequences. An issue of producing the model is how to combine a lower order model into a higher order one. Many researchers proposed models composed of weighed each-order one, such as a mixture distribution or an interpolation created by discount parameters considering about extremely lower frequent sequence. But these methods have no theoretical guarantee about prediction errors. In this paper, we treat the issue as a statistical problem that the model order is unknown, and discuss prediction errors from a point of view about Bayesian decision theory. We present that an optimal prediction method with reference to the Bayes criterion for minimizing the errors. Experimental results using Japanese documents show that our method performs good predictive words.
備考
(日本語)
3
備考
(英語)
3
論文原稿
発表資料

関連論文