タイトル | ベイズ決定理論に基づく階層Nグラムを用いた最適予測法 |
---|---|
著者 | 末永高志 、松嶋敏泰 |
年度 | 2012 |
形式 | 論文誌 |
分野 | 知識情報処理 |
掲載雑誌名 | 情報処理学会論文誌数理モデル化と応用(TOM) |
掲載号・ページ | vol.6, no.1, pp.102-110 |
掲載年 | 2013 |
掲載月 | 3 |
アブスト (日本語) |
査読:有 DOI:なし ユーザ入力をもとにシステムが予測し候補を提示する文書作成支援技術が普及している.この応用を想定したNグラムモデルを用いた単語の予測法を検討する.Nグラムモデルは学習データをもとに構築されるが,単語列を構成する単語の組合せが膨大なため次数が増加するにつれ疎となる.モデル構築においては,高次のモデルの推定に対し,低次のモデルの推定結果をもとにいかに補間するかが課題である.従来は混合分布の仮定や,ごく少数にしか出現しない単語列を考慮した割引係数をもとに,各次数のモデルを重みづけ足し合わせることが行われていたが,予測に対する理論的な保証はない.本稿では,これに対し真の次数が未知の統計問題ととらえ,ベイズ決定理論に基づいて,単語の予測誤りの損失に対しベイズ基準のもとで最小となることが保証された予測法を導出する.さらに,日本語文書データでの単語予測の実験を行い,提案法が実用的にも有効であることを示す. |
アブスト (英語) |
Predictive word is an input technology showing candidate words which a system predict by user partial input. We treat predictive methods using an N-gram model. The model is generally produced by analyzing train data. The data is more sparse in proportion to an N-gram order, because of enormous combinations of words in the sequences. An issue of producing the model is how to combine a lower order model into a higher order one. Many researchers proposed models composed of weighed each-order one, such as a mixture distribution or an interpolation created by discount parameters considering about extremely lower frequent sequence. But these methods have no theoretical guarantee about prediction errors. In this paper, we treat the issue as a statistical problem that the model order is unknown, and discuss prediction errors from a point of view about Bayesian decision theory. We present that an optimal prediction method with reference to the Bayes criterion for minimizing the errors. Experimental results using Japanese documents show that our method performs good predictive words. |
備考 (日本語) |
3 |
備考 (英語) |
3 |
論文原稿 | |
発表資料 |
関連論文
- 拡張直交配列を用いた混合水準の実験計画法に関する一考察
- 半教師付き学習における一致性を満たすゆう度方程式の解に基づく予測の漸近評価
- A CLASS OF NOISELESS CODES DESIGNED BY DECISION THEORY
- 相互情報量最大に基準を置くユーザインタフェースの効率化
- パターンごと・ステージごとに事後確率のしきい値をおくストッピングルール
- MDLの帰納推論への応用
- 信頼性を考慮した推論について
- 推論の信頼性を考慮した不確実な知識の表現法と推論法について
- 特集にあたって
- ベイズ決定理論に基づく統計的モデル選択について
- Berlekamp-Masseyアルゴリズムを用いたBCH限界を超える復号法の計算量について
- BCH限界を超える復号法とその軟判定復号法への応用
- BCH限界を超える復号アルゴリズムを用いた2元BCH符号の軟判定復号法
- 事前分布が異なる場合のMDL原理に基づく符号とベイズ符号の符号長に関する解析
- 木符号におけるリスト復号法を用いた判定帰還方式について
- 損失関数を考慮した拡張事後密度の漸近正規性
- ゆう度比検定を用いた木符号の復号法について
- ビタビアルゴリズムを用いた可変サイズのリスト復号における誤り指数について
- ブロックターボ符号のインタリーバ構成法と最小距離
- あいまいな命題を含む推論モデルに関する一考察