形態素解析とは
文を、形態素(意味のある最小単位)に区切り、品詞などの各種情報を付与する技術を「形態素解析」と呼びます。
例)今日は晴れです。
| 形態素 |
今日 |
は |
晴れ |
です |
。 |
| 品詞 |
名詞 |
助詞 |
名詞 |
助動詞 |
句点 |
実際には、もっと詳細な品詞分類が使用されます。
詳細な品詞を使うのは、その方がよりよい解析精度が得られるからですし、また、形態素解析を利用するアプリケーションにとっても詳細な品詞の方がを要求する場合が多いからです。
一般に、形態素解析プログラムは、辞書ファイル中に格納されている形態素一覧や、品詞分類、形態素の接続関係などを用いて解析を実行します。
形態素解析の難しさ
形態素解析処理を行うに当たっては、形態素区切りと品詞付与の他に、次のような点が処理を困難にしています。
1)未知語(辞書ファイルに登録されていない形態素)
2)表現の自由さ(語順の転置や省略など必ずしも文法的に正しくないが よく使われる表現)
未知語ではカタカナ語の区切りなど文字種を見ることである程度判断できる場合もありますが、ほとんどの場合は、未知語や文法的にはずれた表現は正しく解析されず、誤った区切り・誤った品詞が付与されます。
この誤りが、本来正しく解析されるべき箇所にまでおよぶ場合があります。
現状の形態素解析システムでは、この誤りを如何に小さい範囲に抑えるかについて、いろいろな工夫が行われています。
形態素解析の位置づけ
形態素解析処理は、自然言語処理技術の中では基礎技術と位置づけられます。
アプリケーションは、まず入力文を形態素解析し、その結果を使って処理を行います。
したがって、形態素解析の精度が悪ければ、アプリケーションは誤解析結果を基に処理を行うことになってしまいます。また、形態素解析の速度が遅ければ、アプリケーションが高速であっても、全体としての速度を上げることが出来ません。
そのため、形態素解析システムは、速度および精度が求められています。
|