機械学習の解析処理の成否を決めている前処理の具体的なすすめ方
業務に直結する時系列データ、画僧データ、言語データの処理を正しくおこなうために
データに対する前処理とは何か、標準的にはどういった処理があるのか
1.時系列データ
最初に時系列データ分析の前処理について解説します。時系列データは扱いが難しく、分析対象によってどのような
前処理が必要なのかは様々です。ここでは一般的に時系列データ分析の前処理として扱われるWindowサイズの調整、データの正規化、変数変換、スムージングについて解説します。また周期性に関する注意も行います。更に時系列データから外れ値(異常値)を検出・削除する処理は前処理とも捉えられますが、外れ値を検出すること自体が独自のタスクである場合もあります。ここでは時系列データから外れ値検出についても代表的手法を紹介します。
1.1 Windows サイズの調整
1.2 データの正規化
1.3 変数変換
1.4 周期性に関する注意
1.5 外れ値検出
2.言語データ
次に自然言語の機械学習処理のための前処理について解説します。扱う言語は日本語と英語に限定します。日本語の場合、まず問題となるコードの問題について解説します。次に自然言語処理の場合、原始データは通常プレーンな文書ではありません。ここでは原始データがhtml 文書の場合に対象を絞って、それをプレーンな文書に変換する方法について解説します。プレーンな文書が得られた後は句読点の統一や無駄な空白の除去などといった俗に言うクリーニング処理が必要であり、どのような処理があるのか、どうすれば簡単に処理できるかを紹介します。その後に行うべき処理では単語分割です。単語分割についてはほぼできあがった技術ですが、単語数を予め定めるニューラルネットワーク翻訳などではSubword の技術が必要なので、この点について解説します。言語が英語の場合、日本語の場合には生じなかった、大文字と小文字の問題や、語尾変化の問題などがあります。このように英語特有の前処理について解説します。最後に単語列から文書に対する特徴ベクトルを作成する手法について解説します。基本はBag of words モデルと TF-IDF の組み合わせです。また文の埋め込み表現についても解説します。
2.1 日本語コード
2.2 構造化文書から plain テキストへ
2.3 クリーニング処理
2.4 英語固有の前処理
2.5 Bag of words と TF-IDF
2.6 文や文書の埋め込み表現
3.画像データ
最後に画像の機械学習処理のための前処理について解説します。まず画像は様々なフォーマットで保存されていますので、それらファーマットの違いと変換処理について解説します。次に画像のノイズ除去の手法を紹介します。また実際に記録されている画像から物体検出を行いたい場合、閾値処理とフィルター処理を前処理として行うことが重要です。これらの処理について解説します。またディープラーニングで画像を扱うためには、実は、入力画像のサイズの問題が深刻です。これについて解説した後に、サイズの変更方法を述べます。最後に画像の機械学習の精度を改善する Data Augmentation の個々の手法について解説します。
3.1 画像のフォーマット変換
3.2 画像からのノイズ除去
3.3 閾値処理
3.4 フィルター処理
3.5 画像サイズの変換
3.6 Data Augumentation
□質疑応答□