講義「データ処理法」での講義まとめとして,Moodleに寄稿。備忘録として転記する。
———————————————————————————-
データ処理に対する態度・考え方について
- データ処理は技術にすぎない。技術は修得すれば誰にでもできるようになる。技術で超えられない問題の方が遥かに難しいのであるから,技術にとらわれることなく自由な発想・思考ができるようになるために修練すべきである。
- 技術的にも未熟,能力的にも未熟という状況が最低である。
- 技術的には習熟しているが,能力的に未熟という状況があり得る。
- 技術的に未熟でも,能力(や情熱?)があるという状況は,やりたいことができない不自由な状態である。あるいは,正しくできないため間違った答えに導かれてしまう。
- 技術的にも能力的にも優れているのが理想の状況である。
技術的な問題に落とし込むために
- 自分が知りたいことが明確になった場合,それがどのように測定されるか,分析されるかをイメージ=計画できなければならない。
- データ処理の観点から言えば,計画の初期段階で概念図(=パス図)を描けるようにならなければならない。
- 自分の仮説はどの概念とどの概念のどういう関係(因果・相関)か。
- 概念を測定するためにどのような項目を用意するか(測定方程式=因子分析)。
- パス図に埋め込まれた暗黙の仮定はなにか。
- データが目の前にある場合(データを取った後),そこからできるだけたくさんの情報を引き出すことを考える。そのためにも分析技術から自由になるべきである。
- 取ったデータが悪い,は言い訳にすらならない。
- データの基本的な属性・特性に応じて分析方法を変えることを考えるべきである(記述統計,可視化による性質の確認)
- 想定していた測定概念がきちんと測定できたかどうかを検証しなければならない(適合度指標)
- 回答者が一様に等質なのかどうか,セグメント毎に分析方法を変える必要はないか,も検討することができる(クラスター分析,多母集団同時分析)
本講義の限界点について
- 非線形データマイニングに言及できなかったこと
- 階層ニューラルネットモデル,SOM,SVM,決定木など,非線形関係を明らかにする分析モデルも存在する
- テキストマイニング=形態素解析+数量化三類,も応用可能性は高い