Kosugitti's BLOG

アンドロイドは正規分布の夢を見るか

この画面は、簡易表示です

社会心理学

九州心理学会2014

The 75th九州心理学会大会に参加してきました。なんと今回は宮崎県!宮崎での開催はないと言われていたので,これは嬉しい。私も九州の中で行ったことがないのは宮崎だったからねー。

山口からは新幹線で博多まで行き,そこから空の便で行くのが早い&安い。行きはプロペラ機だったので,それも珍しい体験だったな。

宮崎は暖かいと思っていたけど,普通に冬の夜空でした。寒し。南国の樹々が迎えてくれるので,暖かいところなんだろうなとは思ったけどね。

学会発表は初日の午前中。午後は発表した院生とお疲れ様会をし,夜は夜で学会であった先生方と懇親しておりました。

驚いたことに師匠が来られていて,学友と三人で久しぶりに院ゼミみたいな飲み方をしたり。嬉しかったなぁ。

 

まあそれより何より,学生の発表が大人気で,これが良かった。いろいろな人からお褒めの言葉をもらえるし,入り口に近いところでの発表だったせいか,多くの人を集めていました。学生も一生懸命に,色々な人に声をかけていて,学内では見られない意外な側面だなあ,と感心したりして。

せっかくウケたのだから,もうこれ論文にしたらいいんじゃないの,という相談をしながら帰ってきました。

 

あ,私自身の発表もあったんですよ。彼女ほどウケてはないかもしれませんがw

 

とまれ,これで今シーズンの学会発表は終わりかな,というところです。あとはまとめたり,次のことを考えたり。今年も終わりが近いなあ。



日本心理学会二日目;再現可能性問題など

日本心理学会二日目。朝は再現可能性についてのシンポジウム。シンポジウムとかワークショップとか,色々な種類わけがなされているけど,フロアとの交流・討論をメインに置きたいというセッションのもくろみはすばらしいと思う。

方法論的な問題=統計的仮説検定の枠組みの限界,については別の所でも議論されている話で,今回はそれよりも「どうして追試がなされないのか」という問題について,学会の持っているシステマチックな特性や風土にウェイトがある感じ。

いわく,「価値がない(と思われている)」「余裕がない」「情報がない」「信用がない」などいくつかの問題点が指摘されていて,パブリッシュされないファイルドロワー論文もデータベース化しようぜ?という話題提供だったと思う。

ディスカッション時間は思惑通り,指定等論者やフロアから,様々な厳しいコメントがついた。オーディエンスはフラストレーションがたまるような仕掛けがなされていたらしい。

それぞれの指摘に対して発表者が回答するというスタイルは,横から見ていると(年代的な意味で)お兄ちゃんやお姉ちゃんがお父さんお母さんから叱られている,という感じだったので,若手は発言できなかったのがちょっと残念でした。

以下私見。

まず「社会心理学は科学だよね?科学は再現性がいるよね?」という所から話が始まるんだけど,果たしてどの程度の意味でそういっているのか。自然科学的になりたい?なれるの?そういうものなの?というところで既に問題があるのでは。

フロアからの指摘にあったけど,いい研究は追試されるし,悪い研究は追試されないわけで,何でも追試すればいいってもんじゃない。それはその通りだとおもう。そして,社会心理学という領域は自然科学の諸領域にくらべて,恐ろしく効率の悪い業界なのだと思う。追試したくなるほどのいい論文が出てきにくいんですよ。「巨人の肩に乗るのだ」というけど,この領域は無数の小人がいるだけで,どの小人が巨人に育つのかがわからない。

例えば学会主導的に,追試すべき論文を第三者が定めるような仕組みを作ったとする。そうすると,日本社会はいじめが大好きだから,嫌いな学者・学閥あいてに追試を吹っかけ,ほら再現できないだろうといって叩き潰し,誰かが涙の記者会見をする,という絵図がすぐに思いつく。

そうならないためにどうするか?例えばランダムに「検閲」が入って,追試するようにするとか?それは単に発表のスピードを遅らせることにしかならないよね。

どの論文を追試すべきか,再現性を求めるべきかという問題は,問題の設定ポイントがずれていて,追試をさせることを目標にしたって仕方ないんですよ。論文の重要性が定められないというのはすなわち,社会心理学会として「解くべき問題」が共有されてないから。ヒルベルトの23の問題みたいに,社会心理学者が共有できる問題を設定できれば,それに沿って自然と追試されて行くに違いない。

そういう,学会主導の重要性が提言できずに今に至っているということは,実は現状が最適な状態なのかもしれない。つまり,問題を特定できないから,みんな好き勝手にやりましょうよ,面白かったらいいじゃない,というそういう軽い科学集団。成長の見込みがない小人はどんどん淘汰されて行くけど,今はまず問題領域を眺め渡すために,罰を与えるより自由闊達な土壌を保持したい—それが社会心理学の面白いところなんじゃないかな。KSPもそういう風土,つまり「何もルールを決めないというルール」が生きている所だから楽しいのであって。

 

フロアからの質問やとりまとめ方が「Just do it」というのはまさにそうで,努力して今の状態なのよ,文句があるならそれもまとめてみんな好き勝手にしたらいいじゃない,という話だったかな,と思う。

あとは,科学を!科学を!という精神論でいくよりも、論文評価システムを変える方が、事態は動くとおもうな。心掛けより仕掛けでしょう。

残念ながら,時代とともに文化や技術が変わって行くので,100年たっても未だに新しい問題が出続ける。だから社会心理学の領域が閉じない。でも,何もしないわけじゃなくて,convergeよりdiverge,変と変を集めてもっと変にしましょう,というのが俺は好きだなあ。

 

さて。

午後は心理調査士の話。また資格かあ,とも思うし,心理学=臨床というイメージに対するカウンターパンチがまた出てきたのねという感じ。つくって儲けるのはいいけど,誰か使ってくれるかしら?まあカリキュラム的な意味でのハードルが低めなので,導入する所は多いと思う。いずれにせよ,資格問題は10年ぐらいしてからでないと効果測定できないからねえ。という感じで横目で見てました。

夕方は自分のポスター発表,意外と興味を持ってくれた人がいたのが嬉しかった。元教え子達にも絡むことができて,楽しかったですよ。

私も40を前にして,そろそろ自分の世界を作り上げて行くぞ(だから淘汰しないでねw)。



日本心理学会一日目

 

日本心理学会@同志社大学にきております。

初日の朝から,シリーズ数理心理学の展開があって,統計について日本一のベイジアンと数学?哲学?の人から公理論的に確率の話を捉えるというセッション。驚いたのは,公理の置き方によって,「確率」といっても意味が変わってくることがあるということ。

今後自分の研究で,ベイズ更新を用いるモデル化をしていこう,と思っていただけに,うかつに使えないのかな?と思ったり。とりあえず優しいベイジアン論文は読んでおこう・・・と思いましたとさ。

さて,今日のメインはWS「共分散構造分析【R編】」。なんと指定討論者にご指名いただきました。昔から豊田研究室の日心WSで勉強させてもらったし,私の本棚の一角は豊田先生コーナーがあるほどのファンなのです。それだけに嬉しいやら恐れ多いやら。

学生さんの発表がそつなく,タイムテーブル通りに淡々と進み,私の番がきました。専門的な話では勝てないので,とりあえずいくつか笑いを取ろうと。ヤマミィの画像やネタ画像で,3回笑いを取りましたので,この目標は達成。

最後に「今後SEMはどうなるのか?そしてなぜMplusを使わないのか?」と言ったら,お返事がこれ。

IMG_2324.JPG

拙著を紹介するのは申し訳ない,と思っていたので伏せていたのに,豊田先生のほうからご紹介いただき,恐悦至極。なぜ使わないのか,という問いに対して「君が小学生になる前から使っているよ」という説明で私はペシャンコにされたのでしたw

そりゃそうだよな,俺がMplusを知ったのは豊田先生のSEM本で,連続変数とカテゴリカル変数が同時に扱えるSEMアプリがあると書いてあったからで。導入したのはおそらく社会心理学系ではもっとも早かったクラスタだという自負はあるけど,釈迦に説法ですわなあ。

しかも,今後どこに行くのか,という話では「間違いなくベイズ。ベイズ統計を心理系・文系の学生にどうやって教えて行くかというのがテーマで,来年の日本心理学会WSではそれをやりますので,よろしく!」と次回予告までいただきましたw

完全に釈迦の手のひらの上だったなあ。でも本当に楽しかったですよ。

来年のベイズWSも楽しみです。でも我らが広島ベイズ塾も,そろそろなにかやりましょうぜ・・・!

 

 

 



学力保証の見える化と因子分析

プロファイル・シートなるものを導入して,「学力保証の見える化」をするのが流行りなんですってね。

ネーミングの問題とか,そもそも学力とは、という話を後回しにしておいて,それがどう実装されるべきかについて考えてみました。

例えば教育学部では,教員に必要な力は「使命感や責任感、教育的愛情」,「社会性や対人関係能力に関する技量」,「児童生徒理解に関する力」,「教科指導力」というのがあるそうです(文科省中教審がそういうらしい)。

で,カリキュラムの中でこれらの力を育てていくらしい。大学は教科・教育に関する講義や科目をたくさん設けているから,学生は例えばAという授業をとると,それは「教育的愛情」と「児童生徒理解」をのばすためのものだ,という対応がついている。その対応は,教育学部の掲げるGraduate Policyで,この授業はこの学部のこのGPに対応する,という表があるので,それを見れば一目瞭然。

さて,当然そうなるとでは学生を行に,履修した科目を列にならべたデータセットを作って因子分析するべきだよね。因子分析というのは相関関係に潜む構造を取り出すものだから,当然関連の深い科目同士は,学生の得点相関も高くなるわけです。なので,ちゃんと4因子になるはずです。なんなら,下位因子に分かれたとしても,階層的因子分析すれば上位にこの4因子がでてくるはずなのです。

GPなどによる対応表があるので,それをターゲット行列にしたプロクラステス回転をする,いやそんな面倒なことをしなくても,モデル化した確認的因子分析をすればよろしい。

そうすると,当てはまりのよさが評価できることになる。もしかしたら,共通性の低い科目が出てくるかもしれないが,それはよくないことで,教育学部の教育方針にそぐわないことをしているんだから,もっと共通性が高くなるような授業の工夫をしなければならない。あるいはGPの表によると因子負荷量が高くなるはずのところが、違うGP因子にのっていたら,講義方針を変えてもらわないといけない。いやいや,もっというと,4因子構造が間違っているかもしれない。実際の分析をしてみたら,データから3因子が正しいとか12因子が正しい、ってことになってくるかもしれない。

懸けてもいいけど実際にやろうもんなら,想定した因子構造にはならないですよ。そうすると大学では何を教えていたことになるんでしょうね?負荷量や共通性が低い授業に対して指導が入ることになりますか?それも現実的じゃないと思うね。大学教員は個人事業主みたいなところがあるので,専門性に基づいて単位を出す責任を負っているのだから,下手に授業の指導なんかをすると「私の専門性を否定するのですか!」ってな話になりますよ。

そういう人たちからは,次のような反論が出てくるんじゃないかな。

  1. 大学というのは一つの授業で教えるのではなくてカリキュラム全体で教えるのだ
  2. そもそも使命感や愛情,対人関係力は測れるものではない
  3. そもそも使命感や愛情,対人関係力は教えられるものではない

しかし,1については,カリキュラム全体のアルファ係数の検証も必要だけど,共通性・負荷量が低いままでいい根拠にはならないよね。2については,じゃあどうやって測定するんだって言う話になる。もちろん心理測定法ってのはそのための技術なんだけど,目に見えないものを測ろうとするときには真っ先に構成概念妥当性が検証される。つまり使命感の定義ってなんだ,ほかとどう弁別するんだ,ということをしっかり煮詰めていかないといけない。文科省がそれをやってくれているとは思えないなあ。3についてはそもそも大学で何をやっているんだという話になる。

 

今,意識の高い各大学がしようとしているこのことは,知らずにやっているんだと思うけど,こういうカリキュラムの因子分析をやっていることになるんですよ。そしてそれから考えられる議論の帰結というのもある程度見えている。そもそも,無理な話を投げつけられて,データ化・見える化したら見えた,というのはまやかしにすぎないんですよ。みんなわかってるだろうに。

下手なデータ化休むににたり。ゴミからはゴミしか出てこない(GIGO)。なんでデータ化したらそれでいいって思えるんかね?

もし本気でやるんだったら,教員全体がカリキュラムの各講義について,アルファ係数を上げ、寄与率・負荷量を上げるという方針で一致団結して授業改革を進め,一方で毎年のデータをもとに各係数をベイズ更新(ベイジアン因子分析)しながら講義の揺れを測定し,一定の範囲内におさめるよう教育を制御するという取り組みをすべきですな。少なくとも原理的にはここまでできることが容易に想定できる。もっとも,どの程度の分散を持つのが適切な大学なのか、社会なのかについてはまだまだ議論されてはないけれども。

はてさて,ほんとにそういうことしてくれますかね?みんなデータ音痴だからそれをしないのか,パソコン音痴だからそれをしないのかはわからないけど。

 

でも頼むから,予算を付けてスプレッドシートをPDFで出力するプロファイル・シート作成システムを作り,学生は各自それを印刷して,最後は教員のはんこを押してもらって事務に提出というくだらない運用方針を採用し,学生と教員の無駄な事務作業を増やしただけで本質は何も見えていない(だって本当は見たくないんだもの!)というオチにはしてほしくないなあ・・・。



広島ベイズWSでベイズ因子分析の話をしてきました

昨日は魁!ベイズ塾とDARMによるマルコフ連鎖モンテカルロ法WS(MCMCWS)がありました。

そもそもどういう話をしようか,という打ち合わせの場に居合わせなかったもので,ある日Twitterでメンショんが飛んできて「@kosugittiは因子分析」とだけ書かれていたのが始まり。

ベイズ推定は何となく分かってましたが,それを因子分析に使うときにはどういう仮定,分布を考えるのかとか,長所短所はなにかとか,実際にどうやって動かすのか,といったことは知らなかったので,慌てて勉強。因子分析大好きっこだからご用命されたのであって,知りません・分かりませんでは恥ずかしいからな,と。もう必死ですよ。

忙しい合間を縫って,一ヶ月半ぐらい頭の中でずーっと「どうしようどうしよう」と考えてましたが,まあ終わってしまえばいい思い出。あとでスライドや資料はまとめてこのサイトにでもアップします。

 

他のメンバーは,比較的基本的な所だったり専門的な所だったりで,事前に資料を拝見した所,とっても分かりやすく丁寧だったので,これはいいなあと思っていたが,懇親会で聞いたら他の人たちも「この日のために必死に勉強した」とのこと。またまたご冗談を。

とにかく,とりあえず使ってみよう,こうやって報告してみようといったMCMCを初心者向けに実践を解説するワークショップは,本邦初ではなかったかと。Ustの視聴者もmax200人ぐらいいたそうで,大盛況,大成功でした。

 

あー,楽しかった。



数理社会心理学の基礎

国立大学入試二次試験二日目の業務を終えて長崎へ。師匠・学友と研究打ち合わせ。

夜遅くまで及んだ話し合いの中で,数理社会心理学を確立しようという話になって(ちなみにほとんど素面),社会心理学の理論を作るための原理としてどのような公理をたてるべきか,わいわい言うてました。

そのときのただの思いつきなんだけど,アシモフのロボット三原則を逆転させるような形で,次の三つの原則をおいたらどうかと提案してみた。

(狭義の)社会心理学の三原則
第一条 社会的単位(個人・個体)は死にたくないものとする(自己保全の原則)
第二条 第一条に反しない限り,社会的単位は他者に制限されない自由を求めるものとする(主体性の原則)
第三条 第一,第二条に反しない限り,社会的単位は他者と共にいることを求めるものとする(親和性・社会性の原則)

そこそこ悪くないと思ったんだけど,師匠は社会性を考えるのであれば人間に限定せず,社会的存在一般,あらゆる動物(昆虫やバクテリア,多細胞生物一般というレベルまで含んだ社会的生物)を対象にするように考えるべきだ,という。そこでいろいろ議論してみたが,これはまだうまくまとまらない。今のところ次の二条までで止まってしまう。
(広義の)社会心理学(社会的存在,社会生物)の原則
第一条 男性は女性,女性は男性を好む(性の原理)
第二条 社会的単位は複製を作らなければならない(自己,子孫の再生産による社会の原理)

 

社会性,関係性の公理をたてたらそのあとは,扱うべき元(仮に関係子と呼ぶ)を定義し,関数の形で表していくつかの定理(例えば,かくかくしかじかで示される状態を社会的に生きていると呼ぶ,といったような)を書く。それが数理社会心理学の基盤になるはず。これを論文にしたら,Natureに掲載されるんじゃないかとかいいながら盛り上がってました。

 

半分冗談,半分マジな話。



分位点回帰Quantile Regressionは確かに面白い

社会心理学会大会2013@沖縄国際大学,はそこそこ楽しめたのだけど,中でも一番面白かったのが分位点回帰についてのWS。

前々から企画者のIさんに面白さは伺っていたのだけど(論文も書かれてましたね),WSで確認し,先ほど実際自分で触ってみて面白さを味わった。当然,Rでできるのである。

少し宣伝?解説?しておくと,従来の回帰分析が平均回帰を狙っているのに対し,分位点回帰は任意の分位点(30パーセンタイル点とか,第3四分位とか)での回帰係数を求めるというもの。しかもひとつではなくて,複数求めることができるから,第1四分位ではこういう傾きだったのに,第3四分位では傾きが変わりましたね,なんて事も分かる。

心理学変数のほとんどは正規分布するという便利な建前があるが,実態的データ,例えばネットワークサイズとか年収のようなもの,は当然偏った分布をするのであって,平均点目指して回帰する時点ですでに歪んでしまっているわけである。それを補正する可能性があるのがこの手法。

何より感心したのは,WSで「我々の仮説が平均回帰に縛られすぎてないか?もっと自由であるべきではないか?」という問いかけがあったこと。確かにそうだよなあ,実際のデータとか経験則は,必ずしも平均のことばかりではないからなあ。

 

さてRではquantregパッケージというのがあって,そのなかのrq関数が分位点回帰をしてくれる。QuantileRegressionだからqr関数じゃないの,と思うかもしれないが,qr関数はすでに固有値分解のQR法に割り当てられた名称なのでダメなのです(これは譲れない)。

quantregに入っているエンゲル係数データを使って,試しにちょっとやってみた。

コードはfoodexp(食費)をincome(収入)で予測するだけの式だけど,tau=seq(0,1,0.25)のオプションで0,0.25,0.50.0.75,1.0の分位点回帰をせよ,という意味になっている。0とか1は無意味だけど,0.25,0.75は四分位だし,0.50は中央値回帰になっている。結果は明らかで,収入が下位25%のところだと0.47しかない係数が,中央値で0.56,第3四分位で0.64とあがっていき,上位階層の人間ほど食費にお金が回せるのだな,ということが明らかだ。

お金がらみでついでにもうひとつ。野球の年俸と成績の関係を分位点回帰にかけてみた。データはここから持ってきたものを使っている。

これをみると,年俸が低いうちはホームランや打率がものを言うが,年棒が高い層は打率はむしろ負のパスになって,ホームランや三振のパス係数がおおきくなっていく。つまり,記録より記憶で儲けるようになると,一流ってことですかな。

人文社会科学系のデータは歪んでいるのも一杯あるだろうから,こういうモデルで自由な仮説検証がもっと進むといいですね。

>> See also RPubs http://rpubs.com/kosugitti/10473

 

参考文献はこちら。安くていいと思う。

[amazonjs asin=”1412926289″ locale=”JP” title=”Quantile Regression (Quantitative Applications in the Social Sciences)”]



場面想定法はもうやめませんか

論文の中に,場面想定法ってでてくるとそれだけで萎える。

要するに「こういう状況だったら,あなたはどうする?」というのを聞いて回答を求める手法(?)なわけだけど,これをデータとして扱う心理学というのは,どうにも根拠が貧相な気がするのです。

そもそも社会心理学は行動の科学を標榜していたけど,行動がでてくるのを待っているのでは研究が進まないので,「態度」という専門用語を作り出した。これは行動の準備状態とかいって,「〜するつもり」のような意図,事前にもっている情報・感情のことだけども,それでも実際行動するかどうかとは違うわけです。態度は社会心理学にとって重要な研究ツールなのだ!といっても社会心理学者はちょっと冷や汗をかいてるぐらいがちょうど良かった。

ところが,態度測定はそもそも想定された心の状態だったので,それを押し進めて状況まで想定させた上で反応を求めることを考えだした。これが場面想定法。「これこれこのような状況を想定してみてください,その上で,あなたならどうしますか。」って,想定させる状況が込み入ってくるほど,何について答えさせているのかが変わってくるのである。

 

「あなたは大学一年生で,恋人とのデートの約束をしている日に,先輩から呼び出されました」とかいった状況を教示されて,反応を見るわけだけど,例えば俺(37歳,サラリーマソ)は大学一年生じゃないし,大学一年生のときに恋人がいなかったし,呼び出してくるような先輩もいなかったわけで,そういう状況を想定しろと言われたら,そういう状況にいたキャラクターを想定する。つまり,俺の態度ではなく,想定された架空のキャラクターの態度を回答することになるわけです。

回答者の多くがそういう想定されたキャラクターの態度を回答していたとすると,得られた回答は広い意味でのステレオタイプ的態度であって,実際の行動でも何でもない。社会心理学は常々大学生心理学だと揶揄されているが,それ以上にファンタジー心理学になってしまってるよ。

恋人がいない人に,「数年の付き合いで同棲している彼女がいると想定して答えろ」といっても,正しく想定できていると思う?

大学生に「株で取引して・・・」とか「転職したときに・・・」とか想定させて妥当性があると思う?

 

多分この批判は前からされている古い話だと思うんだけど,最近,どうにもこの「想定させる状況」が行き過ぎているような気がして,「ファンタジー心理学,ステレオタイプ研究になっちゃってるかも」という自覚がない研究者がいるんじゃないか,とも思うわけです。

それでもいい,と思ってやっているのならいいんだけど,自覚がないとなると,それは不自由で恥ずかしいことだよ。

 

ひとつ思うのは,この方法に「場面想定法」というネーミングがついて,このネーミングが一定の支持を得て,定着したことの問題なのです。俺が大学院生だったころは場面想定法って名前,そんなにメジャーじゃなかったよ。むしろそんなことしてどうするんだ,という風潮の方が強かったように思うけど。最近研究の道に入ってきて,場面想定法で,という手法名を聞いて「そういうのがあるのだ」と疑いなく受け入れてしまうことの弊害がある。昔はちょっとアヤシイ手法だと言われていたんだよ,計量経済学や計量社会学の人からみたらなんて言うだろうね?という反省なしに,「だってみんなやってるんだもん!これでいいって教わったもん!」と逆ギレされるのではないかと思っているのです。

研究手法として名前がつくのであれば,そこに正しくて新しくて妥当な技術が含まれていなければ(それまでの技術とどこが違うのか,が明らかでなければ),オッカムの剃刀になってしまうよ,ということを誰か言わないといけないんじゃないか,と思ってこの記事かきました。

 

この「新しい研究名がついて何となくそれっぽくなっただけなんじゃないの」,という懸念を(俺が)抱いている例として,「(重回帰分析の繰り返しとしての)パス解析」,「スノーボール・サンプリング」,「グラウンデッド・セオリー・アプローチ」,「PAC分析」をあげておきます。多分他にもあるんだろうな。



階層線形モデル(Hieralical Liner Model)の実例

今度は午後の部,階層線形モデルの話。
ネストされたデータは全部HLMの土俵。反復測定も、個人と集団も。後者の方が得意らしいけど。 ネストされたデータで,HLMを使わないと、サンプルの独立性の検定に違反する。また、平均値が集団の性質を反映していない。後者はカップルデータのようなときに顕著。グループ内の類似性を評価し、それに合わせたモデリングをする。それがHLM,というお話。

ところで,階層回帰分析と階層線形モデリングは,同じ階層という言葉を使っているけど,意味が全然違う。

前者は手続きが順番に行われる,という意味で階層的であり,まず要因A,要因Bを入れ,次に交互作用ABを入れる,という順番でステップを踏む。あくまでも順番であって,あんまり層を積み重ねるという意味じゃないと思う。実際英語としては,Multiple Linear Regression,つまりただ「重回帰分析」と表されるね。重回帰分析は二つ以上の要因がある,という広い意味で使われる。交互作用項を特に【調整変数】と呼んで,センタリング等の適切な処置を経て投入する,というところが特徴。
個人的には「順番にやる回帰分析」「一歩ずつ重回帰」,といった名称にすればよかったんじゃないかと思う。
(実は内心,両者の区別が分からないやつが間違って使い始めたのが定着したのではないかと疑っている)

さて,HLMは本気で階層的。データがレベルを持っている。例えば個人のデータは集団の性質、個人の性質、誤差からなる。場合によっては集団と個人の交互作用も考えることがある。グループ内の類似性が高いことは、集団レベルの情報を多くもっているということ

ここでMLRと混乱させられるもう一つの秘密が。それは,HLMでもステップ1,ステップ2という用語があり得るのです。ほんとはレベル1,レベル2というのが正しい。レベル1は個人のデータ。個人レベルの情報。Within(群内)とも呼ぶ。レベル2は集団のデータ。集団レベルの情報で,Betweenとも。変数がどっちレベルで集まっているか,がしっかり把握できていないと混乱するぜ。HLMはレベル2の変数がレベル1の係数を予測する(回帰のパスが下位レベルの係数にささる)こともでき,それを「交互作用」と呼んじゃうからさらにMLRとの混同がおきやすいよね。要注意。

 

さて,実際にデータを触りながらやった方が分かりやすいかと思うので,Rソースを示し,一歩ずつ解説をしていきます。
サンプルデータは上の記事と同じで,使うデータは清水先生のサイトにあるHLM用サンプルデータをご利用ください。分析資料も同じサイトにあるよ。

RでHLMをするには,lme4というパッケージが必要です。

ソースはこんな感じ。

さて解説。最初の数行は割愛させてください。センタリングの話から。
HLMでもセンタリングをやります。個人レベルの変数に行うセンタリングは,グループごとの平均値で中心化するセンタリングで「グループセンタリング」といいます。集団レベルの変数に行うセンタリングは,全体の平均値を使うやつで「グランドセンタリング」といいます。

それがここ。

mean関数は平均値を出す関数。na.rmは欠損値を外せというオプション。もう一つ,グループセンタリングはave関数というのがあって,変数Group毎に平均値を出すという便利な関数。

次の行は,集団平均値をデータとして使う場合があるので,そのための細工。

グループごとに平均を出して,さらにそれをセンタリングしたものを入れています。ave関数がちょっとおかしな形になっているけど,これはデフォルトだとna.rmが入らないから。
ave関数は本来,ave(x,id,FUN)と書いて,データに,群ごとに,ある処理FUNをする,というもの。FUNはデフォルトでmeanなんだけど,このmeanのデフォルトがna.rm=Fなので,それを教えてあげないといけない。つまり,FUNはfunction(x)を使うよ,そしてそれはmean(x,na.rm=T)だよ,という二度手間構造(もっといいやり方があったら教えてエロい人)。

ともかく,これで準備オーケー。
まずは群ごとに,idtを従属変数,talk,perを独立変数とした回帰分析をしてみる(清水先生の分析モデル1)。

関数は,パッケージmlmRevに入っているlmerで,書き方はlmと同じ,チルダの左に従属変数,右に独立変数。独立変数はセンタリングしたtalk_cとper_gを入れる。階層性を表す変数Groupは係数1で関わってきますよ,というのが(1|Group)の意味。

次に,集団平均値を入れたモデル(清水先生資料の分析モデル2)
これはさっきの変数を使うだけだから簡単。

Model.1に比べて,talk_g_mという独立変数が増えただけです。

最後に,ランダム係数モデル(清水先生の分析モデル3)。ここでのランダムは乱数という意味ではなく,無作為でもなく,確率変数(random variables)という意味でのランダムね。

ここでは,Groupごとにtalk_cの係数が変わってくるよ,ということと,交互作用項talk_c*per_gが増えています。

いずれもHADというエクセルマクロで下準備し,SPSSで処理をするという(資料上の)一連の流れがこれだけで再現できるので,どこにどのような数値が表れているかと確認しながらやってみてください。

級内相関の出し方なんかについては,パッケージを使えば出来るんだけど,それまたちょっと調べてから後日ブログにアップする予定です。

ひとまず。

 

追記(2012/02/14)
清水先生のスライドだと,まず級内相関をだして階層性を入れる意義を検証しようね,という話がありました。
この級内相関,パッケージで簡単にでるかなとおもったけど,色々調べても手計算している例が多い。
清水氏のHADみたいに,まず各変数において級内相関を(アルファ係数までも!)出すようなかんすうがあればいいんですけどね。
ひとまず,手計算のやり方を書いておきます。

とまぁ,このように,まずグループレベルの変数しか入ってない回帰モデルを作る

と,その結果として集団レベル変数の分散と残差の分散がでるので,集団レベルの分散/(集団レベルの分散+残差の分散)
を手計算してやる

いいってことになります。

以上。




top