確率統計

確率の基礎

今まで慣れ親しんできた確率論は、頻度論と呼ばれる。高エネ物理でよく使用されるのはベイズ統計なので、これまでの確率の考えをそのまま適用することはできない。ここを混同すると、何をしているのか分からなくなるので要注意。高エネ物理では、実験を進めてデータを取得し、それらを元に予想される理論が正しいかどうかを考える(つまり一種のパラメーター推定を行う)。

  • Frequentist :真の分布があって、そこからとあるデータを抽出する試行を考える。
  • Bayesian:取得したデータを元に、それが従う最適な分布を推定する。

頻度論

よく使われる例に、降水確率が挙げられる。frequentist の観点からは明日が雨かどうかは「降る」「降らない」の1/2だが、ニュースでよく聞く「降水確率30%」とは何を指すのだろうか?

まず、そもそも頻度論には大きな弱点があり、算出される確率がその事象固有の性質を表しているわけではない、ということである(この弱点がベイズ統計で克服されているというわけではないが)。例えば、40代の男性がガンを発病する確率が1%だった、という調査があったとしよう。これも母集団からサンプルを抽出した結果のものなので、frequentist inferenceである。この結果から、40代の男性はガンを1%の確率で発病するものだ、と一般化してもよいだろうか?答えは「それはできない」である。1%という数字は、どういう母集団からサンプルを抽出するかに依存している。喫煙者、親族にガン患者がいる、非喫煙者、全く親族にガン患者がいない、等々母集団(ensamble)の選び方で1%という確率が変わってくることは容易に想像がつき、「40代の男性」の持つ性質ではないことが分かる。

なので、降水確率30%、も「明日における降雨」の性質を表した数値ではない。気象衛星や気象学者、スパコンによるシミュレーションから「明日は雨が降るだろう」という予測が過去何十年と行われてきて、その結果本当に降った日もあれば予測が外れた日もある。そして、この様に行われてきた予報情報を蓄積すれば「明日は雨が降る」という予報が何%の確率で的中したかが算出できる。これが降水確率であり、「降水確率30%」とは「"明日は雨が降る"という予報が100回発表されたうち30回は的中するくらいの精度を持っている」と宣言しているのと同じである。

この考え方をさらに、高エネ物理の表現に直してみる。蓄積された実験データから、トップクォークの質量は173.2+/-0.9 [GeV]と求められている。ここで、実験データはガウス分布に従っているとして、0.9は標準偏差を表している。実験がどうであれ、トップクォークの質量には真値が必ずあり、無限の分解能の検出器であればとある値μと断定できるが、実際はそうはいかない。こういう状況で173.2�0.9 [GeV]を解釈したときに、

  • 真の質量値μは、172.3 GeV から174.1 GeV の区間のどこかに位置する
という解釈は全くの間違いである。先にも述べたように、frequentist では真の値μは固定(真の分布は固定)であり、真の分布におけるパラメータ(ここではμ)は変数として扱わない。正しい解釈は
  • 「真の質量値が172.3 GeV から174.1 GeV の区間のどこかに位置する」という主張は68%の確率で正しい
  • (もしくは)68%の信頼度で「真の質量値が172.3 GeV から174.1 GeV の区間のどこかに位置する」と主張できる
というものである。自らの主張の精度をさらに上げたければ、1σではなく2σにすればよく、
  • 「真の質量値が171.4 GeV から175.0 GeV の区間のどこかに位置する」という主張は95%の確率で正しい
と主張することができるようになる。

基本的に、よく知られた分布(ex. Standard Model)を議論するときは、この頻度論の考えでよく、全く何もしらない分布をデータから見積もるときは、次に説明するベイズ統計の考え方を用いる必要がある。

ベイズ統計

取得したデータを元に仮説が正しいかどうか、Posterior probability (事後確率)を求める。

Error propagation

共分散

用語整理

  • 偏差:平均値からのずれ
  • 分散(Variation):E[(x-μ)]、偏差の期待値
  • 標準偏差(Standard Deviation):分散の平方根を取ったもの。いわゆるシグマ。平方根を取ることで、単位がもとのデータと同じになるので便利であったりする。
  • Root Mean Square : E[x^2] データ値の2乗を平均して、その平方根をとったもの。(ROOT5までRMSと標準偏差が混同されていた。ROOT6で治った。)
  • 算術平均:n個の値を足して、nで割ったもの

スライド一覧

https://indico.cern.ch/event/287744/contributions/1641250/attachments/535751/738667/Verkerke_Statistics_1.pdf

-- KosukeTakeda - 2019-02-26

Edit | Attach | Watch | Print version | History: r2 < r1 | Backlinks | Raw View | WYSIWYG | More topic actions
Topic revision: r2 - 2019-06-13 - KosukeTakeda
 
    • Cern Search Icon Cern Search
    • TWiki Search Icon TWiki Search
    • Google Search Icon Google Search

    Main All webs login

This site is powered by the TWiki collaboration platform Powered by PerlCopyright & 2008-2023 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
or Ideas, requests, problems regarding TWiki? use Discourse or Send feedback