検証(けんしょう)
FF11では、合成の成功率、攻撃命中率など、アイテムのコメントには言及があるものの、数値としては見えない状態になっているものが数多くあり、プレイヤーがぱっと見た時に「具体的にどれほどの効果があるのか」を理解することが難しい。
アイテムを購入する場合や、戦術を組み立てる場合に、これらの数値としては見えない(マスクされた)ものを知りたいと思うのは至極当然のことと言える。

また、破軍神息のどちらの刀を使った方がいいか、魔法攻撃力魔法命中率のどちらを強化すべきか、といったような、「その人が何を重要視しているか」や「どのような敵と対峙するのか」により選択が異なってくる場合も多い。

これらの疑問に対して、実際に試してみて判断することを「検証する」と呼ぶ。
一般的に検証作業はデータ収集と分析のために膨大な時間と労力が費やされるため、重要性は万人が認めるものの、実際に行おうとする者は少ない。それでも一部にはそのような作業を苦とも思わない根っからの実証主義者がおり、そのような有志プレイヤーによって日夜検証作業は行われている。*1

ただし、バージョンアップにともなって仕様の変更が行われる可能性があり、収集したデータが役に立たなくなる場合もある。*2

検証方法

以下の手順は、あくまでもガイドラインに過ぎない。従って検証する内容によっては、もっと正確に検証できる手法や、効率的に行う手法もある。

1.検証内容確認
まずは、検証したい内容を確認する。必要ならば仮説を立てて、それにそった検証を目的とする。
例1)召喚獣に「契約の履行」による攻撃を行わせる場合、召喚魔法スキルキャップ値からの強化+1につき、命中率が何%アップするかを検証する。
例2)「幸運の卵」を所有していることによって、合成の成功確率に変化はないという仮説を立てた。真か偽かを検証する。

2.データ収集
データ収集に必要なデータの量と質についても考慮する必要がある。
特に、確率に左右される性質のものの、確率を調べる場合には試行数が多ければ多いほど精度がアップする。
また、考慮すべき前提条件や状況が、データ収集の際に記録漏れの無いようにしたい。
例1)「契約の履行」を1000回試行することにした。召喚魔法スキル強化値を+5にして、敵に攻撃があたったかどうか、ダメージはいくつか、敵からもらえた経験値、の3つのデータを収集することにした。
例2)「幸運の卵」を所有した状態で、「サイレントオイル」を作成しようとしたが、スキルが足りていない。有意な結果が得られないと判断し、「蜜蝋」を作成することで検証データを収集することにした。

3.分析
収集したデータを分析し、結論を導き出す。
結論に至るには不十分ならば収集データ数を増やすか、検証数を増やすか、別の仮説を立てるか、検証不可能という結論を導く。*3また、収集したデータに意味があるのかどうかの分析も併せて行う必要がある。
例1)「契約の履行」を1000回試行した結果、命中率に有意な違いは認められなかった。試行時の装備を確認したところ、召喚魔法スキル強化のために「いつもの装備」とは違うものを着けていたが、「いつもの装備」には「召喚獣命中率アップ」の効果がついていることが判明した。そのため、比較のために、この「いつもの装備」をつけずに、しかも召喚魔法スキル強化しない状態での命中率検証する必要が生じた。
例2)「幸運の卵」を所有した状態で合成を行った結果、成功率が0.00001%アップしていることが判明した。試行回数と普段の成功率を考えると、このアップ率は誤差の範囲であると判断できた。従って最初に立てた仮説「幸運の卵は成功率を変化させない」は「真」であると結論付けた。

4.公表
検証の目的、過程、分析結果、結論を公表し、これに対する意見を募る。
例1)「契約の履行」の試行回数、命中した回数、ダメージ値などと共に、「いつもの装備」のことを併記した上で、比較検証データを収集中であることを自分のブログに公表した。
例2)「幸運の卵」を所有した状態での試行回数と成功率、自分の仮説、それに対する結論を、2ちゃんねるで公表した。

5.評価
検証作業が最初から十分である可能性は低い。また、完璧な方法が存在しない場合も多々ある。他者から検証の不完全性、不十分な部分を指摘されたら、それを補完する検証を考察する必要がある。また、反証が出された場合には、自分でもその反証を検証する。
例1)「契約の履行」の命中率について、他の人が召喚魔法スキルを+30まで強化した場合のデータを提供してくれた。そのデータも分析し、仮の結論を導き出すと共に、自分でも同じ状態でデータ収集を行うことにした。
例2)「幸運の卵」について、自分の他にも検証を行っている人がおり、その人は全く逆の結論を導き出していた。幸い、自分のフレにその人と全く同じ条件で合成を行える人がいるので、その人の公表しているデータが正しいものであるかどうかを検証するために、フレにデータ収集の協力をお願いすることにした。

意味の無い検証

残念ながら、一生懸命行っていても、意味の無い検証が行われることもある。データの量だけは沢山あるが分析することが全く無意味である場合や、そもそもデータが取られていない場合などが該当する。
そのほかには、以下のような場合が意味の無い検証として考えられる。

  • データの量が少ない
    自分では十分であると思っていても、実際にはデータ量としては不十分な場合がある。例えば、「この材料で○○が合成できるか」という検証は1回か2回の試行で十分であろうが、「この装備の場合の命中率は何%か」という検証を行う場合には、100回でも十分とは言い難い。

概ねの目安は以下

    • ある事象が真か偽かを調べる場合…
      仮説を立て、それを証明出来れば1回でよい。但し仮説を立て間違えると悪魔の証明をやる羽目になる。

    • 命中率のような真か偽かの結果を積み重ねて確率をはじき出したい場合…
      どの程度データを取れば十分かは信頼区間と呼ぶ。例えば、100回攻撃し内50回命中したとすると、おおよそ95%の確率で40%~60%の範囲の命中率である事が分かる。誤差をプラスマイナス1%にしたければ、約1万回ほどの試行が必要である。
      統計学やQC手法などを応用することで妥当な試行回数が割りだせるが、計算方法が少々複雑な為、単に検証の回数だけを調べたいのであれば信頼区間の計算ができるウェブサイトなりを頼るのが良いだろう。

    • ダメージ分布など、定量値のデータを積み重ねる場合。…
      人によりけり。品質工学を応用する場合、正規分布の近似に必要なデータ数が30~50と言われており、母集団の近似であれば100個もデータは要らない。勿論数が増えれば精度も上がるので、コストが許せば千でも万でもデータを集めるのがなお良い。

たとえば戦績矢を乱れ打ちしたときの命中数の期待値を調べるのであれば、試行回数は30回でよい。*4
木の矢を使って遠隔攻撃命中率調べるのであれば、1000回試行しても下手をすると疑義がつく*5。但しダメージ分布であれば相当高精度のデータが得られる*6

  • 条件が一定ではない
    データ取得の際には、一定の条件を保っておく必要がある。例えば武器D値に対するダメージ検証する場合には、武器を変更してはならない。Dが1しか違わないから、と別な武器と交換しながら取ったデータの意味は失われるので注意が必要である。*7

  • 捏造している
    最もやってはいけないことである。捏造する明確な意思はなくとも、「今のミスは見てなかったことにしよう」とか「1時間間隔で集計しているが、あと1体だけ敵を倒そう」とか言う手心を加えるのも捏造のひとつである。但し疑義をつけるに足る要件があるならコメントをつけて測定ミスとして除外するのは捏造とは異なる。
    なお、意図しないミスが織り込まれる分を何とかしたいのであれば、試行回数を増やして、1サンプルあたりのデータの重みを分散するしかない。
    早い話が正確性が期待できないのなら数を取れ、と言うことである。

例外:開発スタッフが使う「検証

検証中、というのは開発中の意味であり、ユーザーによる検証とは意味が異なるため誤解してはならない。
*1
現在の精霊魔法ダメージ量を求める式や、SV関数攻防関数などは、先行者がデータを収集して分析した賜物である。
*2
例えば、盾に関する大幅な仕様変更により、バージョンアップ以前のデータが(バージョンアップ以前との比較を行う場合を除いては)意味が無くなってしまった(「盾タイプ」を参照)
*3
できれば「検証不可能」という結論は、検証内容確認の時点で判断したい。極端な例だと「タルタルエルヴァーンのどっちが可愛いか」といった疑問に対しての検証は不可能である。
*4
そしてそのデータを30回取る価値と意味はない。
*5
サンプリング定理で行けば分解能とデータ数に2倍以上の開きがないため試行不十分となる。
*6
正規分布に近似させる場合1000回もサンプルがあれば乖離はほとんど見られない。
*7
例えば、D18の武器とD17の武器では、ダメージの計算方法に違いが生じているのは既知のとおりである。
本記事に対して情報がある方は下記コメント機能をご利用ください。