正しい (right)¶

定義 (Definition)¶

最後に、大量のデータがあり、それを巧みに処理するだけでは十分ではない。正しい（right）データを必要としている。データにエラーが多かったり、選択された特徴量が興味のあるターゲットの数値を予測できなければ、学習は失敗するだろう。この状況は「garbage in, garbage out（ごみを入れたら、ごみが出てくる）」という決まり文句でよく言い表される。さらに、予測性能の低さだけが潜在的な結果ではない。予測的取り締まり、履歴書のスクリーニング、融資に使用されるリスクモデルなど、機械学習の機密性の高いアプリケーションでは、ごみデータがもたらす結果に特に警戒しなければならない。よく発生する障害モードの一つは、特定のグループの人々が訓練データに表現されていないデータセットに関するものである。黒い肌を見たことがない皮膚がん認識システムを適用する場合を想像してほしい。データが一部のグループを過小評価しているだけでなく、社会的な偏見を反映している場合にも失敗が発生する。例えば、過去の採用決定を用いて履歴書をスクリーニングするための予測モデルを訓練すると、機械学習モデルは意図せずして歴史的な不平等を捉え、自動化してしまう可能性がある。データサイエンティストが積極的に共謀したり、あるいは認識したりしていなくても、これらすべてが起こり得ることに注意してほしい。

参照 (Reference)¶

この用語の詳細な文脈については Dive into Deep Learning の対応する章を参照してほしい: - 元章で読む