セキュリティ製品の評価テストマニアを自認する筆者(※)はMITRE ATT&CKフレームワークにも注目してきました。そうした中、今週、COZY BEARの異名をもつサイバー犯罪集団「APT29」を対象にしたMITRE ATT&CKによる最新の評価結果が発表されました。
以下は、トレンドマイクロの製品に関する評価結果の概要となります。
- 総検知率(Overall Detection Rate)91.79%:21ベンダ中第2位
- 設定変更なしの検知率91.04%:評価テストでは、評価結果を高くするために開始後に製品構成の設定を変更できるが、変更なしでも高い検知率を保持
- テレメトリー 107:攻撃関連イベントの検知する数値であり、非常に高い値を示している
- アラート 28:数値として中間値と言える。アラートの件数は多すぎても少なすぎても問題。テレメトリーが重要だと感じる一方で、テレメトリーなどにおいてのみアラートは設定変更が可能である
これらの数値からは、トレンドマイクロの法人向けエンドポイント製品「Trend Micro Apex One™」が卑劣で冷酷なサイバー犯罪集団APT29に遭遇しても適切に対処したことがうかがえます。なお、これらは概要を示したものであり、評価テスト結果のすべてのニュアンスを捉えているわけではありません。以下、MITRE ATT&CKフレームワークの概要と合わせ、今回のテスト結果で筆者が理解した重要ポイントを解説します。
■重要ポイント1:現実の攻撃シナリオに即した評価である
MITRE ATT&CKフレームワークは、特定の攻撃者による実際の攻撃手法とSOCや製品元が使用する検知モデルを組み合わせている点が特徴です。MITRE ATT&CKフレームワークがこの組み合わせによって評価する一方、解析の現場では、想定された攻撃者の手法に対してセキュリティ製品がどのように対処するかという視点で評価されます。実際、現実の攻撃手法によるペネトレーションテストと攻撃手法を想定した解析現場のテストでは明確な隔たりがあり、そうした中、MITRE ATT&CKフレームワークは、双方の組み合わせに成功しています。特にサイバー犯罪集団APT29に対しては、MITRE ATT&CKフレームワークの評価結果は非常に興味深いものと言えます。APT29の攻撃は、極めて巧妙であり、国家支援を受けている可能性も指摘されており、ホワイトハウスと米国民主党を標的したことでも知られています。また、APT29による攻撃で使用されるマルウェアファミリーでは、バックドア、ドロッパー、難読化、情報送出の手法などが駆使されます。
■重要ポイント2:他の評価機関の結果と合わせて全体像を把握することが必要
MITRE ATT&CKフレームワークによる評価の場合、特定の攻撃シナリオのみに依存していることによる一定のトレードオフが不可避となります。それでも、特定の攻撃シナリオは現実に基づいているため、セキュリティ製品の性能をより良く理解できる話が含まれていると言えます。また、今回公表されたサイバー犯罪集団APT29の攻撃を巡る評価結果では、トレンドマイクロ製品が高く評価されましたが、他の評価機関でも同等の結果が得られているという理解は重要です。実際、ITコンサルティング会社Gartner社による市場評価「マジック・クアドラント」やセキュリティ企業評価機関NSS Labによる「バリュー・マップ」と合わせ、特定のセキュリティ製品がどのような経緯で高評価に至ったかの軌跡を確認することで全体像を把握できます。
■重要ポイント3:検知機能にフォーカスした評価テストである
MITRE ATT&CKフレームワークによる他の評価テストと同様、今回のAPT29の場合も、検知にフォーカスした評価テストであり、他の防止策や製品の他の部分(サポートサービス等)は対象外となっていました。この意味で、攻撃をブロックする製品全体の能力が評価対象となっていない点は、今後の改善点と言えます。このため、テストの一部を実行する際、ブロック機能を無効にする必要がありました。いわば「攻撃を行う犬が階下を歩き回っている状態」では、上の階の警報装置を正しく評価できないためです。そもそも検知ができなければ攻撃に対して上手く対処できないことから、テストでは「ブロックできるものは検知できる」という考えにフォーカスしていたようです。しかしこのため、一部のペネトレーションテストで「Bが発生し得る前にAがそれを止める」ため、特定のシナリオは現実的ではないという批判もあります。実際、多くのIPSのシグネチャ作成者はこれに賛成するでしょう。筆者はこうした制限やスコープがあることを踏まえた上で、MITER が構築した評価手法を支持していますが、読者においてもこれらを理解する必要があるでしょう。ただ、次回の評価テストでは、防御力(ブロック機能)も含まれると思っており、そうなれば素晴らしいですね。
■重要ポイント4:評価結果分析は天気予報に匹敵する難しさがある
MITRE ATT&CKフレームワークによる評価は、雑誌の製品レビュー記事のようなものではなく、最終的な結果や他の製品との比較を記載しているわけではありません。MITRE ATT&CKフレームワークによる評価結果を十分に理解することは、数十の適正かつ複雑な気象情報が提供される中で天気予報をしなければならない状況に似ています。もしくは、さまざまなプレスリリースの情報が入り乱れる中、適切な判断を下さなければならない状況に似ています。筆者自身、最新の評価結果をチェックして複数のブログ記事やプレスリリースを読んでいると、手元のデータがそうではなかったとしても、優れた評価が下されているものだと説得されてしまいがちです。工夫が施された記述は、データに依拠した実情を言明せず、さまざまな角度からの解釈が可能であり、独創的でさえあります。こうした記述からは「ピッキング攻撃を想定せず施錠のセキュリティを語っている愚」というピッキング名手「Lockpicking Lawyer」の批判めいたセリフさえ思い起こされました。
調査機関Forrester社のJosh Zelonis氏は、評価結果をパースするために必要な作業の例を示しており、拡張分析をGithubのサイトで提供しています。そしてこの例からは、素晴らしい評価結果の場合でさえ、正しく分析するためには各カテゴリーが意味するものの理解が不可欠なことがうかがえます。こうした点からも、MITRE ATT&CKフレームワーク側では「テストは実行するが、データの分析はお任せする」というスタンスを堅持し、対象の攻撃を限定しつつも、さまざまなユーザ事例やSOCのワークフローをカバーしようとしている姿勢が理解できます。これは、分析が必要なユーザにとっては大変なことですが、評価結果を正しく分析するためには、評価結果のレポートや用語、各カテゴリーが意味するものなど、多数のニュアンスを理解する必要があります。
Josh Zelonis氏の例に頼らず、筆者の判断で有益な評価指標を1つ選択するならば、「検知率(Detection Rate)」がまず挙げられるでしょう。なお、サイバー犯罪集団APT29の攻撃を対象にした評価では、どの製品においても検知率が100%ではなかった点は留意が必要です。2つ目に有益な指標としては「手法(Techniques)」および「テレメトリー(Telemetry)」が挙げられます。項目としては「戦術(Tactics)」の方が有益な指標のように聞こえますが、MITRE ATT&CKフレームワークでは「戦術(Tactics)」は「手法(Techniques)」よりも有益とは言えない位置づけです。「戦術(Tactics)」では「何かが外にいる」という一般化された表現で示す指標である一方、「手法(Techniques)」では「獰猛な雄ライオンがドアの外にいる」というより具体的な検知内容を示す指標となるからです。この点から、「手法(Techniques)」のスコアが高く「戦術(Tactics)」のスコアが低いことは、優れた結果であると解釈することができます。「テレメトリー(Telemetry)」のスコアはちょうどよい結果でしょう。「アラート(Alerts)」の場合は、多すぎずると騒々しく負担となり、少なすぎると「たった5分前にライオンを見た」といったように間に合わないリスクがあり、この場合、中間値がベストと言えます。
その他、筆者にとって価値があると判断した評価結果は以下になります。MITRE ATT&CK評価ページのTrend Micro概要ページを見ると、評価ステップにおける検知関連の情報や、合計134ステップ中からの検知関連のステップ数が把握できます。このデータの分析に際しては、まず人間が関与したステップを除外し、さらにMSSP(Managed Security Service Provider)関連のステップを除外して、これらと関与のないデータのみを確認しました。ただしこの場合、確認された20のステップは、評価ステップ全体に分散しているため、Joshのスプレッドシートを使用して134ステップ中の115ステップに限定し、全体の85.82%を確認しました。
さらに評価対象すべての製品の可視性スコアを平均化し、これにより最終的には全体の66.63%となり、ほぼ30%少なくなっています。このことから、評価結果の分析にはさらなるデータの収集と解釈が必要であるという教訓に加え、すべての評価ステップを100%カバーする製品は存在せず、しかも評価ステップの分散も不可避であることが理解できます。MSSPの検知における人間の関与を考慮するとトレンドマイクロの数値は91%となり、この点ではエンドポイント開発チームから歓迎の声が聞こえてきそうです。しかし、もしMSSPのサービスを除外すると、筆者のポイントが分かるかと思います。なお、分析に際してMSSPの要素を除外することで、そこに含まれていた本来の検知数が除外されるため、検知率が必要以上に低下する状況が発生します。この点については今後の投稿で検討することとします。セキュリティ製品の評価テストマニアである筆者にとって研究対象は尽きることがありません。
■重要ポイント5:評価結果から得られたデータこそ価値がある
筆者がセキュリティ製品の評価テストマニアであることはさておき、今回の評価結果は素晴らしいものであり、得られたデータは非常に貴重なものであると言えます。このような評価テストを実施することで、セキュリティ製品およびその使用方法の改善を期待できます。こうした点からも、MITRE ATT&CKフレームワークを掘り下げ、製品の評価だけでなく、攻撃の検知や対応に際して企業や組織のセキュリティ対策の枠組みを構築し、さまざまな攻撃キャンペーンへの対処法を検討していくことが可能になるでしょう。サイバー犯罪集団APT29の攻撃を巡る評価結果に関しては、これからも投稿を続けていきます。
※筆者は、以前、コンピュータセキュリティ国際規格「Common Criteria」の検査官として米政府のコンピュータセキュリティ基準「FIPS PUB 140-2(Federal Information Processing Standard Publication 140-2)」を請け負う機関で勤務していました。このFIPSのレベル4では、誰もが固まってしまうほど難解なエクスプロイトと格闘することもありました。実際、システムデザイン手法「Formal Methods」の「GYPSY」を駆使して「XはXに等しい!そこは証明する必要はなかった!」などと叫んでは苦労していました。論理パーティションを駆使した際は、メインフレームOS「MVS」やコマンド「RACF」に対する評価基準「Orange Book B1」による移植性テスト実行のため、穴蔵のようなところに籠もっていました。当時の数か月は人生の中でかけがえないものでした。現在は、NSS LabsやICSA Labsなどのほとんどのセキュリティ評価機関およびその枠組みに積極的に関わってきました(高慢な言い方かもしれませんが、評価テストマニアとしてはこれらの機関から多くのことが学べると考えているからです)。これらの機関との関係は数十年に及び、セキュリティ評価の範囲や限界を知っておくことは、いかなる製品を購入する上でも重要と言えます。筆者のような元Common Criteria検査官の評価テストマニアを笑わせたいならば、指摘された箇所を指差して「ここは問題ではない。誤って評価範囲に含まれただけ」と言うだけで十分です。しかし一方、暗号化に伴い範囲指定が困難となる現実に直面する中、実際のFIPS担当者は、大いに頭を悩ますことになるでしょう。現在の評価テスト担当者にとっては笑って済ませられる問題ではなくなっているからです。その意味では、以前のCommon Criteriaは、もはや評価テスト界の主流ではなくなっていると言えます。
参考記事:
- 「Getting ATT&CKed By A Cozy Bear And Being Really Happy About It: What MITRE Evaluations Are, and How To Read Them」
By Greg Young (Vice President for Cybersecurity)
翻訳: 与那城 務(Core Technology Marketing, Trend Micro™ Research)