CS論文輪読会 (On textual analysis and machine learning for cyberstalking detection)

2020-02-08-公開

友人のkangetsu121さん (@kangetsu_121) と始めた論文輪読会

第2回目となる今回は私の担当でした(第1回目はkangetsu121さん担当)。

ということで紹介した論文。

On textual analysis and machine learning for cyberstalking detection. (2016)

以下、論文の概要と紹介用に作成したメモを掲載します。

論文概要

本論文は「Cyberstalking」というものに着目。言うなればネット上での粘着行為、メッセージによる嫌がらせ行為等でしょうか。

テキスト分析と機械学習を活用し、このサイバーストーキングの検知と証拠集めを行うための枠組み (Anti Cyberstalking Text-based System; ACTS) を提案しています。

このACTSは5つのメインモジュールからなります。

  1. 検知モジュール detection
  2. 攻撃者同定モジュール attacker identification
  3. パーソナライゼーションモジュール personalisation
  4. 集積器モジュール aggregator
  5. 証拠収集モジュール evidence collector

1, 2, 3それぞれでメッセージのサイバーストーキング度合いのようなものを算出し、4で最終判断を下します。5は後の法的措置も視野に入れて、証拠を抽出・保存するモジュールです。2の精度を高めるためにサイバーストーキングメッセージの特徴を抽出・保存も行っています。

「2. 同定モジュール」が重要らしいのですが、同定モジュールには4つのコンポーネントがあります。

  1. 帰属 attribution
  2. 確認 verification
  3. プロファイリング profiling
  4. 再利用検知 reuse detection

※なお、本論文は枠組みを提案するに留まっており、実装・実証は論文中では行っていません*1

論文情報

著者

Ingo Frommholzm, Haider M. al-Khateeb, Martin Potthast, Zinnar Ghasem, Mitul Shukla, Emma Short

※以下の所属等の情報は当時と今のものが混ざっている可能性あり。敬称略。

1st: Ingo Frommholz

2nd: Haider M. al-Khateeb

  • Northumbria University (London Campus)のassociate lecture
  • specialises in Cyber Security, Digital Forensics and Incident Response (DFIR)

3rd: Martin Potthast

  • Bauhaus-Universitat Weimar?
  • Postdoc and Tech Lead
  • 機械学習・テキストマイニング・NLPなど?

4th: Zinnar Ghasem

  • AUK (American University of Kurdistan) イラクの大学
  • faculty member
  • IT産業でコンピュータエンジニアとして働いていた
  • サイバーセキュリティ、情報セキュリティ、サイバー犯罪、ユーザ認証、機械学習、分類、メール検知、フィルタリング

5th: Mitul Shukla

  • ベッドフォードシャー大学
  • Lecturer in Computer Science and Technology
  • ソーシャルメディアテクノロジー

6th: Emma Short

2016当時の所属情報

  • The National Centre for Cyberstalking Research, Institute for Research in Applicable Computing, University of Bedfordshire, Luton, UK

  • Web Technology and Information Systems, Bauhaus-Universitat Weimar, Weimar, Germany

    • Potthast M のみ

掲載雑誌

  • Datenbank-Spektrum
  • IF: ?
  • データベース技術と情報検索のジャーナル

被引用件数

  • 59件 (2020/2/7 21:27 時点)

本文まとめ

1 Introduction

  • サイバーストーキング等、サイバー空間で発生したインシデントは物理世界にも影響を及ぼす。
  • ひどいものだと被害者が日々のルーチンをこなせなくなったり、引っ越しや転職を余儀なくされたりもする。
  • 本論文でのサイバーストーキングメッセージの定義
    1. 望まれていない、歓迎されていない
    2. 送信者が知り合い・見ず知らずの人だが、party(加害者)がdetermined / motivated (やる気まんまん?)
    3. 特定の個人(被害者)を標的とした意図的なコミュニケーションが行われる
    4. しつこい
  • 4週間以内に望まれていないメッセージが10通以上あるとき、しつこい行動と見なされる(NCCRにおいて)
  • テキストが普遍的なコンテンツになった今、テキスト分析と情報検索(IR)が重要な役割を果たす

2 Finding solutions to curtail cyber harassment and cyberstalking

  • 望まないコミュニケーションを防ぐ方法には、プライバシーを守るためのやり取りの暗号化とインテグリティチェック(ソフトウェアにデジタル署名しておく方法)がある
  • IDチェックが推奨されている
    • -> 望まないコミュニケーションは防げるが、前もってやり取りを許可するホワイトリストアプローチのため、ペアレンタルコントロールなどには良いが、大人には不便
  • よい解決策はIDや電話番号のブロック
    • -> オンラインでのアクセスを制限されずに望まないコミュニケーションをコントロールできる
    • -> しかし、サイバー空間内の匿名者たちを防ぐことはできない
      • メールのヘッダーをいじる、新しいSNSアカウントを作成する、PETを使用してIPアドレスを秘匿するなどですり抜けられてしまう
      • ※PET (Privacy Enhancing Technologies)
        • 「個人情報の不正な収集、利用および開示を防ぎ、個人情報を個人が管理する事が出来るようにし、情報システムの個人のプライバシーの保護を強化する情報通信技術(ICT)」(出典: プライバシーバイデザイン - Wikipedia
  • 著者分析は自動返信(自動処理?)に役立つ
    • 年齢、性別、物理的な所在地等を文脈的手掛かりから見出す
  • 検知は適切な行動を取りインシデントを軽減するためのファーストステップ
    • スーパーバイザーに警告を出す、コミュニケーションをブロックする、証拠を残す

3 A framework for automatic cyberstalking detection in texts

  • Anti Cyberstalking Text-based System (ACTS) というフレームワークを提案
  • テキストベースのサイバーストーキングの自動検知と証拠収集を行うためのシステム
    • メール、MMS(マルチメディアメッセージングサービス;キャリア独自のメールアドレスによるリッチなチャットサービスのようなもの)、SMS、チャットメッセージ、ツイートソーシャルメディア、インスタントメッセージ
  • 現在、ACTSのプロトタイプを実装中でデータ収集プロセスが走っている
  • ユーザのコンピュータやモバイルデバイス上で実行される
    • テキストベースのサイバーストーキングを検知、フィルタリングする
    • Fig 1
  • 5つのメインモジュールからなる
    • 攻撃者同定、検知、パーソナライゼーション、集積器、証拠収集器
    • attacker identification, detection, personalisation, aggregator, and evidence collector
  • 新しいメッセージを受け取ったら、メインモジュールに入る前にまずメタデータとブラックリストを照合してフィルタリングを行う
    • メールのヘッダーやツイッターの送信者情報
  • メタデータは改ざんできるため、フィルタリングをくぐり抜けたメッセージについて、同定モジュール、パーソナライゼーションモジュール、検知モジュールを通す。その結果とメッセージが集積器に送られ、最終的な判断が下される

1. 検知モジュール

  • 他のメールフィルタリングシステムと同様、メッセージをサイバーストーキング、純正、グレーに分類する
    • テキスト内容に基づいて分類
    • 望ましくない単語やフレーズに基づくなどしてβを計算

2. 攻撃者同定モジュール

  • 送信者のwriteprints (指紋のようなもの; 文章の構造、語彙、シンタックス、内容といった書き方のスタイル)に基づいて分析
  • 匿名メッセージやなりすましメッセージを検知・明らかにする
    • メタデータからは検知できないがよく知られている攻撃者が送ったようなメッセージ
  • 検知モジュールの手掛かりとしても利用
  • しかし、短いメッセージの著者属性は見出すのが難しい
    • ただし、短いメッセージでは文字数制限から、略語やその他シンボルを使いがち
    • -> 送信者を特定するのに有益な情報をもたらしてくれる
  • 結果はαという値で表現される
    • αの値によって、メッセージがサイバーストーキングでない、サイバーストーキング、グレーに分類される
    • αは集積器に渡される

3. パーソナライゼーションモジュール

  • 何を悪口・脅威と見なすかは個々人(被害者)の主観による
    • 例:子供の誕生日のお祝いメッセージ
    • テキストベースのサイバーストーキングに対抗する一般的なツールの開発を複雑にしている
  • 被害者のコントロールを強めるためのモジュール
    • 自身のルールを定めることができる
  • モジュールはルールベースの構成要素とコード辞書からなる
  • ルールベースの構成要素は、ユーザから与えられた単語、日付、フレーズからなる
    • 例 論文参照
  • コード辞書は、サイバーストーキングでよく使われる単語とフレーズにランク付けしたものからなる
    • ユーザによって更新することも可能
    • ランク値は最初は0に設定されている
      • 受信した(サイバーストーキングの?)メッセージと一致するごとに値は増えていく
  • 辞書による結果とルールベースによる結果はそれぞれλという値で表現される。
    • 両方のλがネガティブならばサイバーストーキングではない

受信したメッセージは前処理される(1~3共通?)

  • ※何のための前処理かは記述なし
  • k-shinglingを使用する
    • shinglingはメッセージの特徴を表現する別の方法
      • メールの分類で使用されてきた
    • n-gramと同じ
  • k-shingleを辞書に対して使用する場合、確率的曖昧性除去という別の手法も使える
    • 確率的なテクニックで、辞書コードデータベースとの関連から、メッセージの攻撃性や深刻さの度合いを測定できる

4. 集積器モジュール

  • 受信したメッセージがサイバーストーキングか否かの最終判断は集積器モジュールで下される
    • これまでの3つのモジュールから受け取ったα、β、λを元にしている
    • メッセージはグレー、サイバーストーキング、非サイバーストーキングに分類される
    • グレーはフラグを立てられ、最終的な判断はユーザーに委ねられる

5. 証拠収集モジュール

  • 新着のサイバーストーキングメッセージから証拠を収集
    • メタデータ、内容、ソースIPアドレス、IPアドレスが使用できないなら次のリレーエージェントサーバ(next server relay in the path)、ドメイン名
    • これらの情報にタイムスタンプとメールヘッダーをつけたものが保存される
      • 被害者のデバイス上の証拠データベースに保存
  • データベースの更新や追加も行う
    • サイバーストーキングメッセージのstylometric プロファイルや関連情報について
  • 多変量正規分布やPCAといった統計的手法を活用し、サイバーストーキングのwriteprintとプロファイルを分析、テキストマイニングを行って似たような特徴、攻撃者の行動、greeting(挨拶), farewell(さよならの挨拶), などを抽出する
    • 特に、匿名メッセージと非匿名メッセージの間の特徴を抽出
  • 証拠は法的処置に重要

4 Digital text forensics for identification

  • サイバーストーキングを検知する枠組みで重要なのは著者同定モジュール
  • Fig2 はこのモジュールの4つの主たる構成要素
    • attribution, verification, profiling, reuse detection
    • これらは、場合によっては並列して呼び出される
    • 証拠を集めるために使われるデジタルテキストフォレンジックタスクのためのコンポーネント
  • この結果は集計され、フレームワークに返される

  • サイバーストーキングの検知と起訴のために、証拠を集めるのは重要

  • ストーカーは匿名のままでいようとするが、そのことが彼らを同定する助けになる

  • 著者不明のテキストが与えられたとき、候補の中でもっとも似ている著者に帰属させるか、他のテキストと同じ著者によって書かれたかどうかを確認するかが行われる

    • サイバーストーキング検知の補完的な問題

1. 帰属 attribution

  • forensic linguistics(法言語学)における伝統的なタスクと対応
    • 候補者を出して、対象を同定する
    • 有効なサンプルを候補者それぞれから集める必要がある
    • それぞれの候補者をクラスとする多クラス分類課題になる

2. 確認 verification

  • one-class classification 問題
  • テキストがターゲットクラスの1人の著者によるものか否かを確認する
    • サイバーストーキング検知でよく挙げられる問題
    • 例:メッセージがとある送信者によるものかどうか確認するために、その人から送られた過去のメッセージと関連するかどうか確認する

3. プロファイリング profiling

  • 攻撃的なメッセージ送信者についてほとんど何も分かっていないとき、帰属や確認は使用に適さない
  • 最低限、著者のデモグラフィックを決定するためにプロファイリングが適用される
    • 書きのスタイルと年齢、性別、出身地、母語、パーソナリティなどのデモグラフィックとを関連付ける
    • 多クラス分類課題として位置づけられる
  • 容疑者の絞り込みに役立つ

4. 再利用検知 reuse detection

  • メッセージの自動アセスメントはそのメッセージが実際にその送信者によって書かれたということを仮定している
  • この仮定が成り立たないこともある
    • 攻撃者が、書きスタイルによって分析されていると気づいて難読化させるなど
    • 他者の文章を再利用して自身の書きスタイルを消すなどされた場合、フォレンジックソフトウェアも人間による法言語学もミスリーディングされてしまう
  • そのため、再利用検知がフォレンジック分析に不可欠になる
  • 再利用されたテキストを同定し、そのソースと思われるものを検索する
  • ソースとなるメッセージそのものがなくとも、書きスタイルの分析が役に立つ
    • 書きスタイルが文章内で変化するなど、複数の著者の文章の合成文であることの証拠になったりする
  • (おそらく、再利用と判断されたテキストはサイバーストーキングと判断される?)

PANワークショップ

  • 4つの手法はこれまでの20年間にさまざまなアプローチが提案されてきたが、スタンダードベンチマークの開発はほとんど行われていないため、結果の比較が難しい
  • このギャップを埋めるため、デジタルテキストフォレンジックスのためのPANワークショップが2009年に始められた
    • 課題を共有する
  • ※4手法それぞれにおけるPANの結果への引用もある

限界

  • メッセージが短く、同一著者からのメッセージが少ない場合はサイバーストーキング検知はうまく機能しない

5 Conclusion and future work

  • 望ましくないメッセージを受け取った際にとる行動を支援するようなメカニズムの開発を将来的には行いたい
  • 機械学習は、パーソナライズされた最適なアクションをユーザーにガイドするインテリジェンスを提供できる

感想・メモ

  • 各手法の具体的方法は?引用文献?
    • 具体的にどのように機械学習するのか、特徴量をどうやって作るのか、といった話は本文中にはほとんど無い
  • 実装した論文・事例等を探してみる必要がある
  • 手掛かりを探したりプロファイリングを行ったり、サイバー空間上での犯罪捜査プロセスのような印象
    • 指紋 (fingerprint) のようなものとしてのwriteprintsなどまさにフォレンジックという感じ
  • 機械学習の例としてメールのスパム検知がよく紹介されるが、本腰を入れてサイバーストーキングを検知しようとすると、ここまで複数のモジュール、コンポーネントを組み合わせる必要があるというのは面白い

*1:「ACTSのプロトタイプを実装中」と本文中に記載がありました。