- 週間ランキング
このプロジェクトは、司法省の「憎しみに対する事実」プログラムの一環として、オンライン環境におけるヘイトスピーチを認識する人工知能(AI)の能力をテストしたものです。このアプローチでは、人間による評価と機械学習が組み合わせられました。1つの重要な目的は、ヘイトスピーチの主なチャンネルを見つけ、プラットフォームごとのヘイトスピーチの違いを明らかにすることでした。
ヘイトスピーチの定義は、社会科学の学術研究に基づいています。この定義は、ヘイトスピーチのカテゴリーを作成して決定され、オンライン上のメッセージのデータセットに含まれるヘイトスピーチの例を手作業で識別するために使用されました。付けられたラベルは、テキスト分析と機械学習を活用する言語独立ツール「ユートピアAIモデレーター」の訓練データとして使用されました。データセットは、2020年9月から10月までのフィンランド語のコメントや投稿1200万件です。
その結果、一般に公開されているフィンランドのソーシャルメディア上には、ヘイトスピーチを含むメッセージが毎月約15万件出現していることが分かりました。これは全メッセージの約1.8%を占めます。
一般的な国際ソーシャルメディアの中では、ツイッターが最も目立っており、ヘイトスピーチと識別されたメッセージは7450件で、全ツイートの0.14%に当たります。このようなメッセージの流布には、リツイートが大きな役割を果たします。ヘイトスピーチ・ツイートの39%は、複製されたものでした。
ユートピア最高経営責任者(CEO)のマリサンナ・パウッケリ博士は、次のように述べています。「データセットは主にフィンランド語のメッセージで構成されていますが、他の言語でも同じような結果になるでしょう。例えば、フィンランド語のヘイトスピーチの主要なプラットフォームであるYlilautaは、一般的に知られている4chanと同種のものです。さらに、私たちはあらゆる言語のヘイトスピーチを識別する同様のAIモデルを、わずか2週間で構築することができます。そのためには、対象とする文化でヘイトスピーチがどのように定義されているかをスキルのある人から聞くだけでよく、そして分析すべきデータがあればよいのです。」
メディア・ライブラリーおよび写真:https://utopiaanalytics.com/media-library
本記者発表文の公式バージョンはオリジナル言語版です。翻訳言語版は、読者の便宜を図る目的で提供されたものであり、法的効力を持ちません。翻訳言語版を資料としてご利用になる際には、法的効力を有する唯一のバージョンであるオリジナル言語版と照らし合わせて頂くようお願い致します。
Janne Huuskonen
Director
janne.huuskonen@utopiaanalytics.com
+358 50 444 0941
utopiaanalytics.com