web-dev-qa-db-ja.com

Gmailの件名にアニメーション絵文字を含むメッセージをフィルタリングするにはどうすればよいですか?

迷惑メールフォルダーを探し回っていました(Gmailに誤検出がほとんどないため、めったに行いません)。

sample list of spam messages

メッセージの半分以上のようなものには、件名に少なくとも1つのアニメーション絵文字が含まれています。

私の友人の誰もそのがらくたを使用しません。私が取引をする有効な会社は、これも行いません。

主題にアニメーション絵文字を含むメッセージを自動削除するためのフィルターを作成するにはどうすればよいですか?

以下の jamesmstone の手がかりを使用して、subject:=?UTF-8?およびsubject:"=?UTF-8?"および他のいくつかの順列で検索を試みましたが、どれも機能しませんでした。

これらの蒸し杭の1つからのヘッダーのサンプルセットを次に示します。

Delivered-To: [redacted]@gmail.com
Received: by 10.107.28.200 with SMTP id c191csp1104992ioc;
        Sun, 24 Jan 2016 19:07:16 -0800 (PST)
X-Received: by 10.107.38.5 with SMTP id m5mr15068933iom.15.1453691236564;
        Sun, 24 Jan 2016 19:07:16 -0800 (PST)
Return-Path: <[email protected]>
Received: from mythirdxyz.xyz ([2a04:5b00:a2d0:3d74:37fd:ee71:efe6:6e11])
        by mx.google.com with ESMTP id o10si8722554igw.41.2016.01.24.19.07.15
        for <[redacted]@gmail.com>;
        Sun, 24 Jan 2016 19:07:16 -0800 (PST)
Received-SPF: pass (google.com: domain of [email protected] designates 2a04:5b00:a2d0:3d74:37fd:ee71:efe6:6e11 as permitted sender) client-ip=2a04:5b00:a2d0:3d74:37fd:ee71:efe6:6e11;
Authentication-Results: mx.google.com;
       spf=pass (google.com: domain of [email protected] designates 2a04:5b00:a2d0:3d74:37fd:ee71:efe6:6e11 as permitted sender) [email protected];
       dkim=pass [email protected];
       dmarc=pass (p=REJECT dis=NONE) header.from=mythirdxyz.xyz
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=mythirdxyz.xyz; 
 [email protected]; q=dns/txt; s=default; t=1453691229; 
 bh=GuM9JCP4yh7WfVbRBortR7UAr6DAtlgy0oTCna0iWQk=; h=MIME-Version : 
 Content-Type : Content-Transfer-Encoding : To : From : Subject : Date : 
 Message-ID : From : Subject : Date; 
 b=e/zS14UB4o5MhYlfbpsy0h2G/oZyoC5H3ouyhNh13zcSHSNXzI6uvJpIy9a+za2ng26Xe2
 NfAI7nenAMCdHJSGF4yfmtTi3+XrR2MqQPHQ1fzTXGhRy/ktCj4tEqt7DhSxnRCqkYFUNaLA
 wh3FMLr6IxPi2Z7xUXm3JBffhDcSU=
MIME-Version: 1.0
Content-Type: text/html; charset="utf-8"
Content-Transfer-Encoding: base64
To: [redacted]@gmail.com
From: "APPROVAL DEPARTMENT" <[email protected]>
Subject: =?utf-8?q?=F3=BE=93=A0_Personal_loan_as_soon_as_tomorrow_=F3=BE=93=A0?=
Date: Sun, 24 Jan 2016 19:07:09 -0800
Message-ID: <[email protected]>
27
ale

簡潔な答え

元のメッセージのエンコードされた絵文字を検索するために、Gmail検索機能に依存するGmailフィルターを使用する代わりに、Google Appsスクリプトの GmailMessage :: getRawContent() メソッドを使用してメッセージを処理するスクリプトを作成します。

関連する質問

以下は、参照された方法を使用したスクリプトを含む、このサイトの同様の質問への回答へのリンクです。

10
Rubén

そのような目的でGoogle Apps Scriptを作成しました。

Githubにあります: https://github.com/spamzero/spamzero

スパムメッセージフォルダーと照合できるあらゆる種類の高度なルールを作成できるため、間違いなくスパムであるメッセージは自動的にクリーンアップされます。

4
Spam Zero

これは、あなたが求めているものではありません(絵文字でメッセージをフィルタリングするのではなく、絵文字自体をフィルタリングします)が、より優れたメッセージフィルターを構築するのに役立つコンテンツを見つけることができます。

現在、オープンソースのGreasemonkey/Tampermonkey/Violentmonkeyユーザースクリプトがあり、これらの刺激的な視覚的なゴキブリ(メッセージ自体ではなく、文字のみ)を取り除きます。

Gmail Subject Line Emoji Roach Motel

そのスクリプトのソース を見ると、虐待的なマーケティング担当者(残念ながらeBayやAmazonを含む)からの電子メールにある2つの一般的な絵文字ゴキブリがあります。

  • HTML画像ベースのゴキブリ(恐ろしいアニメーションを含む)別名 goomoji

  • Unicodeゴキブリ:スパム送信者やその他のかつてのマーケティング担当者が電子メールの件名行で使用し始め、GmailがHTML画像に変換しない絵文字(および写真を生成する他のUnicodeシーケンス)がまだたくさんあります。一部のブラウザでは、これらは太字と色で表示されますが、これはアニメーションとほとんど同じです。ブラウザcouldもこれらをアニメートすることを選択しますが、そうするかどうかはわかりません。これらのUnicodeシーケンスはブラウザによってUnicodeテキストとして表示されるため、正確な外観(色の有無、アニメーションの有無)は、ブラウザが使用しているテキストレンダリングシステムによって異なります。特定のUnicode絵文字の外観は、Unicodeコードポイントシーケンスでその近くに表示される nicodeバリエーションセレクターおよび絵文字修飾子 にも依存します。画像ベースの絵文字スパムとは異なり、これらのシーケンスは、ブラウザからUnicodeテキストとして他のアプリにコピーアンドペーストできます。

後者のタイプの場合、userscriptには、マーケティング担当者に悪用される可能性のあるUnicodeシーケンスをキャプチャするために設計された正規表現が含まれます。 ES6 Javascriptでは正規表現は次のようになります(ユーザースクリプトは、驚くべき ES6 Regex Transpiler を使用して、広くサポートされているES6以前の正規表現に変換します):

var re = /(\p{Emoji_Modifier_Base}\p{Emoji_Modifier}?|\p{Emoji_Presentation}|\p{Emoji}\uFE0F|[\u{2100}-\u{2BFF}\u{E000}-\u{F8FF}\u{1D000}-\u{1F5FF}\u{1F650}-\u{1FA6F}\u{F0000}-\u{FFFFF}\u{100000}-\u{10FFFF}])\s*/gu

// which includes the Unicode Emoji pattern from
//   https://github.com/tc39/proposal-regexp-unicode-property-escapes
// plus also these blocks frequently used for spammy emojis
// (see https://en.wikipedia.org/wiki/Unicode_block ):
//   U+2100..U+2BFF     Arrows, Dingbats, Box Drawing, ...
//   U+E000..U+F8FF     Private Use Area (gmail generates them for some emoji)
//   U+1D000..U+1F5FF   Musical Symbols, Playing Cards (sigh), Pictographs, ...
//   U+1F650..U+1FA6F   Ornamental Dingbats, Transport and Map symbols, ...
//   U+F0000..U+FFFFF   Supplementary Private Use Area-A
//   U+100000..U+10FFFF Supplementary Private Use Area-B
// plus any space AFTER the discovered emoji spam
1
Louis Semprini