SpamAssassinを導入して何日か経ったが、ものすごく優秀だ。取り逃しはわずか数通、spam誤認識は1通のみ!
設定ファイルは、この辺にあります。中韓台の言語は読めなくても、当地の人から英語のメールを受け取る私にとっては、この辺が肝かな。
1 2 3 |
full EXOTIC_SUBJECT /\nSubject:.*=\?(gb2312|big5|euc-kr|ks_c_5601-1987|koi8-r)\?[bq]/i describe EXOTIC_SUBJECT Exotic subject score EXOTIC_SUBJECT 10.0 |
Subjectが読めない言語で書かれているものは論外。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |
# Exotic EUC header EXOTIC_EUC_CHARSET1 Content-Type =~ /charset=.*(GB2312|EUC-KR|KS_C_5601-1987)/i describe EXOTIC_EUC_CHARSET1 Exotic EUC charset score EXOTIC_EUC_CHARSET1 0.00001 full EXOTIC_EUC_CHARSET2 /\nContent-Type:.*(\n\s+)?.*charset=.*(GB2312|EUC-KR|KS_C_5601-1987)/i describe EXOTIC_EUC_CHARSET2 Exotic EUC charset in multipart score EXOTIC_EUC_CHARSET2 0.00001 body EUC_BODY /([\xA1-\xFE]{2}){2}/i describe EUC_BODY EUC body score EUC_BODY 0.00001 meta EXOTIC_EUC_MESSAGE (EXOTIC_EUC_CHARSET1 || EXOTIC_EUC_CHARSET2) && EUC_BODY describe EXOTIC_EUC_MESSAGE Exotic EUC message score EXOTIC_EUC_MESSAGE 10.0 |
EUC系のエンコーディングを主張するメールに、実際にそうしたバイト列が入っているかを見ています。あと正規表現の「/\nContent-Type:.*(\n\s+)?.*charset=.*(GB2312|EUC-KR|KS_C_5601-1987)/i」の部分は、メールヘッダの規格に沿って巧妙にスペースや改行を入れているspamも多いので、こうしないと全部引っかかってくれないのです。
このほか、KOI8-Rの対応も入っています。
※最初、スコアを「0.0」にしていたが、それだと評価されないことがわかったので「0.00001」としました。その他随時改良しているので、上記を鵜呑みにせず最新の情報・ファイルを見てください。