Menu

SpamAssassin強い!

 SpamAssassinを導入して何日か経ったが、ものすごく優秀だ。取り逃しはわずか数通、spam誤認識は1通のみ!

 設定ファイルは、この辺にあります。中韓台の言語は読めなくても、当地の人から英語のメールを受け取る私にとっては、この辺が肝かな。


full EXOTIC_SUBJECT /\nSubject:.*=\?(gb2312|big5|euc-kr|ks_c_5601-1987|koi8-r)\?[bq]/i
describe EXOTIC_SUBJECT Exotic subject
score EXOTIC_SUBJECT 10.0

 Subjectが読めない言語で書かれているものは論外。


# Exotic EUC
header EXOTIC_EUC_CHARSET1 Content-Type =~ /charset=.*(GB2312|EUC-KR|KS_C_5601-1987)/i
describe EXOTIC_EUC_CHARSET1 Exotic EUC charset
score EXOTIC_EUC_CHARSET1 0.00001

full EXOTIC_EUC_CHARSET2 /\nContent-Type:.*(\n\s+)?.*charset=.*(GB2312|EUC-KR|KS_C_5601-1987)/i
describe EXOTIC_EUC_CHARSET2 Exotic EUC charset in multipart
score EXOTIC_EUC_CHARSET2 0.00001

body EUC_BODY /([\xA1-\xFE]{2}){2}/i
describe EUC_BODY EUC body
score EUC_BODY 0.00001

meta EXOTIC_EUC_MESSAGE (EXOTIC_EUC_CHARSET1 || EXOTIC_EUC_CHARSET2) && EUC_BODY
describe EXOTIC_EUC_MESSAGE Exotic EUC message
score EXOTIC_EUC_MESSAGE 10.0

 EUC系のエンコーディングを主張するメールに、実際にそうしたバイト列が入っているかを見ています。あと正規表現の「/\nContent-Type:.*(\n\s+)?.*charset=.*(GB2312|EUC-KR|KS_C_5601-1987)/i」の部分は、メールヘッダの規格に沿って巧妙にスペースや改行を入れているspamも多いので、こうしないと全部引っかかってくれないのです。

 このほか、KOI8-Rの対応も入っています。

※最初、スコアを「0.0」にしていたが、それだと評価されないことがわかったので「0.00001」としました。その他随時改良しているので、上記を鵜呑みにせず最新の情報・ファイルを見てください。

コメントを残す

メールアドレスが公開されることはありません。