内容の類似性を用いたトラックバックスパム判別

[Abstract]
ブログの普及にともないトラックバックスパムの増加が問題になっており、これを正 当なものと区別して排除することが必要である.トラックバックスパムの多くは機械的に多数行 われているため,人手を介さずに機械的な判別をする手法が必要である. そこで,スパムで無い正当なトラックバックはトラックバック先の記事と趣旨が同じ事が多い ことと,トラックバックスパムの多くはトラックバック先の記事の内容を踏まえていないことを 利用したトラックバックスパム判別手法について実験を行った.記事の内容を意味的に比較する ことは難しいため,2 つの記事の中に同じ名詞が含まれていることが記事の趣旨が同じであること と見なした.結果,記事の類似性が低いときトラックバックスパム率が高くなることがわかった.