Webページからテキストの抽出方法(PHP編)

mixiのとあるコミュニティでも発言したのですが、Webページからテキストだけを抜き出す方法です。

1:$content = mb_ereg_replace("\r|\n", "", $content);
2:$content = preg_replace("/(\015\012)|(\015)|(\012)/", "", $content);
3:$content = ereg_replace("/<!–.*\/\/–><!–.*\/\/–>/", "", $content);
4:$content = strip_tags($content);

1と2行目で改行コードを削除して、3でHTMLのコメントを削除して、最後にタグを削除します。もしCSSのスタイル文が含まれている場合には、 styleタグで囲まれたテキストも削除すればOKでしょう。