Webページからテキストの抽出方法(PHP編)
Posted on 3月 3rd, 2007 by sudabon
mixiのとあるコミュニティでも発言したのですが、Webページからテキストだけを抜き出す方法です。
1:$content = mb_ereg_replace("\r|\n", "", $content);
2:$content = preg_replace("/(\015\012)|(\015)|(\012)/", "", $content);
3:$content = ereg_replace("/<!–.*\/\/–><!–.*\/\/–>/", "", $content);
4:$content = strip_tags($content);
1と2行目で改行コードを削除して、3でHTMLのコメントを削除して、最後にタグを削除します。もしCSSのスタイル文が含まれている場合には、 styleタグで囲まれたテキストも削除すればOKでしょう。
Filed under: プログラミング | No Comments »

