*

パーサをつくる-その1 正規表現の「文字」で始まり「文字」で終わる

公開日: : 最終更新日:2013/01/08 パーサを作る, 今日の復習

パーサを作る上で、避けて通れないのが、「正規表現」。
これを自在に使えれば、かなりのサイトをデータベースに取り込みなり、
AJAXにも活用できる。

一番の基本は、
”「A文字」で始まり「B文字」で終わる”
指定ができること。

例えば
”<title>”という文字列と
”</title>”という文字列の間の文字が、
そのページのタイトルになる。
以下のリストが、基本の
Wikipediaで「大久保佳代子」と検索した時のページタイトル。

<?php
$contents = @file_get_contents("http://ja.wikipedia.org/wiki/%E5%A4%A7%E4%B9%85%E4%BF%9D%E4%BD%B3%E4%BB%A3%E5%AD%90");
// get title
if ( preg_match ( '/<title>(.*)<\/title>/i',$contents, $match ) ){
	$title = $match[1];
} else {
	$title = "";
}
echo $title;
?>

2行目で、指定したURLのコンテンツを
$contents という変数に格納

4行目で$contentsの中の、
最初に出てくる
”<title>”という文字列と
”</title>”という文字列の間の文字を
(これを「(.*?)」は最短マッチ という)
$matchに格納する。

5行目で、もし指定した文字があれば、
右辺の1番目の$matchを左辺の$titleに代入する。

最終行で、$titleを表示する。

「大久保佳代子 – Wikipedia」

と表示されます。

スポンサーリンク

関連記事

no image

”class”と”$this->”を勉強するために、肥満度 計算プログラムを作りました。

今迄の(私の)覚え方 class:何年何組 インスタンス:3年B組 //classをインスタンス

記事を読む

phpMyAdminでエラーが出るようになった

インポート → 失敗 delete from Tabel →インポート → 失敗 を繰り返してい

記事を読む

WordPressで「POST」する先のファイル名

普通に「POST」するのであれば、 <form METHOD="POST"

記事を読む

no image

丸覚え用にclassの簡単な例

僕の丸覚え用にclassの簡単な例を作ってみた。   <?php //メン

記事を読む

no image

DBに接続する場合DB.phpファイルを用意してインクルードして使う

DBに接続する場合、DB.phpファイルを用意して、インクルードして使う。 以下が、DB.phpの

記事を読む

Worpressでの自動改行機能の現象と対策

Wordpress3.4.1にプラグイン「exec-php」をインストールし、 以下のコードを書き

記事を読む

プレースホルダ(プリペアド・ステートメント)で2つのテーブルを比較するときの注意

これは、自分のメモです。(自分の勉強用フォルダren/ren112.p

@file_get_html($address)でもエラーになる

これは、僕のメモです。これは、僕のメモです。  

simple_html_dom.phpがおかしい

僕のメモです。 原因不明ですが、スクレイピングをsimple_h

MYSQLのコマンド入力で「;」セミコロンを入力し忘れた時抜け出す方法

これは僕のメモです。   MYSQLのコマンド入

MySQLのコマンドプロンプトでのバックアップとリストア

これは自分のメモです バックアップ 1.管理者 で コマンドプロン

→もっと見る

PAGE TOP ↑