This project is no longer maintained and has been archived. |
はじめに
検索は巨大なトピックなので、この章全体ではSearchable
と呼ばれるビヘイビアを専門に扱います。これは全文インデックス作成と検索ツールでデータベースとファイルの両方で使うことができます。
次の定義を持つNewsItem
クラスを考えてみましょう:
// models/NewsItem.php
class NewsItem extends Doctrine_Record { public function setTableDefinition() { $this->hasColumn('title', 'string', 255); $this->hasColumn('body', 'clob'); } }
YAMLフォーマットでの例は次の通りです。[doc yaml-schema-files :name]の章でYAMLの詳細を読むことができます:
# schema.yml
NewsItem: columns: title: string(255) body: clob
ユーザーが異なるニュースの項目を検索できるアプリケーションを考えてみましょう。これを実装する明らかな方法はフォームを構築し投稿された値に基づいて次のようなDQLクエリを構築することです:
// test.php
// ... $q = Doctrine_Query::create() ->from('NewsItem i') ->where('n.title LIKE ? OR n.content LIKE ?');
アプリケーションが成長するにつれてこの種のクエリはとても遅くなります。例えば%framework%
パラメータで以前のクエリを使うとき、(framework
という単語を含むタイトルもしくは内容を持つすべてのニュースの項目を見つけることと同等です)データベースはテーブルのそれぞれの列をトラバースしなければなりません。当然ながらこれは非常に遅くなります。
Doctrineはこの問題を検索コンポーネントとインバースインデックスで解決します。最初に定義を少し変えてみましょう:
// models/NewsItem.php
class NewsItem extends Doctrine_Record { // ...
public function setUp()
{
$this->actAs('Searchable', array(
'fields' => array('title', 'content')
)
);
}
}
YAMLフォーマットでの例は次の通りです。[doc yaml-schema-files :name]の章でYAMLの詳細を読むことができます:
# schema.yml
NewsItem: actAs: Searchable: fields: [title, content] # ...
上記のモデルで生成されたSQLをチェックしてみましょう:
// test.php
// ... $sql = Doctrine_Core::generateSqlFromArray(array('NewsItem')); echo $sql[0] . ; echo $sql[1] . ; echo $sql[2];
上記のコードは次のSQLクエリを出力します:
CREATE TABLE news_item_index (id BIGINT, keyword VARCHAR(200), field
VARCHAR(50), position BIGINT, PRIMARY KEY(id, keyword, field, position)) ENGINE = INNODB CREATE TABLE news_item (id BIGINT AUTO_INCREMENT, title VARCHAR(255), body LONGTEXT, PRIMARY KEY(id)) ENGINE = INNODB ALTER TABLE news_item_index ADD FOREIGN KEY (id) REFERENCES news_item(id) ON UPDATE CASCADE ON DELETE CASCADE
Here we tell Doctrine that
NewsItem
クラスがsearchable(内部ではDoctrineがDoctrine\_Template_Searchable
をロードする)として振る舞いtitle
とcontent
フィールドは全文検索用のインデックス付きフィールドとしてマークされます。これはNewsItem
が追加もしくは更新されるたびにDoctrineは次のことを行うことを意味します:
- インバース検索インデックスを更新するもしくは
- インバース検索インデックスに新しいエントリを追加する(バッチでインバース検索インデックスを更新するのが効率的であることがあります)
インデックス構造
Doctrineが使用するインバースインデックスの構造は次の通りです:
[ (string) keyword] [ (string) field ] [ (integer) position ] [ (mixed) [foreign_keys] ]
|
NewsItem
の例において[foreign_keys]
はNewsItem(id)
への外部キー参照とonDelete
=> CASCADE
制約を持つ1つのid
フィールドを格納します。
このテーブルの列のようになりますの例は次のようになります:
|
この例において単語のdatabase
は1
のid
を持つNewsItem
のtitle
フィールドの3番目の単語です。
インデックスのビルド
検索可能なレコードがデータベースにinsertされるときDoctrineはインデックスビルドのプロシージャを実行します。プロシージャが検索リスナーによって起動されているときこれはバックグラウンドで行われます。このプロシージャのフェーズは次の通りです:
Doctrine\_Search_Analyzer
基底クラスを使用してテキストを分析する- 分析されたすべてのキーワード用に新しい列をインデックステーブルに挿入する
新しい検索可能なエントリが追加されるときインデックステーブルを更新したくなく、むしろ特定の間隔でインデックステーブルをバッチ更新したい場合があります。直接の更新機能を無効にするにはビヘイビアを添付する際にbatchUpdatesオプションをtrueに設定する必要があります:
// models/NewsItem.php
class NewsItem extends Doctrine_Record { // ...
public function setUp()
{
$this->actAs('Searchable', array(
'fields' => array('title', 'content')
'batchUpdates' => true
)
);
}
}
YAMLフォーマットでの例は次の通りです。[doc yaml-schema-files :name]の章でYAMLの詳細を読むことができます:
# schema.yml
NewsItem: actAs: Searchable: fields: [title, content] batchUpdates: true # ...
更新プロシージャの実際のバッチはbatchUpdateIndex()
メソッドによって起動します。これは2つのオプション引数:
limit
とoffset
を受けとります。バッチでインデックス化されるエントリ数を制限するためにlimitが使用できoffsetはインデックス作成を始める最初のエントリを設定するために使用できます。
最初に新しいNewsItem
レコードを挿入してみましょう:
// test.php
// ... $newsItem = new NewsItem(); $newsItem->title = 'Test'; $newsItem->body = 'test'; $newsItem->save();
- NOTE
- バッチ更新を有効にしない場合
NewsItem
レコードを挿入もしくは更新するときにインデックスは自動的に更新されます。バッチ更新を有功にする場合次のコードでバッチ更新を実行できます:// test.php
// ... $newsItemTable = Doctrine_Core::getTable('NewsItem'); $newsItemTable->batchUpdateIndex();
テキストアナライザー
デフォルトではDoctrineはテキスト分析のためにDoctrine\_Search\_Analyzer_Standard
を使用します。このクラスは次のことを実行します:
- 'and'、'if'などのストップワードをはぎとる。よく使われ検索には関係ないのと、インデックスのサイズを適切なものにするため。
- すべてのキーワードを小文字にする。標準アナライザーはすべてのキーワードを小文字にするので単語を検索するとき'database'と'DataBase'は等しいものとしてみなされる。
- アルファベットと数字ではないすべての文字はホワイトスペースに置き換える。通常のテキストでは例えば'database.'などアルファベットと数字ではない文字がキーワードに含まれるからである。標準のアナライザーはこれらをはぎとるので'database'は'database.'にマッチします
- すべてのクォテーション記号を空の文字列に置き換えるので"O'Connor"は"oconnor"にマッチします
Doctrine\_Search\_Analyzer_Interface
を実装することで独自のアナライザークラスを書くことができます。MyAnalyzer
という名前のアナライザーを作成する例は次の通りです:
// models/MyAnalyzer.php
class MyAnalyzer implements Doctrine_Search_Analyzer_Interface { public function analyze($text) { `text = trim(` text); return$text; } }
NOTE 検索アナライザーは
analyze()
という名前の1つのメソッドを持たなければなりません。このメソッドはインデックス化される入力テキストの修正版を返します。
このアナライザーは検索オブジェクトに次のように適用されます:
// test.php
// ... $newsItemTable = Doctrine_Core::getTable('NewsItem'); $search = $newsItemTable ->getTemplate('Doctrine_Template_Searchable') ->getPlugin();
$search->setOption('analyzer', new MyAnalyzer());
クエリ言語
Doctrine_Search
はApache
Luceneに似たクエリ言語を提供します。Doctrine\_Search_Query
は人間が読解でき、構築が簡単なクエリ言語を同等の複雑なDQLに変換します。そしてこのDQLは通常のSQLに変換されます。
検索を実行する
次のコードはレコードのidと関連データを読み取るシンプルな例です。
// test.php
// ... $newsItemTable = Doctrine_Core::getTable('NewsItem');
$results = `newsItemTable->search('test'); print_r(` results); 上記のコードは次のクエリを実行します:
SELECT COUNT(keyword) AS relevance, id FROM article_index WHERE id IN
(SELECT id FROM article_index WHERE keyword = ?) AND id IN (SELECT id FROM article_index WHERE keyword = ?) GROUP BY id ORDER BY relevance DESC
コードの出力は次の通りです:
$ php test.php Array ( [0] => Array ( [relevance] => 1 [id] => 1 )
)
実際のNewsItem
オブジェクトを読み取るために別のクエリでこれらの結果を使うことができます:
// test.php
// ... `ids = array(); foreach (` results as $result) { $ids[] =$result['id']; }
$q = Doctrine_Query::create() ->from('NewsItem i') ->whereIn('i.id', $ids);
$newsItems = $q->execute();
print_r($newsItems->toArray());
上記の例は次の出力を生み出します:
$ php test.php Array ( [0] => Array ( [id] => 1 [title] => Test [body]
=> test )
)
オプションとして検索インデックスを使用して結果を制限するwhere条件サブクエリで修正するためにsearch()
メソッドにクエリオブジェクトを渡すことができます。
// test.php
// ... $q = Doctrine_Query::create() ->from('NewsItem i');
$q = Doctrine_Core::getTable('Article') ->search('test', $q);
echo $q->getSqlQuery();
上記のgetSql()
の呼び出しは次のSQLクエリを出力します:
SELECT n.id AS nid, n.title AS ntitle, n.body AS n__body FROM
news_item n WHERE n.id IN (SELECT id FROM news_item_index WHERE keyword = ? GROUP BY id)
クエリを実行してNewsItem
オブジェクトを取得できます:
// test.php
// ... $newsItems = $q->execute();
print_r($newsItems->toArray());
上記の例は次の出力を生み出します:
$ php test.php Array ( [0] => Array ( [id] => 1 [title] => Test [body]
=> test )
)
ファイル検索
前に述べたようにDoctrine\_Search
はファイル検索にも使うことができます。検索可能なディレクトリを用意したい場合を考えてみましょう。最初にDoctrine\_Search\_File
のインスタンスを作る必要があります。これはDoctrine_Search
の子クラスでファイル検索に必要な機能を提供します。
// test.php
// ... $search = new Doctrine_Search_File();
2番目に行うことはインデックステーブルを生成することです。デフォルトではDoctrineはデータベースのインデックスクラスをFileIndex
と名づけます。
上記のモデルによって生成されたSQLをチェックしてみましょう:
// test.php
// ... $sql = Doctrine_Core::generateSqlFromArray(array('FileIndex'));
上記のコードは次のSQLクエリを出力します:
CREATE TABLE file_index (url VARCHAR(255), keyword VARCHAR(200), field
VARCHAR(50), position BIGINT, PRIMARY KEY(url, keyword, field, position)) ENGINE = INNODB
Doctrine_Core::createTablesFromArray()
メソッドを使用することでデータベースで実際のテーブルを作ることができます:
// test.php
// ... Doctrine_Core::createTablesFromArray(array('FileIndex'));
ファイルサーチャーを使い始めることができます。この例ではmodels
ディレクトリのインデックスを作りましょう:
// test.php
// ... $search->indexDirectory('models');
indexDirectory()
はディレクトリを再帰的にイテレートしインデックステーブルを更新しながらその範囲のすべてのファイルを分析します。
最後にインデックス化されたファイルの範囲内でテキストのピースの検索を始めることができます:
// test.php
// ... $results = `search->search('hasColumn'); print_r(` results); 上記の例は次の出力を生み出します:
$ php test.php Array ( [0] => Array ( [relevance] => 2 [url] =>
models/generated/BaseNewsItem.php )
)
まとめ
Searchable
ビヘイビアのすべてを学んだので[doc hierarchical-data
:name]の章でNestedSet
ビヘイビアの詳細を学ぶ準備ができています。NestedSet
はSearchable
ビヘイビアのように大きなトピックなので1つの章全体で扱います。