探検


Namazu全文検索システム

2001/06/14(木) 09:17ID:???
全文検索システム Namazu
http://www.namazu.org/

日本語全文検索エンジンソフトウェアのリスト
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html

前スレ http://tako.2ch.net/test/read.cgi?bbs=perl&key=981352718
159nobodyさん
垢版 |
03/05/18 14:25ID:???
>>158
共用サーバにてインデックスを作成、Namazuを利用しています。

おおよそ、1MB前後が1回あたりのインデックス作成の限度のようです。
メッセージは「Out of Memory!」です。
160nobodyさん
垢版 |
03/05/18 17:53ID:???
ローカルのマシンでインデックスを作ってアップロードじゃだめなん?
161nobodyさん
垢版 |
03/05/19 02:54ID:???
>>160
それも考えたのですが、インデックスには当然ローカルのファイルのパスが含まれてますよね?

現在はReplaceで、サーバのパス/virtual/ID/→http://〜の絶対パスに変更しています。
ローカル(Windowsマシン)C:\〜を絶対パスhttp://〜に変更させる事ができるのでしょうか?
162nobodyさん
垢版 |
03/05/19 08:52ID:???
>>161
だって自分でやってるって書いてんじゃん。
163nobodyさん
垢版 |
03/05/19 11:12ID:???
なんだ、結局サーバのメモリ使用量制限に引っかかってるだけじゃん。
Namazu と直接関係ないじゃん。

>>161
可能。パスを書き換えて、インデックスを再構築すればいい。rfnmz だっけ?
ml の過去ログで似たような事例を見た気がする。
164nobodyさん
垢版 |
03/05/19 12:36ID:R1nWpNfc
NamazuってリレーショナルデータベースのIndex検索できますか?
Javaで書かれたLuceneってのはできますよ。
165動画直リン
垢版 |
03/05/19 13:08ID:IEVyzYan
http://homepage.mac.com/hitomi18/
166nobodyさん
垢版 |
03/05/19 14:26ID:???
>>162
>>163
ありがとうございます。

wget>インデックス作成>検索と3段階で相当な負荷が
サーバにかかっていたので、いつアカウントを止められるのか
心配していました。

wget>インデックス作成まで行えれば、
検索だけをサーバで行うので負荷も和らげられると思います。
167nobodyさん
垢版 |
03/05/19 15:01ID:hryn2RRe
(;´Д`)ハァハァ
http://homepage3.nifty.com/coco-nut/
168bloom
垢版 |
03/05/19 15:08ID:IEVyzYan
http://homepage.mac.com/ayaya16/
169nobodyさん
垢版 |
03/05/21 10:19ID:???
ローカルのWindowsのNamazuと、共用サーバのLinuxのNamazuのインデックスは
互換性があるのでしょうか?
170nobodyさん
垢版 |
03/05/21 14:38ID:zDb/UTki
age
171bloom
垢版 |
03/05/21 15:08ID:JZ9K0e/X
http://homepage.mac.com/ayaya16/
172nobodyさん
垢版 |
03/05/22 00:10ID:???
>>169
あるよ。
173nobodyさん
垢版 |
03/05/22 01:10ID:???
>>172
ありがとうございます。

Liunxのインストールからはじめるのは辛いですし、
cgiでインデックスを作ろうとするとすぐに落ちるので
助かりました
174山崎渉
垢版 |
03/05/22 01:58ID:???
━―━―━―━―━―━―━―━―━[JR山崎駅(^^)]━―━―━―━―━―━―━―━―━―
175nobodyさん
垢版 |
03/05/23 00:35ID:???
(・∀・)
176山崎渉
垢版 |
03/05/28 17:21ID:???
     ∧_∧
ピュ.ー (  ^^ ) <これからも僕を応援して下さいね(^^)。
  =〔~∪ ̄ ̄〕
  = ◎――◎                      山崎渉
177nobodyさん
垢版 |
03/05/30 16:43ID:???
(・∀・)
178nobodyさん
垢版 |
03/06/18 16:39ID:DT1VWY3V
そろそろwindowsローカルのPHPマヌアルを検索できない不具合は解決してますか?
179nobodyさん
垢版 |
03/06/18 22:37ID:yFwDTAK+
>そろそろwindowsローカルのPHPマヌアルを検索できない不具合は解決してますか?

PHPマヌアルにかぎらずUTF8で書いてあるページは文字化けするツー事
nkfを利用しているからじゃないかな
180nobodyさん
垢版 |
03/06/19 00:34ID:r/KT2iM+
nkf使ってないよ、lvでutf8対応している
181nobodyさん
垢版 |
03/06/25 14:23ID:77oj5Ix9
Namazuってファイルの検索に使うんですか?
全文検索できないの?
できるんだったら、指定したキーワードを含むファイルだけから全文検索するなんて使い方も可能?

また、インストールしたLinuxとかのディスクに置いてあるファイルでないと検索できないのかな?
Windowsマシン上にあるファイルもさがせたりしないんでしょーか。

いろいろ関連サイト見てみたけどそういったことは書いてなかったYo!って探し方悪いんでしょうか

182nobodyさん
垢版 |
03/06/25 15:10ID:vaUG6cj5
☆覗いてみてください☆(閲覧無料)
http://endou.kir.jp/yuminet/link.html
183_
垢版 |
03/06/25 15:12ID:???
http://homepage.mac.com/hiroyuki44/
03/06/25 15:24ID:???
カスケードスタイルシートって、
おいしそうですねぇ。
185nobodyさん
垢版 |
03/06/25 19:36ID:???
>>181

no
no
no
no
no

調べ方悪すぎ。namazu.orgにある文章読むだけで全て分かるのに。
186181
垢版 |
03/06/27 00:27ID:6z/IvjGb
>>185
noってそれぞれの私の質問に対する回答ですか?
いずれにしてもサンクス子 http://www.namazu.org/ いってきます。。m(。_。)m
187???
垢版 |
03/06/27 19:27ID:1V/886pX
インデックスの作成 OK → Webサーバーへのアップ OK
→キーワード入力 OK →検索している 検索結果は出るのですが
全く関係のないページばかりリストアップ。そのページソースを検索キーワード
で探してもありません。

インデックスもエラーなくできて、アップも問題なくでき、検索もできるのですが
その結果が全くあさって・・・どこに問題がありそうでしょうか???。ご意見を
お願いします。
188nobodyさん
垢版 |
03/06/28 01:23ID:???
>>187
Namazuってそんなもんだよ。
といいつつ、おれもインスコしてますが、自分では一切使わない。w
189187
垢版 |
03/06/30 07:16ID:???
>>188
んっ〜それにしても結果が全く関係なさ過ぎるんですよ。
インデックスがまともに出来ていないような現象です。
ただ、作業的には問題なく進んでるんですよ・・・トホホ  。・゚(/д\)゚・。
190 ◆MiMIZUNCjA
垢版 |
03/07/07 03:25ID:sv7ydGsI
なんどもインデックスの構築をしているといつのまにかめちゃくちゃな回答をされるときがあって
そういう場合は最初から作り直しますがなんなんでしょうね。
191
垢版 |
03/07/07 03:54ID:???
>186
たぶん回答じゃなくて、ガイジンさんなんだよ。
...no. no! no!! no!!! nohhh!!!!!! nanimochigaudesholtu!!!
って感じだと思う。
192山崎 渉
垢版 |
03/08/15 22:47ID:???
    (⌒V⌒)
   │ ^ ^ │<これからも僕を応援して下さいね(^^)。
  ⊂|    |つ
   (_)(_)                      山崎パン
193nobodyさん
垢版 |
03/10/02 14:51ID:???
no
194nobodyさん
垢版 |
03/10/06 00:26ID:MvGVNeyO
なんだか自分は複数indexについてよくわかっていません。
複数indexを作る場合、
namazu.cgiと.namazurcのあるディレクトリの下に新しいディレクトリを作って分けて、.namazurcで制御すればいいんでしょうか?
今はindexファイルをnamazu.cgiと.namazurcのあるファイルと同じ階層に全部詰め込んでいます。
これだと、二つ以上のindexは作れないみたいです。
195nobodyさん
垢版 |
03/10/06 00:33ID:???
複数インデックスは、 インデックスのあるディレクトリ内のサブディレクトリ名が
そのままインデクス名になる。使う場合は、.namzurcではなくて
NMZ.head.jaで idxname="foo" とか指定してやればいい。
196nobodyさん
垢版 |
03/10/06 06:50ID:fxmWtj2Y
>>195
わかりやすいレスありがとうございます。
解決しました。
197nobodyさん
垢版 |
03/11/13 08:37ID:Tw9dU9HY
相談なんですけど、

「ホスティング依頼している鯖に namazu を入れて、メールの全文検索ができ
ないもんかな?」

という相談をうけますた。

う〜ん…………

おいらの使ったのは、RedHatだったんで、namazuはRPMでなんも考えずに
入れて、インデックス作って使ってたことはあるけど、ホス依頼してる鯖だと
root 権限なんか貰えないだろーしなぁ……

なんかいい方法ってないでしょか?
198nobodyさん
垢版 |
03/11/14 09:37ID:???
pnamazu
199197
垢版 |
03/11/14 14:31ID:bYphtnKK
>>198

ありがとう!提案してみるよ

って、これ、インデックス作成はローカルの環境でするのかぁ
ま、いいや。相手がなんていうか、言うだけ言ってみよう

ヒントくれてサンクス!
200nobodyさん
垢版 |
03/12/20 12:12ID:BT5vMVU9
特定のディレクトリのみ除外する方法は何かありますか?
201nobodyさん
垢版 |
03/12/20 14:36ID:???
>>200
特定のファイル(拡張子だけだったかも)を除外する
という設定項目があった様な記憶があるんで、
もしかしたら、それの応用でディレクトリごと無視するとかできるかも。

#具体的にどんな設定をするかは忘れた
#多分namazuの本家サイト見たらあったよ
202nobodyさん
垢版 |
04/01/02 23:12ID:???
自分のページは全て、「http://www.example/com/?cat=★」★はページごとに違う
という形式なのですが、
こういった動的なページに対してNamazuを使うというか、インデックスを作成するには、
どうすればいいのでしょうか?
203202
垢版 |
04/01/02 23:13ID:???
もとい、
誤:「http://www.example/com/?cat=★」
正:「http://www.example.com/?cat=★」
204202
垢版 |
04/01/04 01:18ID:LkXOe+SC
あ、すごいタイムラグあいてますね。。。age
205z33
垢版 |
04/01/04 10:35ID:???
>>202
replaceでがんばってどうにかできないかな?

例えば
/home/apache/documentroot/test/1.txt

http://www.example.com/?cat=/test/1.txt
って変換だったら
Replace "/home/apache/documentroot" "http://www.example.com/?cat="
とか

こういうこと?
206202
垢版 |
04/01/05 22:28ID:???
>>205
ありがとうございます。
全部、/?cat=★は「★.inc」としてファイルをおいてあるので、それでなんとかいきそうです。
207nobodyさん
垢版 |
04/01/19 19:55ID:daYuprPN
教えてもらいたいことがあるんですが
nmz.field.****
の****を増やしたいのですが、どうしたら良いでしょうか?

具体的にはmknmz時にuriを見て
wwwroot/aaa/a.html
wwwroot/bbb/b.html
nmz.field.locate ってファイルを作ると
その中に
aaa
bbb
って出力されてほしい
で検索結果でyahooのカテゴリのように
<a href="a.html">aのタイトル</a>
カテゴリ TOP>>aaa(${locate}の値)とかやりたい
まぁ検索結果の中でuri見て変換したら良いんだけど、
もうちっとスマートに処理させたいなと・・・
208z33
垢版 |
04/01/20 22:20ID:???
>>207
ちょっとググッて探してみたら、こんなの見つけたけど
http://www.namazu.org/ml/namazu-users-ja/msg02744.html
参考になる?
209nobodyさん
垢版 |
04/02/11 00:01ID:???
Namazuで検索サイトやろうかな。
210nobodyさん
垢版 |
04/02/13 03:38ID:jCzy8g3E
質問です。
2chの過去ログを検索出来るようにしていますけど
ファイル数17万程度でインデックス作成に取り組んでいるのですけど
3日経っても終わりません。。おかしいと思いこちらに来ました。
もっと処理を早くしたいのですが、、

一応何を書けばいいのかわかりませんが、
PCのスペック等を簡単にまず記します。
何か必要な設定項目を書けと言われればすぐ書きますので、、
CPU P3-1G@dual
mem 1G
namazu ver2.0.12
perl 5.6

設定ファイルの中身を弄ればいいのでしょうか。。
一応インデックス書き出しは行われ続けていますけど
遅くて遅くて、、、
何かヒント等くれる方いらっしゃいませんでしょうか、、、?
211210
垢版 |
04/02/13 03:45ID:jCzy8g3E
OS windows2000 sp3
KAKASI使用

mknmzrc設定
$ON_MEMORY_MAX = 5000000;
$FILE_SIZE_MAX = 10000000;
$TEXT_SIZE_MAX = 1000000;
$WORD_LENG_MAX = 128;
$INVALID_LENG = 128;
$MAX_FIELD_LENGTH = 200;
$WAKATI = $KAKASI;

とりあえずon memory maxの値が小さいのはわかったのですけど
これが速さに関係するのかは理解出来ませんでした。
また、他に問題点や気づく点等がありましたら教えて欲しいです、、
212nobodyさん
垢版 |
04/02/13 08:37ID:???
処理能力にはディスクI/Oという重要なファクターもある。
一気にmknmzするのではなく、分割してmknmz→マージする。
そうすれば処理時間もだいたい想像できる。
213210
垢版 |
04/02/13 13:43ID:wO1Lum8s
>>212 ヒント有難う御座います!
   少しそれについて調べてみます。
214森の妖精さん
垢版 |
04/02/16 02:31ID:/mo58UcM
http://geta.ex.nii.ac.jp/

GETAのPHPインタフェイス作ろうという奇特な御仁は
いらっしゃいませんか?
215nobodyさん
垢版 |
04/02/20 12:32ID:???
検索エンジン作成に関してのスレを
こちらにまとめました。

検索エンジンをつくりたい
http://pc2.2ch.net/test/read.cgi/php/1009030584/l50
216nobodyさん
垢版 |
04/03/24 21:59ID:???
これ誰かお願いします
http://pc3.2ch.net/test/read.cgi/unix/1075033822/576
Java の API のリファレンスを Namazu でインデックス化していて
Emacs でプログラミング中にカーソル上のクラス名ですぐ検索したいんです
217nobodyさん
垢版 |
04/03/31 21:28ID:???
Namazuでインデックス化をして検索をしようと思ったら
「現在-3の文書がインデックス化され、・・・」と文書の数がマイナスになっています。
どうしてなのでしょうか。
218nobodyさん
垢版 |
04/03/31 21:46ID:5e+SzBpf

219(´・ω・`)
垢版 |
04/04/01 21:05ID:98Q5EoMa
どなたかPHPスクリプトで動く
日本語全文検索エンジンソフトウェアを教えてください。
220nobodyさん
垢版 |
04/04/02 00:02ID:n5mwBUCQ
4/1にNamazuの新バージョン出るんじゃなかったっけ?
221nobodyさん
垢版 |
04/04/02 22:28ID:???

222nobodyさん
垢版 |
04/04/20 23:55ID:hVBcQucn
Namazu 2.0.13-1 を公開age
223nobodyさん
垢版 |
04/05/01 23:15ID:HE2QfFBX
kakasiについて質問です。

自分で作った辞書を、追加した。

# mkkanwa kanwadict (追加した辞書ファイル)

自分で追加した辞書の内容は、
上記の場合、(追加した辞書ファイル)を参照すれば分かるけど、
現在の辞書全体にどのような単語が登録されているかを調べるにはどうしたらいいんでしょうか?

kanwadictって、viで開くと文字化けして見れません。
※環境:UNIX
224nobodyさん
垢版 |
04/05/27 15:51ID:CEx1TsW7
http://www.namazu.org/
にアクセス気出ません
225nobodyさん
垢版 |
04/05/27 16:43ID:mtXfTMbY
>>224
orz
226nobodyさん
垢版 |
04/05/27 16:43ID:???
今見たら面白いことになってるな
227nobodyさん
垢版 |
04/05/27 16:57ID:???
>>224
何かあったの?
クラックされてたとか?
228nobodyさん
垢版 |
04/05/27 19:56ID:WJMdSqlX
namazu.orgサーバに不正侵入、サービス停止

全文検索システム「Namazu」を配布するNamazu Projectは5月27日、
同プロジェクトのサーバが不正侵入を受けたと発表した。

http://headlines.yahoo.co.jp/hl?a=20040527-00000016-zdn_n-sci
229nobodyさん
垢版 |
04/05/28 21:23ID:???
マジかよ・・・
230nobodyさん
垢版 |
04/05/28 21:24ID:???
マジかよ・・・
231nobodyさん
垢版 |
04/05/28 21:26ID:???
マジかよ・・・
232nobodyさん
垢版 |
04/05/28 21:28ID:???
マジかよ・・・
233nobodyさん
垢版 |
04/05/28 21:29ID:???
マジかよ・・・
234nobodyさん
垢版 |
04/05/28 22:17ID:???
うわっ・・・5重に書き込んじまったよorz
235nobodyさん
垢版 |
04/05/29 00:22ID:???
>>229-233
今回の2ch不調で俺が見た多重で最高だw
236nobodyさん
垢版 |
04/05/29 19:09ID:???
>>235
8連投した神もいたぞ。
237nobodyさん
垢版 |
04/05/30 20:09ID:WmFD3m1t
Windowsバイナリは????
238nobodyさん
垢版 |
04/06/02 02:08ID:???
>>229-234
ワロタ
239nobodyさん
垢版 |
04/06/17 19:14ID:KtXfrXmS
人がいないので話題をふってみる

検索結果について質問なんですけど
ttp://www.kaiho.mlit.go.jp/cgi-bin/namazu.cgi?query=%8B%DF%8AC&max=20&result=normal&sort=score
↑こんな風に検索語句と該当箇所が赤く強調されるのってどうやるんですか?
ttp://www.city.katano.osaka.jp/cgi-bin/namazu.cgi?key=a&submit=%B8%A1%BA%F7%B3%AB%BB%CF%21&whence=0&max=20&format=long&whence=0&dbname=reiki
自分のは↑こんなふうに参照したページの上部しか表示されません。

240nobodyさん
垢版 |
04/06/17 21:45ID:???
正常に赤強調されるけど?
http://www.city.katano.osaka.jp/cgi-bin/namazu.cgi?query=%B8%F2%CC%EE&whence=0&max=20&result=normal&sort=score&idxname=reiki

NMZ.headにデフォルトで strong.keyword { color: Red; } あるから、
「ちゃんとしたキーワード」なら赤くなるハズ。
241nobodyさん
垢版 |
04/06/18 00:33ID:???
>>240
本当だ・・・キーワードの入れ方がまずかったようです。
自分のnamazuでやり直したらちゃんと表示されました。
無知で申し訳ありません。
242nobodyさん
垢版 |
04/06/28 15:24ID:???
Perl版Namazuをレン鯖に置いてみましたが、
全角文字で検索すると検索語が”%a5%d0%a5%”みたいな感じで文字化けします。
検索結果画面はきちんと表示されますが、検索文字列だけが化けています。

もう一回全角で検索すると文字化けが直ります。1回目だけ必ず文字化けします。
何が原因でしょうか?
243nobodyさん
垢版 |
04/06/28 15:25ID:???
↑うわ、UNIX板に書くつもりだったのに間違えた

ごめんなさい、無視してください。
244nobodyさん
垢版 |
04/07/16 18:31ID:???
検索は問題なく出来るのですが、
ヒットしたファイルが日本語のファイル名だと、
ブラウザ上に表示されているファイル名を
クリックしてもファイルをオープンしません。

検索対象ファイルの、
ファイル名が日本語でも対応してますか?
ちなみにWindows版(2.0.12)です。
245nobodyさん
垢版 |
04/07/19 00:54ID:???
http://suwako.plala.jp/pukiwiki/index.php?%5B%5BPHP%A4%C7Namazu%5D%5D
↑ここ見てnamazuの全文検索システムのソースを入れてみたら
無事に検索は出来るんですが検索された先のリンクがなぜか全てnamazu.phpがある
カレントディレクトリになってしまいます。
これはどうすれば対処することが出来ますかね?
246nobodyさん
垢版 |
04/07/19 12:51ID:???
.namazurc弄ればいんでない
247245
垢版 |
04/07/22 13:31ID:???
namazurcの48行目にあるReplaceを参考サイトを見ながら
いじってみましたがやはり結果は同じです。
一体どこがおかしいんだろう?
例えばnamazu.phpをC:\homeに置いたら
検索結果はちゃんと表示されるんですがリンクが全て
namazu.phpを置いているディレクトリになってしまいます。(この場合はC:\home)
変えるべきところはnamazurcのReplaceのところとは思うんですが
何度変えても同じ結果になってしまいます。
どうすればちゃんとしたリンク先になってくれるかな?

参考にしたサイト↓
http://ponx.s5.xrea.com/hiki/ja/hiki.cgi?xrea_tdiary_namazu
http://you-like.to/nekomimi/works/w2k20001110.html
248nobodyさん
垢版 |
04/07/22 14:11ID:???
>>247
何でだろうね?ところで自鯖でやってるの?
249nobodyさん
垢版 |
04/07/31 19:38ID:???
Replace A(インデックス作成時のパス) B(Aを置換したい文字列)

だよね。ちゃんとそうなってる?
 
250nobodyさん
垢版 |
04/07/31 19:44ID:???
pnamazu.cgiの検索結果に表示される「著者」の欄がウザイのと、
この欄の ${author} が一体何を表示するのかがわからないので
ソースを追跡してみたのですが自分には具体的に読み解くことができませんでした。

sub field_init {
%FieldAlias = (
'author' => 'from' ,
'title' => 'subject' ,
'url' => 'uri' ,
);
あたりまではなんとなく分かるんですが・・・

Perlのすごい人! だれか教えて!
251nobodyさん
垢版 |
04/08/02 08:46ID:???
著者を消したいだけなら NMZ.result をいじったほうが早いよ。
著者がなにかを知りたいんだったらpnamazuではなく、mknmzのほうを解析するよろし。
252nobodyさん
垢版 |
04/08/12 09:03ID:???
.namazurcで

Replace /index.html /
Replace /C\|/namazu/nurupo/ http://hoehoe.ne.jp/~nurupo/

と、2つの置換を行いたいのですが、当然できません。
正規表現が使えるみたいなことが書いてありますが

Replace /C\|/namazu/nurupo/(.+)/index.html http://hoehoe.ne.jp/~nurupo/$1/

では全てが http://hoehoe.ne.jp/~nurupo/$1/ にされてしまいます($1が展開されない)

どうやればこの置換を実現できるのでしょうか?
253nobodyさん
垢版 |
04/08/12 09:05ID:???
む?もしかして$1じゃなくて\1なのか・・・?そうなのか・・・?
254nobodyさん
垢版 |
04/08/12 09:07ID:???
ああ・・・やっぱ\1でも駄目だ・・・いったいどうすれば・・・
255nobodyさん
垢版 |
04/08/21 22:26ID:???


Namazuの検索結果って、
全部ドキュメントの行頭あたりしか表示しないけど
Googleみたいにマッチした前後の文章を表示できんの?
256nobodyさん
垢版 |
04/08/22 16:46ID:???
>>255
できない。
レスポンスを重視した結果、今の仕様になっていると思われる。
257nobodyさん
垢版 |
04/08/22 19:58ID:???
>>255
Googleっぽい動作が希望なら
Estraier使ってみるとか
258nobodyさん
垢版 |
04/08/23 22:59ID:???
Estraier はNamazu ほど敷居は低くないよなぁ・・・
>>255 有りものの中でなら msearch がお勧め
レスを投稿する


ニューススポーツなんでも実況