探検


Namazu全文検索システム

2001/06/14(木) 09:17ID:???
全文検索システム Namazu
http://www.namazu.org/

日本語全文検索エンジンソフトウェアのリスト
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html

前スレ http://tako.2ch.net/test/read.cgi?bbs=perl&key=981352718
02/03/19 14:31ID:???
>>66 さん、ありがとうございます。
ほんとだ。分かち書きしてる、、
うむ、googleはちゃんと各言語ごとにチューンしてるんですね。
68nobodyさん
垢版 |
02/03/19 15:32ID:TPtrOTqR
逆に言えば、分かち書きエンジンの精度さえ向上させれば、
google並みのことはできるってことだよね
(もちろん、PageRank とかは抜きにして)。

いつも kakasi だけど、Chasen を使ってみようかなあ・・・。
02/03/19 15:52ID:???
個人で使うような件数の多寡が知れているようなシステムだったら、純粋に全件マッチ検索の方が便利だよね。
02/03/19 20:25ID:???
>>68
googleの肝は結果の表示順序。(pagerankもそれを支える情報の一つ)
なので、namazuに少し手を入れたぐらいではgoogle並にはならないよ。
ヒット数が少ない場合、関係ないけど。
02/03/19 20:38ID:???
>>70
その点は激しく同意。

ただ、分かち書きの精度を上げることで、
>>61 のやりたいことは実現できるんじゃないかな、って思った。
02/04/24 13:48ID:???
(´_ゝ`)フーン
73ato
垢版 |
02/05/09 14:31ID:8gc3nIf4
Namazu使ったPDFの全文検索でページしていとかできますか?
02/05/10 00:55ID:???
Namazu使ったJPGの全文検索でページしていとかできますか?
02/05/10 02:55ID:???
>>70
いまさらだが、NamazuへのPageRankの実装は、この論文が有名。
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html
02/05/10 07:02ID:???
>>75
まだ、このスレが生きていたとはね
興味深い文章サンクス。
改めて深入りできない、しちゃいけない分野だと再確認したよ
02/05/10 20:41ID:???
77ゲットオォォォォ!!
 ̄ ̄ ̄ ̄ ̄∨ ̄ ̄ ̄       (´´
     ∧∧   )      (´⌒(´
  ⊂(゚Д゚⊂⌒`つ≡≡≡(´⌒;;;≡≡≡
        ̄ ̄  (´⌒(´⌒;;
      ズザーーーーーッ
02/05/24 03:19ID:???
(・∀・)イイ!
79nobodyさん
垢版 |
02/05/27 19:51ID:LrpMVRit
類似スレッド

WWW検索エンジンサイト
http://pc.2ch.net/test/read.cgi/esite/973436559/l50
80nobodyさん
垢版 |
02/06/06 04:44ID:jW1FwXu2
ひさしぶり!
81nobodyさん
垢版 |
02/06/09 00:21ID:MvwsaEnI
コレ、namazuの対抗馬になれるか?
http://freshmeat.net/projects/snatcher/
02/06/20 09:30ID:???
mp3用のフィルタって誰か書いてないかしら?
83nobodyさん
垢版 |
02/06/20 09:39ID:updula6F
Namazuでmp3用のフィルタ???
わからん、俺がアフォなだけか?
84nobodyさん
垢版 |
02/06/20 12:41ID:0pQ6ektu
>>82
ID3タグでも検索するのか?
そういうのは ふつー DB 使うだろ。
02/06/20 15:09ID:???
>>83-84
自分のホームヂレクトリをクロンで毎晩なめてるんだけど、
どうせなら、ID3も見てくれないかなと。
変かなぁ。
8682=85
垢版 |
02/06/20 15:34ID:???
って、WEBプログラミングとは、違いますな。
スレ違いスマソ。
87nobodyさん
垢版 |
02/06/25 01:01ID:cgKxt6dS
>>86
なるほど、mp3 の中に埋め込まれたテキストも「文書」として扱い、
検索対象としたい、ってわけね。全然変じゃない。むしろ面白い。
やってることは google のイメージ検索みたいな感じかな。

perl でサクッと書けそうな雰囲気。
ぜひトライしてみて。

あと、Web プログラミングとは関係ないけど、
Namazu に関係あればいいと思うよ。
02/06/25 02:46ID:???
いや、それをWebから使えるようにすりゃWebプログラミングと
むちゃくちゃ関係あるじゃん。

> やってることは google のイメージ検索みたいな感じかな。

イメージ検索は外部から関連性を持ってくるのでちと違うような。
内部のID3だけだったらPDF検索くらいに対応するだろう。
ぜんぜんNamazuじゃなくても良さそうだけど、他と串刺し検索するなら
やっぱり便利かも。
02/08/12 22:58ID:???
うなぎ食べたいね。
02/09/02 23:28ID:???
ナマズマズー
02/09/20 08:19ID:???
ウマー
92nobody
垢版 |
02/09/21 15:05ID:???

検索結果で表示されるファイルの先頭部分のサイズを変更できますか?
やりかたを教えて下さい。
93nobodyさん
垢版 |
02/09/25 08:37ID:3VOnIdJA
wget
でURLテキスト-iで、ディレクトリ作成-x
しながらページ拾ってくると、
稀にディレクトリ作成(www.aaa.xxx)されなくて
関係ないディレクトリ(www.bbb.xxx)にページを
格納してしまいます。

このままindex作るとURLリンクが関係ないところに。
どうしてだろう。困った。
94nobodyさん
垢版 |
02/09/27 20:30ID:7S/gcFrV
Office XPファイルは、インデキシングできないのかなぁ。
95nobodyさん
垢版 |
02/09/28 02:50ID:gf1ROtiY
    @ノハ@
 ピュー( ‘ д‘)
  =〔~∪ ̄ ̄〕
  =◎−−◎
96名無しさん@お腹いっぱい。
垢版 |
02/10/07 17:04ID:ucR8g7pl
   @ハヽ@
  (' д ‘)ピュー
   〔~∪ ̄ ̄〕=
   ◎−−◎=

づかれたゾイ
97名無しさん@お腹いっぱい。
垢版 |
02/10/07 17:05ID:ucR8g7pl
↑車輪がずれたゾイ
98nobodyさん
垢版 |
02/11/02 15:20ID:Jwe6TBuD
ウマー
99Windows における namazu w/chasen
垢版 |
02/11/03 10:47ID:rQsphwgx
Chasen を使ったインデックス作成が出来ません
http://www.namazu.org/ml/namazu-win32-users-ja/msg00671.html
http://www.namazu.org/ml/namazu-win32-users-ja/msg00672.html
http://www.namazu.org/ml/namazu-win32-users-ja/msg00692.html

を見ると、2001/05 時点で chasen を使ったインデックス作成は
cygwin 環境で行うことができるようですが、
現在も chasen を使おうとすると cygwin 上で行うのが妥当でしょうか?
02/11/03 11:17ID:???
>>99
Chasen 2.0.2 は cygwin 上で問題なくコンパイルできました。
02/11/03 11:33ID:???
Namazu 2.0.12 は cygwin 上で問題なくコンパイルできました。
cygwin のデフォルトの perl 関連のパッケージでは File::MMagic はインストールされないので、
CPAN http://search.cpan.org/dist/File-MMagic/ からダウンロードしてきて
あらかじめ (configure の前に) インストールしておく必要があります。
102Windows における namazu w/chasen
垢版 |
02/11/03 14:10ID:rQsphwgx
namazu + chasen は cygwin で 問題なく動きました。
cygwin のコアDLLのバージョンは 1.3.14-1 です。
103nobodyさん
垢版 |
02/11/03 23:09ID:sdt4YScv
>>99
全部cygwinでやる方法以外無いのでは?
そもそもkakasiを使う事が推奨されていて。
茶筅は結構イレギュラーな方法なわけだし。
(運用上結構問題がある)


104nobodyさん
垢版 |
02/12/03 00:32ID:???
ウマー
105nobodyさん
垢版 |
02/12/26 00:21ID:DUegdvZH
namazuを2chのdat形式に対応させようとしている人っていますか?
形式自体はレス1つが1行になっているだけなんだけど、<a name="hoge">をつけるのもなんか違う気がするし。
ファイル名と行数だけ教えてくればそれでよいんですが。
Namazuでやっているようなこと、ChaSenで分かち書きしてインデックス作ってcgiで検索っていうのも作りかけたけど、
車輪の再発明になりそうで中断してる。
106nobodyさん
垢版 |
02/12/26 00:41ID:M1+zinp+
>>105
dat からそのままインデックスを作りたいってこと?
mknmz 用のフィルタを書けばいいだけだよね。
perl だし結構簡単そうだね。
107nobodyさん
垢版 |
02/12/26 01:19ID:DUegdvZH
>>106
そのとおりっす。
各行の先頭に<a name="スレ番号"></a>入れて、理由は不明ですが、先頭行に適当に<html>とか入れてあげて、
mknmz --html-split -a hogohoge.dat
でインデックスは作れたし、検索もできるのは分かるのですが、
mknmzのソースのprocess_file辺りを見ると、コメントに、FIXME: Very complicated.とあるくらいなんで、めんどいなと。
html向けには分割して処理してるみたいですし。
誰か同じようなこと考えていないかなと。
108nobodyさん
垢版 |
02/12/26 01:48ID:M1+zinp+
>>107
read.cgi が出力する html をインデックスするよりも、
dat から直にインデックスする方がきっと速い。
いちいち dat から html 作らないから、不要なファイルを作らなくてもよい。
html として出力するのは 2ch ビューアとか、read.cgi に一任できる。
利点はこのあたりかな。みみずんとか喜びそうだよね。

結局、mknmz の仕様に則ったフィルタを作ればいい。
html.pl とか参考にして作ってみたら?
http://cvs.namazu.org/namazu/filter/html.pl?rev=1.34&content-type=text/vnd.viewcvs-markup

もし実現できたら、cvs にある scheme/http.pl と組み合わせて、
2ch.net の dat を直接インデックスできるかな。
あ、今 2ch.net は dat 直読みできないんだっけ? だめか。
109nobodyさん
垢版 |
02/12/26 02:05ID:DUegdvZH
>>108
フィルタ自体はHTMLのでも十分なんですよ。
--html-splitなしでは、mknmzってファイル単位でしかインデックス作らないじゃないですか。
datってスレ毎で、全レスが入っているから、スレごとにしか検索できないことになってマズーなのです。
p2 ( http://pc.2ch.net/test/read.cgi/mac/1034199997/ )のdatを2次利用したいなと思っていろいろ試してます。
>>107 に書いたように、mknmzのprocess_fileあたりの--html-split処理部を書き換えてみてます。
110nobodyさん
垢版 |
03/01/02 18:30ID:cP1MLYPA
>>109
--html-split的なファイル分割を実現している人がいます。
本家には全く取り込まれていませんが…

Emacsのinfoファイルの分割(X-ml-name: namazu-devel-ja X-mail-count: 02059 )
http://www.namazu.org/ml/namazu-devel-ja/msg02063.html

PDFファイルをページごとに分割(X-ml-name: namazu-devel-ja X-mail-count: 01951)
http://www.namazu.org/ml/namazu-devel-ja/msg01950.html

つーかどちらも実装したのは僕ですが…

実現は単純だと思います。
行ごとにsplitするだけでとりあえずは実装できると思います。
見やすいようにフィールド情報を与えるためにはちょっと工夫がいるかもしれません。
ただフィールド情報が無くても十分有用だと思います。
そのページだけじゃわかりづらいと思うのでわからなかったら質問してください。

navi2chやら他の2ちゃんねるブラウザと連携すれば便利かもしれません。
ある特定のスレだけを検索対象にしてwebに公開しても便利かもしれません。
111nobodyさん
垢版 |
03/01/03 09:06ID:???
管理の都合上、
すべてのページについて、php4とpostgresを使っていて、
URLは http://domain.com/foo/?category=bar の形式で作ってるんですが
(fooとbarはいろいろ変わる&postgresでページの階層構造を管理してる)
これにNamazuを導入するには、どうすればいいんでしょうか・・・?

112nobodyさん
垢版 |
03/01/03 09:29ID:v/h8n2uJ
 
113111
垢版 |
03/01/03 18:29ID:lPX3I1sa
あーれー、レスがない。
114nobodyさん
垢版 |
03/01/03 18:42ID:???
>>113
そういうこと書くと逆効果。大体お正月で人いないし。
そうだなあ、来週の金曜までにレスが無かったら、私がレスするよ。
115nobodyさん
垢版 |
03/01/03 18:49ID:???
>>113
この板でたかだか9時間くらいで何をいってるんだか。
再来週の木曜日までにレスがなかったら俺がレスするよ。
116111
垢版 |
03/01/04 00:23ID:U6dtWDEb
とりあえず、それまでに、自学でなんとかできるかできないかなでの段階に、
・・・いきたいな
117111
垢版 |
03/01/04 19:17ID:BatkqzbV
検索にひっかからない。。。

「php namazu インデクサ」とじゃ
「php namazu シェルスクリプト」とかで検索してるんだけど、
いまいち該当しない。

検索のヒント、ください。
118111
垢版 |
03/01/11 17:11ID:CeP+V+mb
ショボーン
119nobodyさん
垢版 |
03/01/11 18:22ID:8y79ZXZ4
namazuかぁ。
ひらがなとかカタカナのもうめちゃくちゃな弱ささえ克服できればなぁ。
kakasiにひらがな単語の辞書登録さえあれば…。

もともと、そーゆープログラムではないから
AQに採用されることないけど。
120山崎渉
垢版 |
03/01/15 13:33ID:???
(^^)
121nobodyさん
垢版 |
03/01/17 16:56ID:TsHzDgv8
>>119
茶筅にしる!
122nobodyさん
垢版 |
03/01/18 02:26ID:???
Googleみたいにヒットした単語の周囲の文章をサマリ表示させてほしい。
サマリは直接生成。
123nobodyさん
垢版 |
03/01/18 07:01ID:0IdKnMy1
ところで、ウチのプロバイダはCGI使えないんだけど、全文検索(Namazuじゃなくても可)できる方法ないですかね。
124nobodyさん
垢版 |
03/01/18 15:04ID:???
>>123
あらかじめ検索用のインデックスを作っておいて、javascriptで、〜〜〜〜
125124
垢版 |
03/01/18 15:07ID:???
よく考えたら、自分の所でCGI使えなくても、
CGIを使えるサーバーを借りたら、解決だった。
126nobodyさん
垢版 |
03/01/18 16:10ID:???
>>122
pnamazuつかえ
127nobodyさん
垢版 |
03/01/18 22:45ID:KC3+f7J6
>>122
自分的にもそれは必須の機能だと思うんだけどなぁ。
頭の部分だけ静的に切り出したサマリーでずらずら検索で引っ掛かってきてもあんまサマリーの意味ない。
メーリングリストみたいにタイトルが内容の要約になってる、とかならいいんだけど。
128nobodyさん
垢版 |
03/01/21 15:04ID:2m91wCEm
、、、すんません 教えて下さい。
Namazu 2.0.12 for Win32をWin98で使用しています。
mknmzを実行すると、下記のエラーが出てしまいます、、、

Can't locate File/MMagic.pm in @INC (@INC contains: . C:/Perl/lib C:/Perl/site/
lib .) at C:\USR\LOCAL\NAMAZU\BIN/mknmz line 34.
BEGIN failed--compilation aborted at C:namazu\bin/mknmz line 34.

お分かりになる方、いらっしゃっいましたら
ご教授ください。お願いします!
129nobodyさん
垢版 |
03/01/21 23:04ID:???
MMagic が適切なパスにないか、インストールしていない。
130nobodyさん
垢版 |
03/01/22 00:18ID:???
>129さん 早速のレス、ありがとうございます。
MMagicのインストールを行おうとすると、エラーがでるので確かにインストール
されていないようです。
namazuのパッケージに含まれてるppmは、500番台と600番台の2つなのですが
私のActivePerlのビルド番号を確認すると、804となっています、、、。
これが原因なんでしょうか?
131nobodyさん
垢版 |
03/01/22 22:49ID:tlaGPNPQ
kabayaki使えYO!
132nobodyさん
垢版 |
03/01/22 22:55ID:0SY2SNoc
「パソコンの仕組み」

http://pc1.moo.jp

パソコン・インターネットの仕組み、パソコン自作・サーバー構築法について、動画や静止画を豊富に取り入れて、初心者向けに基礎から分かりやすく解説しています。

ガンガン、アクセスしてください!!
133nobodyさん
垢版 |
03/01/22 23:06ID:DuSjMjDY
小遣い稼ぎ
http://banana.fruitmail.net/cgi/introduce_jump2.cgi?1363289
134nobodyさん
垢版 |
03/01/23 09:19ID:XTkiyicl
chasen使ってる人に質問です。
やっぱりkakasiより検索精度あがりますか?
とくにひらがな単語やカタカナ単語で。


135nobodyさん
垢版 |
03/01/24 13:46ID:DnlSMTjH
 おまいら、namazuで検索するファイル数ってどのくらいですか?
1ディレクトリで1000ファイルオーバーとかって、インデックス
作るのに問題ないっぽい?
 なんか、毎日自動でインデックス作ってるんだけど、ちゃんと
インデックス作れてない(検索できない)場合が時々あるのよ。手動で
作ってやるとちゃんと動くところがまた憎らしい。
136nobodyさん
垢版 |
03/01/24 15:43ID:9aIuMK5X
wgetの収集でたまにぜんぜん関係ないディレクトリに
index.htmが格納されて困るんだけどなんでだろう。
ブラウザ動かしながらやるとミスするのかなぁ。

win2k
137nobodyさん
垢版 |
03/01/25 15:38ID:x6YUG/OM
pnamazuのほうがヒットしやすいのでしょうか?

perl版でインデックス作らないとダメなのでしょうか?

そのままのインデックスでpnamazu.cgiでとりこぼしが減るのでしょうか?
138nobodyさん
垢版 |
03/02/05 04:47ID:vQpd3y9f
保守
139nobodyさん
垢版 |
03/02/05 06:56ID:CehyN38W
http://homepage3.nifty.com/digikei/ten.html
いいね〜 これ♪
140nobodyさん
垢版 |
03/02/05 09:04ID:LQrwCDVW
アダルトの宣伝↑

ナマズの派生で、カバヤキっていうのでたけど使ってる人いる?
141nobodyさん
垢版 |
03/02/05 09:11ID:JiOCwoo3
http://www.agemasukudasai.com/bloom/
142nobodyさん
垢版 |
03/02/05 10:12ID:???
初めて Namazu 使ってみたけど、SI には使いづらい作りだな…
143nobodyさん
垢版 |
03/02/05 11:27ID:???
>>142
どこら辺が?
内容によっては、回避策や運用のテクニック教えてあげられるかも。
144nobodyさん
垢版 |
03/02/07 03:32ID:/4XUF2iq
MS-Access + ASP の like による全文検索と Namaz でインデックス
作成した全文検索ってどのくらいパフォーマンスが変わってくるかなー

検索対象レコード:1000、検索対象フィールド:3
各フィールド60,000文字ぐらいで考えてるんだけど、
MS-Access + ASP じゃ無理あるかな・・・
2、3秒で検索結果がでてくればいいのですが・・・
インデックスの作成自体、最近気づいた愚か者ですが、
よろしくお願いいたします  m(_ _)m
145nobodyさん
垢版 |
03/02/07 06:28ID:KeFGYCTZ
http://jsweb.muvc.net/index.html
?????????
146nobodyさん
垢版 |
03/03/07 18:19ID:+bpjK8Vp
UNAGI
147nobodyさん
垢版 |
03/03/08 13:01ID:???
Namazuが装備されてるレン鯖なら
http://www.akira.ne.jp/index.htm
148nobodyさん
垢版 |
03/03/08 16:11ID:6pWNtujS
あるファイルを処理できるフィルターが複数あるとき、
どちらを使うかはどうやって決まるのでしょうか?
149山崎渉
垢版 |
03/03/13 17:05ID:???
(^^)
150nobodyさん
垢版 |
03/03/13 20:02ID:???
(・∀・)イイ!
151nobody
垢版 |
03/03/28 00:40ID:???
(´-`).。oO(保守……。)
152山崎渉
垢版 |
03/04/17 12:25ID:???
(^^)
153山崎渉
垢版 |
03/04/20 06:08ID:???
   ∧_∧
  (  ^^ )< ぬるぽ(^^)
154nobodyさん
垢版 |
03/04/23 13:38ID:???
うちのノートPC、2chのlog数百個程度mknmzしてると
CPU周り熱々になって九割方落ちる鬱
155nobodyさん
垢版 |
03/04/28 11:08ID:???
レン鯖レン鯖
156nobodyさん
垢版 |
03/05/14 16:15ID:???
(・∀・)
157nobodyさん
垢版 |
03/05/18 02:04ID:inHKtSNs
Namazuを使ってます。
ただ、データの量が多くインデックス作成に失敗する事が多々あり、
現在は分割して、インデックスを作成。
ここに追加( --no-delete オプション)しています。
(更新は週に1回でも十分なので、本当は週に1回最初からインデックスを
作り直したいのですが、時間的にも労力的に厳しいです)

質問なのですが、上記の --no-delete オプションで一部のファイルをインデックスに
追加することと逆に、なんらかの方法で「指定したファイル」のインデックスからの
削除は可能でしょうか?
158nobodyさん
垢版 |
03/05/18 10:06ID:OMFaVw9A
>>157
>データの量が多くインデックス作成に失敗する事が多々あり

うちではそんなこと無いなあ。まあ10万ファイル程度だけど。
データ量が多いってどのくらい?
インデックス作成失敗って、どんなメッセージが出てどんな状況になるの?
159nobodyさん
垢版 |
03/05/18 14:25ID:???
>>158
共用サーバにてインデックスを作成、Namazuを利用しています。

おおよそ、1MB前後が1回あたりのインデックス作成の限度のようです。
メッセージは「Out of Memory!」です。
160nobodyさん
垢版 |
03/05/18 17:53ID:???
ローカルのマシンでインデックスを作ってアップロードじゃだめなん?
161nobodyさん
垢版 |
03/05/19 02:54ID:???
>>160
それも考えたのですが、インデックスには当然ローカルのファイルのパスが含まれてますよね?

現在はReplaceで、サーバのパス/virtual/ID/→http://〜の絶対パスに変更しています。
ローカル(Windowsマシン)C:\〜を絶対パスhttp://〜に変更させる事ができるのでしょうか?
162nobodyさん
垢版 |
03/05/19 08:52ID:???
>>161
だって自分でやってるって書いてんじゃん。
163nobodyさん
垢版 |
03/05/19 11:12ID:???
なんだ、結局サーバのメモリ使用量制限に引っかかってるだけじゃん。
Namazu と直接関係ないじゃん。

>>161
可能。パスを書き換えて、インデックスを再構築すればいい。rfnmz だっけ?
ml の過去ログで似たような事例を見た気がする。
164nobodyさん
垢版 |
03/05/19 12:36ID:R1nWpNfc
NamazuってリレーショナルデータベースのIndex検索できますか?
Javaで書かれたLuceneってのはできますよ。
165動画直リン
垢版 |
03/05/19 13:08ID:IEVyzYan
http://homepage.mac.com/hitomi18/
166nobodyさん
垢版 |
03/05/19 14:26ID:???
>>162
>>163
ありがとうございます。

wget>インデックス作成>検索と3段階で相当な負荷が
サーバにかかっていたので、いつアカウントを止められるのか
心配していました。

wget>インデックス作成まで行えれば、
検索だけをサーバで行うので負荷も和らげられると思います。
レスを投稿する


ニューススポーツなんでも実況