- ベストアンサー
WWWの中を検索して、前後の情報とURLをリストアップするソフトはありますか?
- WWWの検索には検索エンジンを利用することが一般的ですが、特定の条件に合致する情報を探すためには自力で検索を行うソフトが必要です。
- もっとも低機能な場合は、指定した文字列を含む前後100文字程度を抽出し、それに対応するURLをリストアップします。
- より高機能なものとしては、正規表現を使用して特定のパターンにマッチする情報を検索することができます。見つかった情報はURLとともに出力されます。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
>カタカナ語(の例)をたくさん探してくるとかいった使い方 日本語で書かれたHTMLのほとんどにカタカナ語が含まれていると思いますが。 検索というものは膨大なデータの中から目的に合うデータを抽出し人間が扱える程度のデータ量にまとめるという機能です。漠然とした条件しか与えないと返ってくるデータ量が大きくなり扱うことが困難になります。コンピュータにコマンドを出すときはいかに自分の目的を正確に伝えるかがポイントになるでしょう。 日本語のwebサイトがもつHTMLファイルのストレージスペースがどれほどのものか分かりませんが、巨大なものだということは察しが付きます。そういった漠然としたデータを要求して返されるデータを考えると、とてもじゃないですが個人のパソコンに収まる量じゃありません。 せめて検索範囲を絞って処理量を限定するとか、処理内容をもう少し具体的にしてやらないと、データとして返ってきても使いようがないと思います。 例えば ・Yahooディレクトリ内の特定カテゴリ以下のリンクを検索する ・カタカナ語を見つけるとそれを抽出しデータベースに書き出す ・「語/カウント」形式のデータベースとする あるいは ・カタカナ語だけ色つき表示するブラウザ といったものなら現実的ですし、それほど難しくなく書けるプログラムです。しかしそこに検索アルゴリズムやデータ処理の技術を付加したものとなると個人でまかなえるプロジェクトの範囲を出てしまうような気がします。
その他の回答 (1)
- ShaneOMac
- ベストアンサー率39% (356/898)
Justの「インターネットブーメラン」が近いかと思います。単売もしていますしオフィスに付いてきたりもするソフトです。 http://www.justsystem.co.jp/software/dt/ib/index.html 業務用ナレッジマネージメント技術としてJustが持っているConceptBaseテクノロジーをもとに一般向けに出したソフトです。 http://www.justsystem.co.jp/km/ 目的に合うものかは分かりませんが。
お礼
早速のご回答、ありがとうございます。 インターネットブーメランは、「こんな概念に近いものを探す」というようなソフトだと思いますが、私がほしいと思っているのは、もっと表面的な言語表現主体のものです。WWW の中を自力で探し回って、カタカナ語(の例)をたくさん探してくるとかいった使い方を考えています。検索のスピードはまったく気にしていません。 というわけで、インターネットブーメランは私の目的にはあわないようです。 需要が少ないということで存在しないのなら、オリジナルソフトを作る必要がありますが、私の技術ではとても無理です。 どこかのソフト会社に作ってもらうとか、(いくらくらいかかるんでしょうか)理工系の大学の学生に頼んで、アルバイトとしてやってもらうとかになるのでしょうか。
お礼
再度のご回答、ありがとうございます。 「カタカナ語」の例は、あまりよくなかったかもしれません。検索結果が個人のパソコンに収まる量ではないというのはわかりますが、それは、たとえば、何例見つけたらやめるとか、何GB書き出したら終わりにするとかいうことで何とかなると思います。検索対象の前後の文脈だけを100文字程度つなげるとすれば、そんなに(扱えないほど)複雑ではないと思います。そういうのがパソコンの中のどこかのファイルに入っているならば、それを自作プログラムなり適当なコマンドやマクロなりで処理加工することは、まあ、できると思いますが、その基礎となるWWWからの用例集作りの部分が困難なように思っています。 ロボット型の検索エンジンでは、毎日、あちこちのサイトを見に行って、キーワードを抽出して蓄積しているわけですよね。それと同様のことをして、キーワードでなくて、利用者の指定したものを探し、文脈付きで書き出すという程度のもので十分実用的になると思うのですが。
補足
最近、求めていたソフトに出会いました。 WWW retriever といいます。 http://www3.to/taru にあります。 というわけで、当面は、この問題は解決しました。 2003.12.13