• ベストアンサー

py --json -q -o extracted

./wikiextractor/WikiExtractor.py --json -q -o extracted enwiki-latest-pages-articles.xml.bz2をUbuntu18で実行する方法を教えてください 実行できません フォルダーはあるのにいつもエラーをおこします  enwiki-latest-pages-articles.xml.bz2は16GBです

質問者が選んだベストアンサー

  • ベストアンサー
  • _kappe_
  • ベストアンサー率68% (1581/2304)
回答No.5

>WikiExtractor.py: error: unrecognized arguments: –q /mnt/c/Windows/System32/enwiki-latest-pages-articles.xml.bz2 >でエラーになります これは失礼しました。 「–q」の「–」が普通のマイナス記号ではありませんね。回答No.1の補足に書かれていたものをコピーしましたが、見落としました。 それから、「--json」オプションは使えないようです。 python3 -m wikiextractor.WikiExtractor -q -o extracted /mnt/中略/enwiki-latest-pages-articles.xml.bz2 ではどうですか。入力ファイル名は異なりますが、動くことを確認しました。

その他の回答 (4)

  • _kappe_
  • ベストアンサー率68% (1581/2304)
回答No.4

wikiextractorってhttps://github.com/attardi/wikiextractorから取ってきたツールでしょうか。 試してみたら確かに「ModuleNotFoundError: No module named '__main__.extract'; '__main__' is not a package」のエラーが出ました。 しかし、https://github.com/attardi/wikiextractor/blob/master/README.mdを読むと実行方法が違うようです。参考にしていたものが古いとか、必要な手順を飛ばしたりとかしていませんか。 Ubuntu 20.04にwikiextractorをインストールしてみました。 1.もしUbuntuにpipがインストールされていない場合はpipをインストールする sudo apt install python3-pip 2.pipを使ってwikiextractorをインストールする python3 -m pip install wikiextractor 3.wikiextractorを起動する 質問者さんの場合は下記のコマンドで実行できるだろうと思います。 python3 -m wikiextractor.WikiExtractor –-json –q -o extracted /mnt/c/Windows/System32/wikiextractor/enwiki-latest-pages-articles.xml.bz2

  • _kappe_
  • ベストアンサー率68% (1581/2304)
回答No.3

>ls -l /mntでファイルにアクセスできますがpy –json –q -o extractedコマンドを実行するとエラーになります >a@a:~$ python3 mnt/c/Windows/System32/wikiextractor/wikiextractor/WikiExtractor.py –json –q -o extracted mnt/c/Windows/System32/wikiextractor/enwiki-latest-pages-articles.xml.bz2 >python3: can't open file 'mnt/c/Windows/System32/wikiextractor/wikiextractor/WikiExtractor.py': [Errno 2] No such file or directory 上記コマンド中に2ヶ所あるmntの前にスラッシュ(/)が足りません。 /mnt/c/Windows/以下略のようにファイルパスを指定してください。 ls -lを実行したときにはつけていたのに、python3の実行の時にはどうして消してしまったのでしょうか。

nakanakaokwave
質問者

補足

上のようにしましたが a@a:~$ ls -l /mnt/c/Windows/System32/enwiki-latest-pages-articles.xml.bz2 -rw-r--r-- 1 a a 18084129415 Jan 3 12:13 /mnt/c/Windows/System32/enwiki-latest-pages-articles.xml.bz2 a@a:~$ python3 -m wikiextractor.WikiExtractor –-json –q -o extracted /mnt/c/Windows/System32/enwiki-latest-pages-articles.xml.bz2 usage: WikiExtractor.py [-h] [-o OUTPUT] [-b n[KMG]] [-c] [--html] [-l] [-ns ns1,ns2] [--templates TEMPLATES] [--no-templates] [--escapedoc] [--processes PROCESSES] [-q] [--debug] [-a] [-v] input WikiExtractor.py: error: unrecognized arguments: –q /mnt/c/Windows/System32/enwiki-latest-pages-articles.xml.bz2 でエラーになります

  • _kappe_
  • ベストアンサー率68% (1581/2304)
回答No.2

追加の確認事項です。 ・WikiExtractor.pyの最初の行には何が書かれていいますか。質問文に書かれている方法で実行するには、下記のようなシェバン(shebang)と呼ばれる行が1行目に必要です。  #!/usr/bin/env python3 ・WikiExtractor.pyのファイル属性はどうなっていますか。実行可能属性がないと"Permission denied"というエラーが出るはずです。 「python3 wikiextractor/WikiExtractor.py --json (以下略)」のように実行するコマンド名(python3)を明示的に書くなら、上記のシェバンや実行可能属性は不要です。

nakanakaokwave
質問者

補足

a@a:~$ python3 /mnt/c/Windows/System32/wikiextractor/wikiextractor/WikiExtractor.py –json –q -o extracted mnt/c/Windows/ System32/wikiextractor/enwiki-latest-pages-articles.xml.bz2 Traceback (most recent call last): File "/mnt/c/Windows/System32/wikiextractor/wikiextractor/WikiExtractor.py", line 66, in <module> from .extract import Extractor, ignoreTag, define_template, acceptedNamespaces ModuleNotFoundError: No module named '__main__.extract'; '__main__' is not a package エラーになります

  • _kappe_
  • ベストアンサー率68% (1581/2304)
回答No.1

>フォルダーはあるのにいつもエラーをおこします まずは ・何というエラーメッセージが出ているのか ・何のフォルダー(ディレクトリ)がどこにあるのか ・「ls -l ./wikiextractor」コマンドを実行したらどういう結果になるか を補足してください。 「./」がカレントディレクトリの指定であることは理解していますか? それから、以前の質問は適宜締め切ってください。 https://okwave.jp/qa/q9846126.html https://okwave.jp/qa/q9847829.html 以前の質問を締め切らずに新しい質問を投稿するのはガイドライン違反です。 https://guide.okwave.jp/guide/prohibition.htmlから引用します。 >1つのテーマについて複数の質問に分割して投稿する行為や、前回投稿した同様の質問を締め切らずに関連質問の追加情報を新たに質問として投稿する行為は、回答者がどの質問に回答すればいいか分からなくなるなど迷惑となるおそれがありますので、禁止とさせていただきます。

nakanakaokwave
質問者

補足

a@a:~$ ls -l /mnt/c/Windows/System32/wikiextractor/wikiextractor/WikiExtractor.py -r-xr-xr-x 1 a a 23150 Jan 18 19:12 /mnt/c/Windows/System32/wikiextractor/wikiextractor/WikiExtractor.py a@a:~$ ls -l /mnt/c/Windows/System32/wikiextractor/enwiki-latest-pages-articles.xml.bz2 -rw-r--r-- 1 a a 18084129415 Jan 3 12:13 /mnt/c/Windows/System32/wikiextractor/enwiki-latest-pages-articles.xml.bz2 ls -l /mntでファイルにアクセスできますがpy –json –q -o extractedコマンドを実行するとエラーになります a@a:~$ python3 mnt/c/Windows/System32/wikiextractor/wikiextractor/WikiExtractor.py –json –q -o extracted mnt/c/Windows/System32/wikiextractor/enwiki-latest-pages-articles.xml.bz2 python3: can't open file 'mnt/c/Windows/System32/wikiextractor/wikiextractor/WikiExtractor.py': [Errno 2] No such file or directory

関連するQ&A