【緊急】xmlからデータの取得についての質問です。

2022/06/06 19:52

このQ&Aのポイント

自然言語処理について勉強しています。
Wikipediaのdumpデータからタイトルと本文を抜き出して処理をしようと思ってます。
xmlの処理について試しているのですが、エラーに見舞われて困っています。

【緊急】xmlからデータの取得についての質問です。

https://okwave.jp/qa/q10016550.html#answers　の続きです。自然言語処理について勉強しています。 Wikipediaのdumpデータからタイトルと本文を抜き出して処理をしようと思ってます。 xmlの処理について試しているのですが、エラーに見舞われて困っています。プログラミングはあまり得意ではないです。　　 [やりたいこと] 1.wikipediaのdumpデータからタイトル(<title>~~~</title>の~~~部分)の取得。 2.同じように本文(<text>~</text>の~部分)の抽出 3.それらを処理するプログラム(こちらはできているのでこのプログラムに合わせて本文の内容を取得し、txtファイルにまとめたものが欲しい) これについてのプログラムを作成してますが難航しています。ポインタについてはあまり得意ではないのでそこら辺の知識がないので困ってます。ご助力お願いします。ソースコードです。＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ #include <stdio.h> #include <stdlib.h> #include <string.h> int main (){ int p,start,endt,endp,startp; char pb[5]; char line[BUFSIZ]; FILE *fp = fopen("jawiki-20211220-pages-articles-multistream1.xml", "r"); char title[BUFSIZ]; //FILE *gt=fopen("list_1.txt","r"); FILE *fw = fopen("get_text_c.txt", "w"); if ((NULL == fp)||(NULL== fw )){ printf("aboooooooooooooooooooooooooooot"); abort();//終了、ここがうまくいってない？ } while (p = ftell(fp), fgets(line, BUFSIZ, fp)) { if (strstr(line, "<title>")){ pb[0] = p;//タイトルの始点 startp=(int)pb[0];//intに変換 } else if (strstr(line, "</title>")){ pb[3]=p;//タイトルの終点 pb[2]=p-pb[0];//タイトルのバイト数 fprintf(fw, "%zu \t %zu \n", pb[2], pb[3]); //pb2とpb3の観察。 fgets(line,pb[2],pb[0]);//タイトルを取得 printf("%s",line);//表示 fprintf(fw,"%s",line);//書き込み } else if (strstr(line, "</page>")){ pb[1] = p - pb[0]; //fwrite(pb, sizeof(size_t), 2, fw); // ... fprintf(fw, "%zu \t %zu \n", pb[0], pb[1]); //... テキスト形式で観察可能 } } fclose(fw); fclose(fp); } ================== これを実行しましたが、出力されるテキストは空で、すぐに終了しています。（dumpデータが重いので時間はかかるはず。）お願いします。

study_prg
お礼率25% (3/12)

C・C++・C#
回答数3
ありがとう数3

みんなの回答 （3）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

_kappe_
ベストアンサー率68% (1600/2328)

2022/06/07 12:40 回答No.2

明らかに間違っている部分を指摘しておきます。 > pb[0] = p;//タイトルの始点 pb[0]の型はcharなので、charに収まらない長さのファイルの場合始点の位置がおかしくなります。 jawiki-20211220-pages-articles-multistream1.xmlの長さはcharでは表せないはずです。タイトルの終点(pb[3])やタイトルのバイト数(pb[2])も同様です。 >fgets(line,pb[2],pb[0]);//タイトルを取得 fgets()の第3引数の型はFILE*ですが、pb[0]の型はcharであり、この行を実行するとプログラムが異常終了するはずです。指定した位置からファイルを読ませたければfseek()やfsetpos()を使ってfpの現在位置を変える必要があります。 >else if (strstr(line, "</title>")){ <title>と</title>が同じ行内にあった場合</title>に対するチェックが実行されることはありません。出力されるテキストが空なのは、fprintf(fw,"%s",line)が実行されないからです。 XMLを扱うAPIを標準で持っているPythonとかで書いたほうが簡単だと思います。

質問者

お礼 2022/06/07 15:49

他の方からの指摘もありましたが、ライブラリを使うと能力が身につかないとのことです。なので自力でやってます。ライブラリでやるパターンは既にできています。

その他の回答 (2)

_kappe_
ベストアンサー率68% (1600/2328)

2022/06/07 18:56 回答No.3

回答No.1・2の者です。 C言語で自力でプログラムを書きたい理由は分かりました。ポインタが苦手とは言っていられないようですね。勉強頑張ってください。

質問者

お礼 2022/06/07 19:35

ありがとうございます。

_kappe_
ベストアンサー率68% (1600/2328)

2022/06/06 20:54 回答No.1

XMLを処理するならC言語を使うのはあまりお勧めしません。ポインタの扱いが苦手ならなおさらです。どうしてもC言語で書きたい場合は、XMLの文法を解析する部分を自力で書くのはやめて、既存のXML解析用ライブラリを使うべきです。例を挙げるとExpat(https://libexpat.github.io/), libxml2(https://gitlab.gnome.org/GNOME/libxml2)などです。ただし、自分で使ったことはないのでメリット・デメリットなどは語れません。