• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:英文和訳の添削をお願いします。)

英文和訳の添削をお願いします

このQ&Aのポイント
  • 英文の訳をしているのですが、文の構造があまりよく分からず上手く和訳が出来ないものがいくつかあるので、教えていただきたいです。
  • 専門系の論文の文章なので、難しいかもしれませんが、分かる部分だけでも教えていただけると助かります。
  • 1:the two resulting partitions of the instance set are then optimally matched, before the remaining instances, corresponding to cases of disagreement between both modalities, are finally processed. 「両方のモダリティの間で不一致となる、残りのインスタンスが最終的に処理される前に、インスタンスセットにおける2つの分割結果は最適に一致します。」(日本語としてうまく繋げられていないです。)

質問者が選んだベストアンサー

  • ベストアンサー
回答No.1

こんにちは。回答がつきませんね。 質問者さんに少しアドバイスですが、英語であれなんであれ、ある文章を翻訳するというのは、文法がわかって単語が置き換えられればできるというほど簡単なものじゃありません(それだけの話なら機械翻訳でもっとちゃんとした訳文ができるはずです)。翻訳以前に文章に何が書いてあるかが理解できることが第一です。ですので、極端に短い部分だけを取り出して聞かれたばあい、なんのことかわからないので、理解もできず、翻訳もできない、ということが起こります。その意味で、こういう質問をされるときは、最低限、何の分野の話なのか(何の話をしているのか)、それから質問している文章の前後でだいたいどんな話になっているのか(つまりどんな文脈なのか、ということですね)の情報を出されたほうが回答がつきやすくなると思います(さらに言うなら、話の背景がわかる人に聞くのがよいという意味では、こういう専門的な文章は、英語のカテゴリよりも、専門分野のカテゴリ(このご質問の場合は「学問・教育→情報工学」あたりでしょうか)で質問されたほうが答えが得やすい可能性があると思います)。 さて、どんなテーマの論文でどんな文脈なのか知るために、お尋ねの文章をネットで検索してみました。 Xavier Bost, Georges Linar`es, Serigne Gueye, 2015. AUDIOVISUAL SPEAKER DIARIZATION OF TV SERIES. 40th IEEE International Conference on Acoustics, Speech and Signal Processing. http://xavierbost.fr/publications/bostAudioVis2015.pdf というものみたいですね。会話の情報処理の研究なんですか?「話者ダイアリゼーション」なんて初めて聞きました(汗) 先に書いた、 > 翻訳以前に文章に何が書いてあるかが理解できることが第一です。 という点では、まったくの門外漢ですので私はまるっきり不適格ですが、「こんな感じかな?」というだけのことで試しに訳してみます。 1. the two resulting partitions of the instance set are then optimally matched, before the remaining instances, corresponding to cases of disagreement between both modalities, are finally processed. これに先行する文では「この論文では、我々は、テレビシリーズでの会話シーンの話者ダイアリゼーションを音声と画像のモダリティを組み合わせて行うことを提唱する。話者ダイアリゼーションはまずそれぞれのモダリティをもちいて行われる」とあります。 で、その次ですから、 「インスタンス・セット(何でしょう?)の、そうやって得られたふたつの(つまり音声と画像のそれぞれからということでしょうね)パーティション(区分?)は、次に、互いに最適に対応づけられ、さらに、残りのインスタンス(これは両方のモダリティの間の不一致のケースに対応しているが)が最終的に処理される」 と読めます(なんだかわかりません 汗)。resultingはここでは、「直前に言われた方法で得られた」ということを言っています。are optimally matched は、音声からの結果と画像からの結果がなんらかの手法で「最適」な形で対応づけられることを言っているでしょう。before・・はここでは頭から順に訳して「つぎに」としました。もちろん、後ろから訳して、「・・する前に・・・」としてもかまいません。 2. Most of state-of-the-art systems rely on a two-step approach, performing first speaker turn detection followed by single-speaker segment clustering. 「ほとんどの最先端のシステムは、二つの段階からなるアプローチに頼っています。つまり、まず、話者の順番の検出を行い、続いて、単一話者のセグメントのクラスタリングを行います。」 相変わらずさっぱりわかりませんが(汗)、ここはfirst speaker(第一話者)と読むのじゃないでしょう。もし第一話者なら、'the' first speakerと定冠詞がないとおかしいです。それがないので、firstが副詞だとわかります。performing first A followed by B.つまり、最初にAを行い、次にBを行う(もしもまわりくどく訳すと、Bに後続される形で最初にAを行う、となりますが)、ということだと思います。分詞構文は文法的にはMost of state-of-the-art systems rely on a two-step approach の全体にかかっていると説明されると思いますが、内容的には、「二つの段階からなるアプローチ」の内容を説明しています。 3. More recently, SD was extended to video streams, facing the critical issue of processing contents produced in uncontrolled and variable environments. この文章の直前では、話者ダイアリゼーション(SD)が、最初は音声のみのストリームに適用されており、そこでは状況は悪い(音質が良くないなどのことでしょうか)ながら、コントロールされた(条件などが揃っているというような意味でしょうか)状況だったと書いてあります。そこで、 「もっと最近になると、SDは、ビデオストリームにも広げて使われるようになり、その結果、条件を揃えることなどがされていない、多様な環境で制作されたコンテンツを処理するという厳しい問題に直面することになりました。」 分詞構文の解釈、「【and face ~】として訳してしまって良いのでしょうか?」はよろしいと思います。私の訳では「その結果」でつなげました。 4. On the other hand, movie dialogue scenes exhibit formal regularities at a visual level, with two alternating and recurring shots, each one corresponding to one of the two speakers involved. この直前の文章は、こういったテレビドラマの話者ダイアリゼーションの問題点として、画像と音声が完全に対応していないこと、たとえばあるシーンでは、今話している人が写っていなくて、話を聞いている人の顔が写っていることもあることが言われています。そこでそれに続く部分、 「他方、動画に写された会話シーンは、ふたつのショット(そのそれぞれが、会話をしている二人の話者のどちらかに対応している)が交代に繰り返し出てくるという、視覚的なレベルでの形のうえでの規則性を示します」 おわかりのように、 formal regularities at a visual levelというのは、会話シーンで、Aさんが話すときはAさんの顔が、Bさんが話すときはBさんの顔が写るというぐあいに、AさんとBさんが交互に写されることを言ってるわけでしょう。formalはここでは「礼式の」「公式の」という意味ではなくて、「form(形)の」という意味でしょうね。with two以下は、文法的には、movie dialogue scenes exhibit formal regularities at a visual level,全体にかかるという説明になるでしょうが、意味の上では、formal regularities at a visual levelがどんなものかを具体的に説明しているわけです。 5. We manually annotated three episodes of each series by indicating shot cuts, similar shots, speech segments as well as the corresponding speakers. この直前では著者らが、3本のテレビドラマシリーズのファーストシーズンを分析に使ったと言っています。 「我々は、それぞれのシリーズの3話(つまり3シリーズのそれぞれ3回の放送分、合計9話ぶんですね)について、ショットカットと類似のショットとスピーチセグメント、さらには対応する話者の情報を、手作業で注釈づけした。」 例によってどんなことしたかさっぱりわかりません(汗)。as well as ~は単純な列挙を避ける言い回しにすぎなくて、ここでは、shot cuts, similar shots, speech segments, the corresponding speakers が全部同等と考えても差し支えないと思います。 以上、私なりにわかる範囲で解説してみました。

sou-e9
質問者

お礼

お礼が遅くなってしまい、申し訳ありません。 回答ありがとうございました。 わざわざ論文を検索していただき、非常に丁寧な回答を下さって本当にありがたかったです。 確かに、質問の仕方が非常に悪かったですね・・・。 私自身、単語1語1語を正確に訳していくような方法をとりがちなので、今後は文章全体の流れが分かるような訳をしていくように心掛けたいと思います。 本当にありがとうございました。