2020年01月25日に発表された自然言語処理分野の論文8本のAbstractをまとめて和訳しました。
この記事の見出し
- 1 Pre-training via Leveraging Assisting Languages and Data Selection for Neural Machine Translation
- 2 Improving speaker discrimination of target speech extraction with time-domain SpeakerBeam
- 3 Variational Hierarchical Dialog Autoencoder for Dialogue State Tracking Data Augmentation
- 4 A Study of the Tasks and Models in Machine Reading Comprehension
- 5 Action Recognition and State Change Prediction in a Recipe Understanding Task Using a Lightweight Neural Network Model
- 6 EventMapper: Detecting Real-World Physical Events Using Corroborative and Probabilistic Sources
- 7 Coordinated Reasoning for Cross-Lingual Knowledge Graph Alignment
- 8 Robust Explanations for Visual Question Answering
Pre-training via Leveraging Assisting Languages and Data Selection for Neural Machine Translation
ニューラル機械翻訳のための支援言語とデータ選択の活用による事前トレーニング
URL:http://arxiv.org/abs/2001.08353v1
この論文の概要(機械翻訳による和訳)
大きなモノリンガルデータを使用したシーケンス間(S2S)事前トレーニングは、低リソース設定でのさまざまなS2S NLPタスクのパフォーマンスを向上させることが知られていますが、対象の言語(LOI)で大きなモノリンガルコーパスを常に利用できるとは限りません。このために、他の言語の単一言語コーパスを活用して、LOIの単一言語コーパスの不足を補完することを提案します。低リソースの日英ニューラル機械翻訳(NMT)のケーススタディにより、大規模な中国語とフランス語の単一言語コーパスを活用することで、S2S事前トレーニングの日本語と英語の単一言語コーパスの不足を克服できることが明らかになりました。さらに、スクリプトマッピング(中国語から日本語)を使用して2つの単一言語コーパスの類似性を高め、翻訳品質をさらに向上させる方法を示します。さらに、事前トレーニングの前に使用する単純なデータ選択手法を提案します。 S2S事前トレーニング。提案された方法の経験的比較により、支援言語の単一言語コーパス、データ選択、およびスクリプトマッピングの活用は、低リソースシナリオでのNMT事前トレーニングに非常に重要であることがわかります。
Improving speaker discrimination of target speech extraction with time-domain SpeakerBeam
時間領域SpeakerBeamによるターゲット音声抽出の話者識別の改善
URL:http://arxiv.org/abs/2001.08378v1
この論文の概要(機械翻訳による和訳)
ターゲットの話者に関する混合された手がかりで単一のターゲットソースを抽出するターゲット音声抽出は、ますます注目を集めています。私たちは最近、ターゲットスピーカーの適応発声を利用して音声特性を抽出するスピーカービームを提案しました。これは、そのスピーカーの音声を抽出するためにニューラルネットワークを導くために使用されます。発話全体のスピーカー、および有望な音声抽出パフォーマンスを実現します。ただし、同じ性別の混合物のように、話者が類似した音声特性を持っている場合、ターゲットの話者と干渉している話者を区別するのが難しいため、失敗することがあります。このペーパーでは、SpeakerBeamの話者識別能力を向上させるための戦略を調査します。最初に、スピーチ分離の最先端のパフォーマンスを達成したタイムドメインオーディオ分離ネットワーク(TasNet)に提案されたものと同様の、SpeakerBeamのタイムドメイン実装を提案します。さらに、(1)マイクアレイ録音が利用可能な場合にスピーカーをよりよく識別するための空間的特徴の使用、(2)より差別的な音声特性の学習を支援するための補助スピーカー識別損失の追加を調査します。これらの戦略は、特に同じ性別混合の音声抽出パフォーマンスを大幅に改善し、ターゲット音声抽出の観点からTasNetよりも優れていることを実験的に示しています。
Variational Hierarchical Dialog Autoencoder for Dialogue State Tracking Data Augmentation
対話状態追跡データ増強のための変分階層ダイアログ自動エンコーダ
URL:http://arxiv.org/abs/2001.08604v1
この論文の概要(機械翻訳による和訳)
最近の研究は、深い生成モデルから生成された合成サンプルを使用してトレーニングデータセットを増強する生成データ増強が、特定のNLPタスクに役立つことを示しています。この作業では、このアプローチを、目標指向の対話の対話状態追跡のタスクに拡張します。この場合、データは、発話や関連する注釈よりも階層構造を自然に示します。対話状態追跡のための深い生成データの増強には、生成モデルが階層構造データを認識する必要があります。言語的および基本的な注釈構造を含む、目標指向の対話のさまざまな側面をモデル化するために、変分階層型ダイアログオートエンコーダ(VHDA)を提案します。私たちの実験は、私たちのモデルが最先端の対話状態トラッカーの堅牢性を改善し、最終的にいくつかのデータセットの最終ダイアログ状態追跡パフォーマンスを改善する現実的で斬新なサンプルを生成できることを示しています。
A Study of the Tasks and Models in Machine Reading Comprehension
機械読解におけるタスクとモデルの研究
URL:http://arxiv.org/abs/2001.08635v1
この論文の概要(機械翻訳による和訳)
Machine ReadingComprehension(MRC)の既存のタスクとモデルに関する調査を提供するために、このレポートでは次のことをレビューします。 2)ニューラルネットワークベースのMRCモデルを開発するためのアーキテクチャ設計、アテンションメカニズム、およびパフォーマンス向上アプローチ。 3)外部コーパスに含まれるテキスト形式の知識をMRCモデルのニューラルネットワークに組み込むための、最近提案された転送学習アプローチ。 4)外部の知識ベースに含まれるグラフ形式の知識をMRCモデルのニューラルネットワークに組み込むための、最近提案されたいくつかの知識ベースエンコーディングアプローチ。その上、達成されたものとまだ不足しているものによると、このレポートは将来の研究のためのいくつかの未解決の問題も提案しています。
Action Recognition and State Change Prediction in a Recipe Understanding Task Using a Lightweight Neural Network Model
軽量ニューラルネットワークモデルを使用したレシピ理解タスクにおけるアクション認識と状態変化予測
URL:http://arxiv.org/abs/2001.08665v1
この論文の概要(機械翻訳による和訳)
フードレシピの特定のステップを説明する自然言語文を考えてください。そのような指示では、アクション(プレス、ベークなど)とその結果生じる材料の状態の変化(成形、カスタードの調理、高温など)を認識することは困難な作業です。この課題に対処する1つの方法は、エンティティにアクションを適用し、結果を予測するシミュレータモジュールを明示的にモデル化することです(Bosselut et al。2018)が、このようなモデルは不必要に複雑になる可能性があります。本論文では、アクション認識と状態変化予測を分離し、新しい損失関数を介して両者を結合する簡略化されたニューラルネットワークモデルを提案します。これにより、相互に間接的に影響を与えることができます。私たちのモデルは単純ですが、より高い状態変化予測パフォーマンスを達成し(ボッセルトら2018年の55%に対して55%の平均精度)、トレーニングするサンプル数が少なくなります(ボッセルトら2018年までに10万人対65K +) 。
EventMapper: Detecting Real-World Physical Events Using Corroborative and Probabilistic Sources
EventMapper:確証的および確率的ソースを使用した実世界の物理的イベントの検出
URL:http://arxiv.org/abs/2001.08700v1
この論文の概要(機械翻訳による和訳)
ソーシャルメディアはどこにでもあるため、災害などの物理的なイベント検出の豊富なソースとなり、危機管理のリソース割り当ての潜在的なリソースとなります。地震やハリケーンなどの大きなイベントの遡及的な事後イベント検出のためにソーシャルメディアソースを活用する最近の研究がいくつかあります。同様に、気候衛星などの従来の物理センサーを使用して地域のイベント検出を実行した長い歴史があります。しかし、リアルタイムで正確かつグローバルな物理的検出を行うために、ソーシャルメディアと実証的な物理的センサーを組み合わせることは未踏のままです。このホワイトペーパーでは、小規模でありながらコストがかかるイベント(地滑り、洪水、山火事)のイベント認識をサポートするフレームワークであるEventMapperについて説明します。 EventMapperは、リアルタイムでグローバルなイベント認識を提供するために、ソーシャルメディアストリームなどの低レイテンシーでノイズの多い確率的ソースを備えた物理センサーなどの高レイテンシーかつ高精度の確証的なソースを統合します。さらに、EventMapperはコンセプトドリフト現象に対して回復力があり、機械学習モデルでは高いパフォーマンスを維持するために継続的な微調整が必要です。確率的で確証的なソースの一般的な機能を活用することにより、EventMapperは機械学習モデルの更新、メンテナンス、および微調整を自動化します。地滑り、山火事、洪水の検出のために、EventMapperで構築された3つのアプリケーションについて説明します。
Coordinated Reasoning for Cross-Lingual Knowledge Graph Alignment
言語間知識グラフの整列のための協調推論
URL:http://arxiv.org/abs/2001.08728v1
この論文の概要(機械翻訳による和訳)
既存のエンティティアライメント方法は、主に知識グラフのエンコードの選択によって異なりますが、通常は各ソースエンティティのローカル最適一致を独立して選択する同じデコード方法を使用します。このデコード方法は、「多対一」問題を引き起こすだけでなく、このタスクの調整された性質も無視する可能性があります。つまり、各アライメントの決定は他の決定と非常に相関します。この論文では、2つの調整された推論方法、つまり、簡単に解読できる戦略と結合エンティティアライメントアルゴリズムを紹介します。具体的には、Easy-to-Hard戦略は、最初に予測結果からモデルに自信のあるアラインメントを取得し、残りのモデルが不確かなアラインメントを解決するための追加の知識としてそれらを組み込みます。これを実現するために、現在の最先端のベースラインに基づいて構築された拡張アライメントモデルをさらに提案します。さらに、多対1の問題に対処するために、1対1の制約が自然にアライメント予測に組み込まれるように、エンティティのアライメントを共同で予測することを提案します。実験結果は、当社のモデルが最先端の性能を達成し、推論方法も既存のベースラインを大幅に改善できることを示しています。
Robust Explanations for Visual Question Answering
視覚的な質問応答のための堅牢な説明
URL:http://arxiv.org/abs/2001.08730v1
この論文の概要(機械翻訳による和訳)
本論文では、視覚的質問応答(VQA)の堅牢な説明を得る方法を提案します。私たちのモデルは、視覚的およびテキストによる説明を提供することにより、VQAモデルを通じて得られた回答を説明します。私たちが対処する主な課題は、i)現在の方法によって得られた回答とテキストの説明が十分に相関していないこと、およびii)現在の視覚的説明の方法が回答を説明するための適切な場所に焦点を当てていないことです。ノイズベースの攻撃を訓練しなくても、相関の強化により正しい説明と回答が生成されることを保証する協調相関モジュールを使用して、これらの両方の課題に対処します。さらに、これは生成された視覚的およびテキストによる説明の改善にも役立つことを示しています。相関モジュールの使用は、回答と説明が一貫しているかどうかを検証するための堅牢な方法と考えることができます。 VQA-Xデータセットを使用してこのモデルを評価します。提案された方法は、決定をサポートするより良いテキストと視覚の正当化をもたらすことを観察します。対応する視覚的およびテキストの説明を使用して、ノイズベースの摂動攻撃に対するモデルの堅牢性を示します。詳細な実証分析が示されています。ここで、モデル url {https://github.com/DelTA-Lab-IITK/CCM-WACV}のソースコードリンクを提供します。