rnavi

2020-02-25

自然言語処理分野論文まとめ【2020年02月25日arXiv公開】

アブストまとめ

自然言語処理

View数：3,054

Like+1

お気に入り

2020年02月25日に発表された自然言語処理分野の論文21本のAbstractをまとめて和訳しました。

この記事の見出し

1 Resources for Turkish Dependency Parsing: Introducing the BOUN Treebank and the BoAT Annotation Tool
2 Discriminative Adversarial Search for Abstractive Summarization
3 Multilingual Twitter Corpus and Baselines for Evaluating Demographic Bias in Hate Speech Recognition
4 Low-Resource Knowledge-Grounded Dialogue Generation
5 Improving BERT Fine-Tuning via Self-Ensemble and Self-Distillation
6 Semi-Supervised Speech Recognition via Local Prior Matching
7 KBSET — Knowledge-Based Support for Scholarly Editing and Text Processing with Declarative LaTeX Markup and a Core Written in SWI-Prolog
8 Fixed Encoder Self-Attention Patterns in Transformer-Based Machine Translation
9 Learning to Select Bi-Aspect Information for Document-Scale Text Content Manipulation
10 Leveraging Code Generation to Improve Code Retrieval and Summarization via Dual Learning
11 FONDUE: A Framework for Node Disambiguation Using Network Embeddings
12 A Hybrid Approach to Dependency Parsing: Combining Rules and Morphology with Deep Learning
13 Predicting Subjective Features from Questions on QA Websites using BERT
14 GRET: Global Representation Enhanced Transformer
15 Emosaic: Visualizing Affective Content of Text at Varying Granularity
16 Deep Multimodal Image-Text Embeddings for Automatic Cross-Media Retrieval
17 Do Multi-Hop Question Answering Systems Know How to Answer the Single-Hop Sub-Questions?
18 A Nepali Rule Based Stemmer and its performance on different NLP applications
19 Automata for Hyperlanguages
20 Fill in the BLANC: Human-free quality estimation of document summaries
21 Sketching Transformed Matrices with Applications to Natural Language Processing

Resources for Turkish Dependency Parsing: Introducing the BOUN Treebank and the BoAT Annotation Tool

トルコの依存関係解析のためのリソース：BOUN TreebankとBoAT Annotation Toolの紹介

著者：Utku Türk, Furkan Atmaca, Şaziye Betül Özateş, Gözde Berk, Seyyit Talha Bedir, Abdullatif Köksal, Balkız Öztürk Başaran, Tunga Güngör, Arzucan Özgür
URL：http://arxiv.org/abs/2002.10416v1

この論文の概要（機械翻訳による和訳）
この論文では、トルコ語のリソースを開発するための貢献と取り組みについて説明します。これには、新しい文章を含む新しいツリーバンク（BOUN Treebank）と、採用したガイドラインおよび開発した新しい注釈ツール（BoAT）が含まれます。私たちが採用した手動の注釈プロセスは、4人の言語学者と5人のNLPスペシャリストのチームによって形作られ、実装されました。 BOUNツリーバンクの注釈に関する決定は、Demarneffe et al。（2014）およびNivre et al。（2016）。 UDframeworkの他のトルコのツリーバンクの再注釈に基づいた最近の統合努力を考慮しました（T “urk et al。、2019）。さらに、各テキストタイプ、BOUNツリーバンクの合計、および再注釈付けまたはトルコ語ツリーバンクのすべてに対して解析されたグラフベースの依存関係の解析結果を報告します。最先端の依存関係パーサーが、適切な頭と頭と依存者との間の構文関係を識別するためのスコアを改善したことを示します。より包括的なツリーバンクにより、依存関係の解析に関するパフォーマンスが向上します

Discriminative Adversarial Search for Abstractive Summarization

抽象的要約のための識別的敵対検索

著者：Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, Jacopo Staiano
URL：http://arxiv.org/abs/2002.10375v1

この論文の概要（機械翻訳による和訳）
外部メトリックを必要とせずに露出バイアスの影響を緩和するという望ましい特性を備えた、シーケンスデコードの新しいアプローチであるDiscrisminativeAdversarial Search（DAS）を紹介します。ジェネレーターを改善するためにディスクリミネーターが使用されるジェネレーティブアドバサリアルネットワーク（GAN）に触発され、我々の方法は、ジェネレーターパラメーターがトレーニング時に更新されず、ディスクリミネーターが推論時にシーケンス生成を駆動するためにのみ使用されるという点でGANと異なります。抽象的要約のタスクに対する提案されたアプローチの有効性を調査します。得られた結果は、DASの素朴なアプリケーションが最先端の方法よりも改善され、弁別器の再訓練によって得られるさらなる利得を示しています。さらに、DASがクロスドメイン適応にどのように効果的であるかを示します。最後に、報告されるすべての結果は、利用可能な最高のパフォーマンスのシステムで一般的に使用される追加のルールベースのフィルタリング戦略なしで取得されます。

Multilingual Twitter Corpus and Baselines for Evaluating Demographic Bias in Hate Speech Recognition

ヘイトスピーチ認識における人口統計的バイアスを評価するための多言語Twitterコーパスとベースライン

著者：Xiaolei Huang, Linzi Xing, Franck Dernoncourt, Michael J. Paul
URL：http://arxiv.org/abs/2002.10361v1

この論文の概要（機械翻訳による和訳）
文書分類モデルの公平性評価に関する既存の研究は、主に、人口統計学的属性の根拠のない合成単言語データを使用しています。この作業では、年齢、国、性別、人種/民族の4つの人口統計学的要因を推定して、ヘイトスピーチ検出タスク用の多言語Twitterコーパスを作成し、公開します。コーパスは5つの言語をカバーしています：英語、イタリア語、ポーランド語、ポルトガル語、スペイン語。クラウドソーシングプラットフォーム、Figure Eightで推定人口統計ラベルを評価します。バイアスを引き起こす可能性のある要因を調べるために、英語コーパスの人口統計学的予測可能性の実証分析を行います。 4つの一般的なドキュメント分類子のパフォーマンスを測定し、著者レベルの人口統計属性に対するベースライン分類子の公平性とバイアスを評価します。

Low-Resource Knowledge-Grounded Dialogue Generation

低リソースの知識に基づいた対話生成

著者：Xueliang Zhao, Wei Wu, Chongyang Tao, Can Xu, Dongyan Zhao, Rui Yan
URL：http://arxiv.org/abs/2002.10348v1

この論文の概要（機械翻訳による和訳）
知識に応じることは、インテリジェントな会話エージェントの重要な機能として認識されています。しかし、そのような応答生成モデルを学習するためのデータを訓練する知識に基づいた対話は、入手が困難です。実際の挑戦に動機付けられて、限られた訓練例のみが利用可能であるという自然な仮定の下で知識に基づいた対話の生成を考慮します。このようなリソースの少ない設定では、生成モデル全体から知識に基づいた対話に依存するパラメーターを分離するために、解きほぐされた応答デコーダーを考案します。これにより、モデルの大部分を多数の非対話型のダイアログおよび非構造化文書から学習でき、残りの小さなパラメーターは限られたトレーニング例を使用して適切に適合できます。 2つのベンチマークの評価結果は、1/8のトレーニングデータのみで、モデルが最先端のパフォーマンスを達成し、ドメイン外の知識で十分に一般化できることを示しています。

Improving BERT Fine-Tuning via Self-Ensemble and Self-Distillation

自己アンサンブルおよび自己蒸留によるBERTの微調整の改善

著者：Yige Xu, Xipeng Qiu, Ligao Zhou, Xuanjing Huang
URL：http://arxiv.org/abs/2002.10345v1

この論文の概要（機械翻訳による和訳）
BERTのような事前トレーニング済み言語モデルの微調整は、NLPで効果的な方法になり、多くのダウンストリームタスクで最先端の結果をもたらします。 BERTを新しいタスクに適応させる最近の研究は、主にモデル構造の変更、事前トレーニングタスクの再設計、外部データと知識の活用に焦点を当てています。微調整戦略自体はまだ完全に検討されていません。このホワイトペーパーでは、2つの効果的なメカニズム（自己アンサンブルと自己蒸留）を使用してBERTの微調整を改善します。テキスト分類と自然言語推論タスクの実験は、提案された方法が外部データや知識なしでBERTの適応を大幅に改善できることを示しています。

Semi-Supervised Speech Recognition via Local Prior Matching

ローカル事前マッチングによる半教師付き音声認識

著者：Wei-Ning Hsu, Ann Lee, Gabriel Synnaeve, Awni Hannun
URL：http://arxiv.org/abs/2002.10336v1

この論文の概要（機械翻訳による和訳）
音声認識などのシーケンス変換タスクの場合、強力な構造化された事前モデルは、ターゲット空間に関する豊富な情報をエンコードし、無効なシーケンスに低い確率を割り当てることで暗黙的に除外します。この作業では、ラベル付きスピーチで訓練された識別モデルに学習信号を提供するために、強力な事前知識（言語モデルなど）から知識を抽出する半監視対象のローカル事前マッチング（LPM）を提案します。 LPMは、理論的には意欲的で、実装が簡単で、同等の設定の下で既存の知識蒸留技術よりも優れていることを実証します。 100時間のラベル付き音声でトレーニングされたベースラインから開始し、360時間のラベルなしデータを追加して、LPMは同じデータの完全に監視されたモデルと比較して、クリーンおよびノイズのあるテストセットの単語誤り率の54％および73％を回復します。

KBSET — Knowledge-Based Support for Scholarly Editing and Text Processing with Declarative LaTeX Markup and a Core Written in SWI-Prolog

KBSET-宣言型LaTeXマークアップとSWI-Prologで記述されたコアを使用した学術編集とテキスト処理の知識ベースのサポート

著者：Jana Kittelmann, Christoph Wernhard
URL：http://arxiv.org/abs/2002.10329v1

この論文の概要（機械翻訳による和訳）
KBSETは、2つのフレーバーで学術編集をサポートする環境です。1つ目は、ソース文書からPDFおよびHTMLプレゼンテーションまで、完全に通信のエディション（特に18世紀および19世紀）の開発に伴う実用的なツールKBSET /レターです。、自動化された名前付きエンティティ認識を中心とするエディションで作業する小説形式を実験的に調査するためのプロトタイプツールKBSET / NERとして。 KBSETは、LaTeX表記で表現されるアプリケーション固有の宣言型マークアップを処理し、RDFで通常提供される大規模な外部ファクトベースを組み込むことができます。 KBSETには、特別に開発されたLaTeXスタイルと、SWI-Prologで記述されたコアシステムが含まれています。

Fixed Encoder Self-Attention Patterns in Transformer-Based Machine Translation

トランスフォーマーベースの機械翻訳における固定エンコーダーの自己注意パターン

著者：Alessandro Raganato, Yves Scherrer, Jörg Tiedemann
URL：http://arxiv.org/abs/2002.10260v1

この論文の概要（機械翻訳による和訳）
トランスフォーマーベースのモデルは、神経機械翻訳に根本的な変化をもたらしました。 Transformerアーキテクチャの重要な機能は、いわゆるマルチヘッドアテンションメカニズムです。これにより、モデルは入力のさまざまな部分に同時に焦点を合わせることができます。しかし、最近の研究では、注意ヘッドはしばしば冗長な単純な位置パターンを学習することが示されています。この論文では、各エンコーダー層の1つを除くすべてのアテンションヘッドを、位置のみに基づいており、外部の知識を必要としない固定の（学習不可能な）注意深いパターンに置き換えることを提案します。私たちの実験は、トランスフォーマーのトレーニング時にエンコーダー側のアテンションヘッドを固定しても翻訳品質に影響を与えず、低リソースシナリオでBLEUscoresを最大3ポイント増加させることを示しています。

Learning to Select Bi-Aspect Information for Document-Scale Text Content Manipulation

ドキュメントスケールのテキストコンテンツ操作のためのバイアスペクト情報の選択の学習

著者：Xiaocheng Feng, Yawei Sun, Bing Qin, Heng Gong, Yibo Sun, Wei Bi, Xiaojiang Liu, Ting Liu
URL：http://arxiv.org/abs/2002.10210v1

この論文の概要（機械翻訳による和訳）
このペーパーでは、新しい実用的なタスクであるドキュメントスケールのテキストコンテンツ操作に焦点を当てます。これは、テキストスタイルの転送の反対であり、コンテンツを変更しながらテキストスタイルを保持することを目的としています。詳細には、入力は構造化レコードのセットと、別のレコードセットを説明するための参照テキストです。出力は、参照の同じ記述スタイルでsourcerecordsetの部分コンテンツを正確に記述する要約です。このタスクは、並列データが不足しているため監視されておらず、バイアスペクト入力から適切なレコードとスタイルワードをそれぞれ選択し、忠実度の高い長いドキュメントを生成するのが困難です。これらの問題に取り組むために、まず、テストベッドとしてバスケットボールのゲームレポートコーパスに基づいてデータセットを構築し、インタラクティブな注意メカニズムを備えた教師なしニューラルモデルを提示します。。さらに、いくつかの疑似トレーニングペアを構築するためのタスクにおける逆翻訳の有効性も調査します。経験的な結果は、競合手法に対するアプローチの優位性を示し、モデルはまた、最新の結果をもたらします。文レベルのデータセット。

Leveraging Code Generation to Improve Code Retrieval and Summarization via Dual Learning

コード生成の活用によるデュアル学習によるコード検索と要約の改善

著者：Wei Ye, Rui Xie, Jinglei Zhang, Tianxiang Hu, Xiaoyin Wang, Shikun Zhang
URL：http://arxiv.org/abs/2002.10198v1

この論文の概要（機械翻訳による和訳）
コードの要約は、ソースコードスニペットを指定すると簡単な自然言語の説明を生成し、コード取得は自然言語クエリを指定すると関連するソースコードを取得します。両方のタスクは、自然言語とプログラミング言語の関連をモデル化することを目的としているため、最近の研究では、これら2つのタスクを組み合わせてパフォーマンスを改善しています。しかし、研究者は、これらのタスクを個別またはパイプライン方式でトレーニングするため、2つのタスク間の固有の接続を効果的に活用できませんでした。つまり、パフォーマンスのバランスが取れていません。この論文では、追加のコード生成タスクを導入することにより、2つのタスクの新しいエンドツーエンドモデルを提案します。より具体的には、デュアルラーニングでコード要約とコード生成の間の確率的相関を明示的に活用し、コード要約とコード生成に2つのエンコーダーを使用して、マルチタスク学習を介してコード検索タスクをトレーニングします。 SQLとPythonの既存のデータセットで広範な実験を実施した結果、モデルが最新モデルよりもコード取得タスクの結果を大幅に改善し、コードのBLEUスコアの面で競争力のあるパフォーマンスを達成できることが示されました要約タスク。

FONDUE: A Framework for Node Disambiguation Using Network Embeddings

FONDUE：ネットワーク埋め込みを使用したノードの明確化のためのフレームワーク

著者：Ahmad Mel, Bo Kang, Jefrey Lijffijt, Tijl De Bie
URL：http://arxiv.org/abs/2002.10127v1

この論文の概要（機械翻訳による和訳）
実際のデータは、多くの場合、ネットワークの形で現れます。例には、ソーシャルネットワーク、引用ネットワーク、生物学的ネットワーク、知識グラフが含まれます。最も単純な形式では、ネットワークは実在のエンティティ（たとえば、人、論文、タンパク質、概念）をノードとして表し、これらのノード間のエッジを使用して他のエンティティとの関係の観点からそれらを記述します。これは、情報の拡散の研究から書誌分析、バイオインフォマティクスの研究、および質問への回答まで、さまざまな目的に役立ちます。しかし、ネットワークの品質はしばしば問題となり、下流のタスクに影響を及ぼします。このホワイトペーパーでは、ネットワークの事実上のノードが複数の実在するエンティティに対応するという一般的な問題に焦点を当てています。特に、ノードの曖昧性解消のためのネットワーク埋め込みに基づくアルゴリズムであるFONDUEを紹介します。ネットワークの場合、FONDUEは、後続の分割のために、複数のエンティティに対応するノードを識別します。 12のベンチマークデータセットに対する広範な実験により、FONDUEは、既存の最新技術と比較して、比較可能な計算コストで、曖昧なノードの識別に対して実質的かつ均一に正確であり、あいまいなノードを分割する最適な方法を決定するのに最適ではないことが実証されています。

A Hybrid Approach to Dependency Parsing: Combining Rules and Morphology with Deep Learning

依存関係解析へのハイブリッドアプローチ：ルールとモルフォロジーとディープラーニングの組み合わせ

著者：Şaziye Betül Özateş, Arzucan Özgür, Tunga Güngör, Balkız Öztürk
URL：http://arxiv.org/abs/2002.10116v1

この論文の概要（機械翻訳による和訳）
完全にデータ駆動型の深層学習ベースのモデルは、通常、言語に依存しないように設計されており、多くの自然言語処理タスクで成功することが示されています。ただし、学習した言語のリソースが少なく、トレーニングデータの量が不十分な場合、これらのモデルは、自然言語の文法ベースの情報の統合から利益を得ることができます。特に、トレーニングデータの量が制限されている言語では、依存関係の解析に2つのアプローチを提案します。最初のアプローチでは、最先端の深層学習ベースのパーサーとルールベースのアプローチを組み合わせ、2番目のアプローチでは、形態学的情報をパーサーに組み込みます。ルールベースのアプローチでは、ルールによって行われた解析の決定はエンコードされ、ディープネットワークへの追加情報として入力ワードのベクトル表現と連結されます。形態ベースのアプローチは、単語の形態学的構造をパーサーネットワークに含めるためのさまざまな方法を提案します。実験はIMST-UD Treebankで行われ、結果は、ルールベースの構文解析システムを介したターゲット言語に関する明示的な知識のニューラルパーサーへの統合を示唆しています形態素解析により、より正確な注釈が得られるため、アタッチメントスコアの観点から解析パフォーマンスが向上します。提案された方法はトルコ語用に開発されていますが、他の言語にも適応できます。

Predicting Subjective Features from Questions on QA Websites using BERT

BERTを使用してQA Webサイトの質問から主観的特徴を予測する

著者：Issa Annamoradnejad, Mohammadamin Fazli, Jafar Habibi
URL：http://arxiv.org/abs/2002.10107v1

この論文の概要（機械翻訳による和訳）
StackOverflowやQuoraなどの最新の質問応答Webサイトには、コンテンツの品質を維持するための特定のユーザールールがあります。これらのシステムは、新しいコンテンツにアクセスするためのユーザーレポートに依存していますが、これには違反の処理が遅い、通常のユーザーと経験のあるユーザーの時間が失われる、一部のレポートの品質が低い、新規ユーザーへのフィードバックが抑制されるなどの深刻な問題があります。 Q＆A Webサイトでモデレーションアクションを自動化するソリューションを提供することで、QA Webサイトの質問の質や主観的な側面を予測するモデルを提供することを目指しています。このため、2019年にGoogle ResearchでCrowdSourceチームが収集したデータと、問題について事前調整されたBERTモデルを微調整しました。モデルは2エポックのトレーニング後に95.4％の精度を達成し、次のトレーニングでは大幅に改善しませんでした。結果は、簡単な微調整により、正確なモデルを短時間で、より少ないデータ量で実現できることを確認しています。

GRET: Global Representation Enhanced Transformer

GRET：グローバル表現強化トランスフォーマー

著者：Rongxiang Weng, Haoran Wei, Shujian Huang, Heng Yu, Lidong Bing, Weihua Luo, Jiajun Chen
URL：http://arxiv.org/abs/2002.10101v1

この論文の概要（機械翻訳による和訳）
エンコーダー-デコーダーフレームワークに基づいたTransformerは、いくつかの自然言語生成タスクで最先端のパフォーマンスを実現しています。エンコーダーは、入力文の単語を一連の隠れ状態にマッピングします。これらの状態は、デコーダーに入力されて出力文を生成します。これらの隠された状態は通常、入力語に対応し、ローカル情報のキャプチャに焦点を合わせます。ただし、グローバル（文レベル）の情報はめったに探索されず、世代の質を向上させる余地が残されています。本論文では、Transformerネットワークのグローバル表現を明示的にモデル化するために、新しいグローバル表現拡張トランスフォーマー（GRET）を提案します。具体的には、提案モデルでは、エンコーダーからグローバル表現の外部状態が生成されます。次に、生成プロセスを改善するために、デコード処理中にグローバル表現がデコーダに融合されます。 2つのテキスト生成タスク（機械翻訳とテキスト要約）で実験を実施します。 4つのWMT機械翻訳タスクとLCSTSテキスト要約タスクの実験結果は、自然言語生成に対する提案されたアプローチの有効性を示しています。

Emosaic: Visualizing Affective Content of Text at Varying Granularity

Emosaic：さまざまな粒度でのテキストの感情的なコンテンツの視覚化

著者：Philipp Geuder, Marie Claire Leidinger, Martin von Lupin, Marian Dörk, Tobias Schröder
URL：http://arxiv.org/abs/2002.10096v1

この論文の概要（機械翻訳による和訳）
この論文は、感情の複数の次元と意味の粒度のさまざまなレベルを考慮して、テキスト文書の感情的なトーンを視覚化するためのツールであるEmosaicを提示します。 Emosaicは、言語、感情、色覚の関係に関する心理学的研究に基づいています。人間の感情の確立された3次元モデルを活用します：価（良い、良い、悪い、ひどい）、覚醒（冷静、受動的vs刺激的、能動的）および支配（弱、制御vs強、制御）。以前は、感情の多次元モデルは、関連する知覚的課題のため、テキストデータの視覚化ではめったに使用されていませんでした。さらに、最近までほとんどのテキスト視覚化は高レベルのままであり、テキストの深い意味内容との密接な関係を妨げていました。実証研究により、3次元の感情空間の任意の点を一意の色に変換するカラーマッピングを導入します。 Emosaicは、価感-覚醒-支配モデルの3つの感情パラメータで注釈が付けられた単語の感情辞書を使用して、テキストから感情的な意味を抽出し、それらに色相-彩度-輝度色空間の対応する色パラメータを割り当てます。感情を色にマッピングするこのアプローチは、読者がテキストの感情的なトーンをより簡単に把握できるようにすることを目的としています。 Emosaicのいくつかの機能により、読者はテキストの感情的な内容をより詳細に対話的に探索できます。たとえば、ヒストグラムとして集約された形式で、テキストの順序に従って連続した形式で、テキスト表示自体に詳細に埋め込まれています。テキストと視覚化のフィルタリングとナビゲートを可能にする相互作用技術が含まれています。

Deep Multimodal Image-Text Embeddings for Automatic Cross-Media Retrieval

自動クロスメディア検索のためのディープマルチモーダル画像テキスト埋め込み

著者：Hadi Abdi Khojasteh, Ebrahim Ansari, Parvin Razzaghi, Akbar Karimi
URL：http://arxiv.org/abs/2002.10016v1

この論文の概要（機械翻訳による和訳）
この論文では、クロスモーダル検索のための視覚テキスト埋め込みスペースを学習することにより、画像と文章をマッチングするタスクを検討します。テキストと画像の特徴と表現は比較できないため、このようなスペースを見つけることは困難な作業です。この作業では、視覚と言語表現の両方を同時に学習して画像とテキストの類似性を推測するための、エンドツーエンドの深層マルチモーダル畳み込みリカレントネットワークを導入します。モデルは、ヒンジベースのトリプレットランキングを使用して、どのペアが一致（正）で、どのペアが不一致（負）であるかを学習します。共同表現について学ぶために、Twitterから新しく抽出されたツイートのコレクションを活用します。データセットの主な特徴は、画像やツイートがベンチマークと同じように標準化されていないことです。さらに、説明がきちんと構成されているベンチマークとは反対に、写真とツイートの間に高いセマンティック相関がある場合があります。 MS-COCObenchmarkデータセットの実験結果は、このモデルが以前に提示された特定の方法よりも優れており、最新技術と比較して競争力のあるパフォーマンスを持っていることを示しています。コードとデータセットは一般に公開されています。

Do Multi-Hop Question Answering Systems Know How to Answer the Single-Hop Sub-Questions?

マルチホップ質問応答システムは、シングルホップのサブ質問に回答する方法を知っていますか？

著者：Yixuan Tang, Hwee Tou Ng, Anthony K. H. Tung
URL：http://arxiv.org/abs/2002.09919v1

この論文の概要（機械翻訳による和訳）
マルチホップ質問応答（QA）では、質問に回答するために長いテキストのさまざまな部分から情報を取得して統合するモデルが必要です。人間はこのような複雑な質問に答えるには、分割統治アプローチを使用します。このホワイトペーパーでは、マルチホップ質問の上位モデルが、人間のような下位の質問を理解しているかどうかを調査します。マルチホップ複合質問のサブ質問を生成するために、ニューラル分解モデルを採用し、対応するサブ回答を抽出します。複数の最先端のマルチホップQAモデルは、サブ質問の大部分に正しく答えることができませんが、対応するマルチホップ質問は正しく答えられます。これは、これらのモデルが推論パスを真に理解する代わりに、いくつかの部分的な手がかりを使用してマルチホップ質問に答えることを管理していることを示しています。また、サブ質問に回答する際のパフォーマンスを大幅に改善する新しいモデルを提案します。私たちの仕事は、より説明可能なマルチホップQAシステムの構築に向けて一歩前進します。

A Nepali Rule Based Stemmer and its performance on different NLP applications

ネパールのルールベースのステマーとさまざまなNLPアプリケーションでのパフォーマンス

著者：Pravesh Koirala, Aman Shakya
URL：http://arxiv.org/abs/2002.09901v1

この論文の概要（機械翻訳による和訳）
ステミングは、自然言語処理（NLP）の不可欠な部分です。ほとんどすべてのNLPアプリケーションでの前処理ステップです。おそらく、ステミングの最も重要な使用法は情報検索（IR）です。英語などの言語のステミングに関する作業は多数ありますが、ネパール語ステミングにはわずかな作業しかありません。この調査では、Nepaliテキストのルールベースのステマーの作成に焦点を当てています。具体的には、ネパール語文法の2つの異なる接尾辞クラスを識別し、それらを個別に除去する接辞除去システムです。単一の否定接頭辞（Na）のみが識別され、削除されます。この研究では、例外語の識別、形態学的正規化、語変換などの多くの手法に焦点を当て、語幹処理のパフォーマンスを向上させています。 Thestemmerは、Paiceの方法を使用して本質的にテストされ、多目的Naive Bayes Classifierを使用して、基本的なtf-idfベースのIRシステムおよび基本ニューストピック分類器で外部的にテストされます。ステム機能を使用した場合と使用しない場合のこれらのシステムのパフォーマンスの違いが分析されます。

Automata for Hyperlanguages

ハイパー言語のオートマトン

著者：Borzoo Bonakdarpour, Sarai Sheinvald
URL：http://arxiv.org/abs/2002.09877v1

この論文の概要（機械翻訳による和訳）
ハイパープロパティは、従来のトレースプロパティを実行トレースのセットから実行トレースのセットに引き上げます。ハイパープロパティは、情報フローセキュリティポリシー、感度や堅牢性などのサイバー物理システムの重要なプロパティ、および線形化可能性などの分散コンピューティングの一貫性条件を表現および推論するための強力な形式であることが示されています。オートマトンに基づいたトレースプロパティの表現は広範囲にありますが、現在、ハイパープロパティのそのような特性評価はありません。単語のセットに対する言語であるemhyperlanguagesのハイパーオートマトンを導入します。基本的に、ハイパーオートマトンは、オートマトン上で複数の定量化された単語を実行できます。通常のハイパー言語を受け入れる非決定性有限ハイパーオートマトン（NFH）と呼ばれる特定のタイプのハイパーオートマトンを提案します。通常のハイパー言語が有限トレースのハイパープロパティを表現できることを実証し、次にNFHの基本的なプロパティを調査し、ブール演算の下でそれらの閉包を示します。空でないことは一般的には決定不能ですが、NFHのいくつかのフラグメントについては決定可能であることを示します。さらに、NFHの有限集合と通常の言語のメンバーシップ問題、およびNFHのいくつかのフラグメントの包含問題の決定可能性を示します。厳密に普遍的または厳密に実存的。

Fill in the BLANC: Human-free quality estimation of document summaries

BLANCに記入する：ドキュメントの要約の人的自由な品質推定

著者：Oleg Vasilyev, Vedant Dharnidharka, John Bohannon
URL：http://arxiv.org/abs/2002.09836v1

この論文の概要（機械翻訳による和訳）
ドキュメント概要品質の自動推定への新しいアプローチであるBLANCを紹介します。私たちの目標は、客観的で再現性があり、完全に自動化された方法でサマリーの機能パフォーマンスを測定することです。私たちのアプローチは、ドキュメントのテキストで言語理解タスクを実行しながら、ドキュメントの概要にアクセスできる事前トレーニング済みの言語モデルによって得られるパフォーマンスの向上を測定することでこれを実現します。 BLANCスコアは、要約品質測定のROUGEファミリと少なくとも同じくらい人間の評価と良好な相関があるという証拠を提示します。また、ROUGEとは異なり、BLANCmethodは人間が作成した参照要約を必要としないため、完全に人間を使用しない要約品質推定が可能です。

Sketching Transformed Matrices with Applications to Natural Language Processing

自然言語処理への応用による変換された行列のスケッチ

著者：Yingyu Liang, Zhao Song, Mengdi Wang, Lin F. Yang, Xin Yang
URL：http://arxiv.org/abs/2002.09812v1

この論文の概要（機械翻訳による和訳）
メモリに格納できないが、ディスクにあるか、データストリームに表示される大きな行列$ A =（a_ {i、j}）$が与えられたとします。ただし、一部の関数$ f $について、エントリごとに変換された行列$ f（A）：=（f（a_ {i、j}））$の行列分解を計算する必要があります。スペース効率の良い方法でそれを行うことは可能ですか？実際、多くの機械学習アプリケーションは、このような大きな変換された行列を処理する必要があります。たとえば、NLPの単語埋め込み方法は、ポイントワイズ相互情報（PMI）行列を処理する必要がありますが、エントリワイズ変換では、既知の線形代数ツールの適用が困難になります。マトリックス全体を保存し、後でエントリ単位の変換を実行する必要があります。これは、スペースを消費するか実行不可能です。または、学習方法を再設計する必要があります。この論文では、与えられた小さな行列と変換された行列の積を計算するための空間効率の良いスケッチアルゴリズムを最初に提案します。証明可能な小さなエラー境界を持つ変換の一般的なファミリで機能するため、ダウンストリーム学習タスクのプリミティブとして使用できます。次に、このプリミティブを具体的なアプリケーション、つまり低ランク近似に適用します。私たちのアプローチが小さなエラーを取得し、空間と時間の両方で効率的であることを示します。合成データと実際のデータの実験で理論結果を補完します。