2020年02月14日に発表された機械学習分野の論文51本のAbstractをまとめて和訳しました。
この記事の見出し
- 1 Learnable Bernoulli Dropout for Bayesian Deep Learning
- 2 A General Framework to Analyze Stochastic Linear Bandit
- 3 Efficient Policy Learning from Surrogate-Loss Classification Reductions
- 4 Self-explainability as an alternative to interpretability for judging the trustworthiness of artificial intelligences
- 5 Weighted Empirical Risk Minimization: Sample Selection Bias Correction based on Importance Sampling
- 6 Online Learning of the Kalman Filter with Logarithmic Regret
- 7 Regret Bounds for Discounted MDPs
- 8 List-Decodable Subspace Recovery via Sum-of-Squares
- 9 Provably Convergent Policy Gradient Methods for Model-Agnostic Meta-Reinforcement Learning
- 10 Patternless Adversarial Attacks on Video Recognition Networks
- 11 Parameterizing Branch-and-Bound Search Trees to Learn Branching Policies
- 12 Development of modeling and control strategies for an approximated Gaussian process
- 13 dtControl: Decision Tree Learning Algorithms for Controller Representation
- 14 Regret Bounds for Noise-Free Bayesian Optimization
- 15 Compressive Learning of Generative Networks
- 16 Efficient Structure-preserving Support Tensor Train Machine
- 17 Structure-Property Maps with Kernel Principal Covariates Regression
- 18 x-vectors meet emotions: A study on dependencies between emotion and speaker recognition
- 19 Active Learning for Sound Event Detection
- 20 M-estimators of scatter with eigenvalue shrinkage
- 21 Sparse Recovery With Non-Linear Fourier Features
- 22 Predictions of 2019-nCoV Transmission Ending via Comprehensive Methods
- 23 Federated Clustering via Matrix Factorization Models: From Model Averaging to Gradient Sharing
- 24 Beyond UCB: Optimal and Efficient Contextual Bandits with Regression Oracles
- 25 Targeted free energy estimation via learned mappings
- 26 Ensemble of Sparse Gaussian Process Experts for Implicit Surface Mapping with Streaming Data
- 27 Learning Flat Latent Manifolds with VAEs
- 28 Convex Density Constraints for Computing Plausible Counterfactual Explanations
- 29 Training Two-Layer ReLU Networks with Gradient Descent is Inconsistent
- 30 Efficient active learning of sparse halfspaces with arbitrary bounded noise
- 31 LaProp: a Better Way to Combine Momentum with Adaptive Gradient
- 32 Uniform Interpolation Constrained Geodesic Learning on Data Manifold
- 33 Deep Multi-Task Augmented Feature Learning via Hierarchical Graph Neural Network
- 34 Lookahead: a Far-Sighted Alternative of Magnitude-based Pruning
- 35 Topologically Densified Distributions
- 36 Machine Learning in Python: Main developments and technology trends in data science, machine learning, and artificial intelligence
- 37 Deep Multi-Task Learning via Generalized Tensor Trace Norm
- 38 A Simple General Approach to Balance Task Difficulty in Multi-Task Learning
- 39 To Split or Not to Split: The Impact of Disparate Treatment in Classification
- 40 Graph Universal Adversarial Attacks: A Few Bad Actors Ruin Graph Learning Models
- 41 Revisiting Fixed Support Wasserstein Barycenter: Computational Hardness and Efficient Algorithms
- 42 Deep Transfer Learning for Physiological Signals
- 43 Distribution-Agnostic Model-Agnostic Meta-Learning
- 44 Capsules with Inverted Dot-Product Attention Routing
- 45 Understanding Global Loss Landscape of One-hidden-layer ReLU Neural Networks
- 46 Collaborative Inference for Efficient Remote Monitoring
- 47 Salvaging Federated Learning by Local Adaptation
- 48 A Random-Feature Based Newton Method for Empirical Risk Minimization in Reproducing Kernel Hilbert Space
- 49 On the Value of Target Data in Transfer Learning
- 50 On Layer Normalization in the Transformer Architecture
- 51 Fast Geometric Projections for Local Robustness Certification
Learnable Bernoulli Dropout for Bayesian Deep Learning
ベイジアンディープラーニングのための学習可能なベルヌーイドロップアウト
URL:http://arxiv.org/abs/2002.05155v1
この論文の概要(機械翻訳による和訳)
この作業では、学習可能なベルヌーイドロップアウト(LBD)を提案します。これは、ドロップアウト率を他のモデルパラメーターと共同で最適化されるパラメーターとして考慮する新しいモデルに依存しないドロップアウトスキームです。ベルヌーイドロップアウトの確率的モデリングにより、我々の方法は、より深いモデルでより堅牢な予測と不確実性の定量化を可能にします。特に、variationalauto-encoders(VAE)と組み合わせると、LBDは柔軟な半陰的事後表現を可能にし、新しい半陰的VAE〜(SIVAE)モデルにつながります。偏りのない低分散の勾配推定器であるAugment-REINFORCE-Merge(ARM)を使用して、ドロップアウトパラメーターに関するトレーニングの最適化を解決します。さまざまなタスクでの実験により、他の一般的に使用されるドロップアウトスキームと比較して、当社のアプローチの優れたパフォーマンスが示されます。全体として、LBDは、画像分類とセマンティックセグメンテーションの精度と不確実性の推定値を改善します。さらに、SIVAEを使用すると、いくつかのパブリックデータセットに対する暗黙的なフィードバックのために、協調フィルタリングで最先端のパフォーマンスを実現できます。
A General Framework to Analyze Stochastic Linear Bandit
確率的線形盗賊を分析するための一般的なフレームワーク
URL:http://arxiv.org/abs/2002.05152v1
この論文の概要(機械翻訳による和訳)
この論文では、意思決定者がR ^ dの一連のアクションの中から順番に選択し、ノイズの多い報酬を観察し、長さTの期間にわたって累積期待報酬を最大化することを目的とする、よく知られた確率線形バンディット問題を研究します。問題のアルゴリズムの一般的なファミリーを紹介し、それらがレート最適であることを証明します。また、不確実性線形バンディット(OFUL)およびトンプソンサンプリング(TS)に直面した楽観主義などの問題に対するいくつかのよく知られたアルゴリズムが、アルゴリズムファミリの特殊なケースであることも示します。したがって、これらの両方のアルゴリズムのレート最適性の統一された証明を取得します。結果には、敵対アクションセット(アクションが敵によって潜在的に選択される場合)と確率的アクションセット(アクションが未知の分布から独立して引き出される場合)の両方が含まれます。後悔の観点から、我々の結果は、ベイジアンおよび最悪の場合の両方の後悔設定に適用されます。私たちの新しい統合された分析手法は、多くの新しい結果をもたらし、文献で知られている2つの未解決の問題を解決します。最も顕著なのは、(1)TSが各ステップで($ sqrt {d} $の係数で)膨張した事後分散を使用しない限り、線形の最悪の場合の後悔を招く可能性があることを示しています。これは、(Agrawal&Goyal、2013; Abeille et al。、2017)によって与えられ、最もよく知られているベイジアン後悔よりも悪い( sqrt(d)の係数で)TSの最もよく知られている最悪の場合の後悔の限界を示しています。 TSに対してRussoとVan Roy(2014)によって与えられた制限は厳格です。これにより、Russo et al。、2018で述べられている未解決の問題が解決されます。(2)また、TSが正しい事前分布またはノイズ分布を使用しない場合、線形ベイジアン後悔を招く可能性があることも示しています。 (3)Goldenshluger&Zeevi、2013のように、一般化されたギャップ仮定とマージン条件の下で、確率的設定でOFULおよびTSの多対数($ T $)後悔を取得します。
Efficient Policy Learning from Surrogate-Loss Classification Reductions
代理損失分類削減からの効率的なポリシー学習
URL:http://arxiv.org/abs/2002.05153v1
この論文の概要(機械翻訳による和訳)
観測データからの政策学習に関する最近の研究は、効率的な政策評価の重要性を強調し、加重(コストに敏感な)分類の削減を提案しています。しかし、効率的な政策評価は、政策パラメータの効率的な推定をもたらす必要はありません。直接、逆傾向加重、または二重ロバストのいずれかのスコア関数を使用したポリシー学習の加重代理損失分類削減によって与えられる推定問題を検討します。正しい仕様の仮定の下では、加重分類定式化はポリシーパラメータに対して効率的である必要はないことを示します。実際の(おそらく重み付けされた)バイナリ分類とは対照的です。ここでは、正しい指定はパラメトリックモデルを意味しますが、ポリシー学習ではセミパラメトリックモデルのみを意味します。これに照らして、代わりに、一般化されたモーメント法に基づく推定アプローチを提案します。これは、政策パラメーターにとって効率的です。ニューラルネットワークを使用したモーメント問題の解決に関する最近の開発に基づく特定の方法を提案し、この方法の効率と後悔の利点を経験的に実証します。
Self-explainability as an alternative to interpretability for judging the trustworthiness of artificial intelligences
人工知能の信頼性を判断するための解釈可能性の代替としての自己説明可能性
URL:http://arxiv.org/abs/2002.05149v1
この論文の概要(機械翻訳による和訳)
AIシステムによって下された決定を説明する能力は、特に医学や自律走行車などの人間の命がかかっている領域で非常に求められています。ディープニューラルネットワークの入出力関係を人間が理解できるルールで近似することは常に可能ですが、二重降下現象の発見は、そのような近似がディープニューラルネットワークの実際の機能にマッピングされることはないことを示唆しています。二重降下は、ディープニューラルネットワークが通常、少数の高レベルのルールを抽出するのではなく、データポイント間をスムーズに補間することで動作することを示します。結果として、複雑な実世界のデータで訓練されたニューラルネットワークは、適用範囲外で使用された場合、本質的に解釈が難しく、失敗する傾向があります。これらの問題にもかかわらずAIを信頼できる方法を示すために、自己説明AIの概念を紹介します。自己説明型AIは、人間が理解できる各意思決定の説明と、意思決定と説明の両方の信頼レベルを提供することができます。このアプローチのいくつかの難しさと、可能な解決策がスケッチされています。ユーザーが適用範囲外で実行するように求められた場合。
Weighted Empirical Risk Minimization: Sample Selection Bias Correction based on Importance Sampling
加重経験的リスク最小化:重要度サンプリングに基づくサンプル選択バイアス補正
URL:http://arxiv.org/abs/2002.05145v1
この論文の概要(機械翻訳による和訳)
トレーニング観測の分布$ P ‘$が$ Z’_1、;の場合、統計学習問題を考慮します。 ldots、; Z’_n $は、最小化しようとするリスク( textit {testdistribution}と呼ばれる)に関係するdistribution $ P $とは異なりますが、$ P $と同じ測定可能なスペースで定義され、それを支配します。尤度比$ Phi(z)= dP / dP ‘(z)$がわかっている非現実的なケースでは、同じ特定の textit {transfer learning}セットアップへのEmpiricalRisk Minimization(ERM)アプローチを簡単に拡張できます。 「バイアス」トレーニングデータ$ Z’_i $から重み$ Phi(Z’_i)$で計算された経験的リスク汎関数の重み付きバージョンを最小化することにより、重要度サンプリングの背後にあるものとして考えます。 textit {importancefunction} $ Phi(z)$は実際には一般的には不明ですが、実際に頻繁に遭遇するさまざまな状況で、単純な形式を取り、$ Z’_i $から直接推定できることを示します。統計母集団$ P $に関するいくつかの補助情報。次に、線形化手法を使用して、$ Phi(Z’_i)$の結果の推定値を加重経験的リスクにプラグインするときに、前述のアプローチの一般化容量が保持されることを証明します。これらの理論的保証を超えて、数値結果は、この記事で促進されたアプローチの関連性の強力な経験的証拠を提供します。
Online Learning of the Kalman Filter with Logarithmic Regret
対数後悔を伴うカルマンフィルターのオンライン学習
URL:http://arxiv.org/abs/2002.05141v1
この論文の概要(機械翻訳による和訳)
この論文では、確率的ノイズによって駆動される未知の部分的に観測された線形システムによってオンラインで生成された観測値を予測する問題を検討します。このようなシステムの場合、平均二乗センスの最適な予測子は有名なカルマンフィルターであり、システムモデルが既知の場合に明示的に計算できます。システムモデルが不明な場合、有限データに基づいてオンラインで観測値を予測する方法を学習する必要があります。カルマンフィルターの予測に関して、ゼロでない後悔が生じる可能性があります。高い確率で$ mathrm {poly} log(N)$のオーダーの後悔を達成できることを示します。ここで、$ N $は収集された観測値の数です。私たちの仕事は、広く使用されているカルマンフィルターの対数の後悔の保証を提供する最初の作品です。これは、オンラインの最小二乗アルゴリズムを使用して達成されます。これは、将来の観測と過去の観測との間のほぼ線形の関係を利用します。後悔分析は、カルマンフィルターの安定性、システム識別の有限サンプル分析のための最近の統計ツール、および時系列の最小二乗アルゴリズムの分析のための古典的な結果に基づいています。未知のノイズ統計であるが、既知の状態空間ベースの場合、後悔分析は、隠れ状態の状態予測にも適用できます。基本的な技術的貢献は、確率的ノイズ下でのオンライン予測の場合の未解決の問題である、わずかに安定したシステムのクラスを含む非爆発性システムのクラスでも境界が保持されることです。
Regret Bounds for Discounted MDPs
割引MDPに対する後悔の限界
URL:http://arxiv.org/abs/2002.05138v1
この論文の概要(機械翻訳による和訳)
最近、注意深く設計された強化学習(RL)アルゴリズムが、エピソードまたは平均報酬設定で最適に近い後悔を達成できることが示されています。ただし、実際には、RLアルゴリズムは主に無限の水平割引報酬の設定に適用されるため、この場合、アルゴリズムが達成できる最も低い後悔は何か、既存のRLアルゴリズムの最適な後悔にどれだけ近いかを尋ねることは自然です。この論文では、$ Omega left( frac { sqrt {SAT}} {1- gamma}- frac {1} {(1- gamma)^ 2} rightの下限を後悔していることを証明します。 $無限の水平割引マルコフ決定プロセス(MDP)の学習アルゴリズムで$ T geq SA $の場合、$ S $と$ A $は状態とアクションの数、$ T $は実行されたアクションの数、 $ gamma $は割引係数です。また、二重Q学習アルゴリズムの修正版が$ tilde {O} left( frac { sqrt {SAT}} {(1- gamma)^ {2.5}} の上限を後悔することを示します。右)$ $ T geq SA $の場合、境界と比較して、以前の最良の下限と上限は両方とも$ T $と$ gamma $への依存度が悪くなりますが、$ S、A、T $への依存度は最適です。上限の証明は、エピソード設定におけるQ学習の分析の最近の進歩に触発されていますが、無限の水平MDPの周期的な性質は多くの新しい課題をもたらします。
List-Decodable Subspace Recovery via Sum-of-Squares
平方和によるリストデコード可能な部分空間の回復
URL:http://arxiv.org/abs/2002.05139v1
この論文の概要(機械翻訳による和訳)
リスト復号可能部分空間回復の問題に対する最初の効率的なアルゴリズムを提供します。私たちのアルゴリズムは、入力$ n $サンプルを取得します。$ alpha n $($ alpha ll1 / 2 $)が生成されます。ガウス分布から$ mathcal {N}(0、 Sigma _ *)$ on $ mathbb {R} ^ d $で、共分散$ Sigma _ * $がランク$ r $で、残りが任意の、潜在的に敵対的な外れ値です。 $ | Pi- Pi _ * | _F ^ 2 = kappa ^ 4 logのような射影行列$ Pi $を含むことが保証されている$ O(1 / alpha)$ projection行列のリストを出力しますr) tilde {O}(1 / alpha ^ 2)$、ここで$ tilde {O} $は$ 1 / alpha $の多対数因子を隠します。ここで、$ Pi _ * $は$ Sigma _ * $の範囲空間への射影行列です。アルゴリズムは、$ n = d ^ { log(r kappa) tilde {O}(1 / alpha ^ 2)} $$サンプルを必要とし、時間内に実行$ n ^ { log(r kappa) tilde { O}(1 / alpha ^ 4)} $時間。ここで、$ kappa $は、$ Sigma _ * $の最大非ゼロ固有値の比です。私たちのアルゴリズムは、いくつかの重要な技術的および概念的な進歩を伴う平方和(SoS)メソッド[KKK’19、RY’20]を介したリストデコード可能学習のために最近開発されたフレームワークに基づいています。私たちの重要な概念的貢献は、i.i.d。の任意の小さなサブサンプルの共分散の固有値の(SoS「認証済み」)下限を示すことです。証明可能な抗濃縮分布のサンプル。主要な技術的貢献の1つは、実行時間の指数の対数コストのみで「SoS内」のエラー削減を可能にする新しい方法を提供します([KKK’19、RY’20]の多項式コストとは対照的です。作業、RaghavendraとYauは、リストでデコード可能なサブスペースリカバリの関連する結果を証明しました[RY’20]。
Provably Convergent Policy Gradient Methods for Model-Agnostic Meta-Reinforcement Learning
モデルにとらわれないメタ強化学習のための証明可能な収束ポリシー勾配法
URL:http://arxiv.org/abs/2002.05135v1
この論文の概要(機械翻訳による和訳)
確率的ポリシー勾配の1ステップで更新できるポリシー(マルコフ決定プロセス(MDP)で表されるいくつかのタスクからのデータを使用)を見つけることを目標とする、ReinforcementLearning(RL)問題のモデル非依存メタラーニング(MAML)メソッドを検討します実現されたMDPのため。特に、MAML更新ステップで確率的勾配を使用することは、正確な勾配の計算には多数の可能な軌道へのアクセスが必要になるため、RL問題にとって重要です。この定式化のために、確率的勾配メタ強化学習(SG-MRL)という名前のMAMLメソッドのバリアントを提案し、その収束特性を調べます。 SG-MRLの反復とサンプルの複雑さを導出して、$ epsilon $-一次定常点を見つけます。これは、知識の限りでは、モデルに依存しないメタ強化学習アルゴリズムの最初の収束保証を提供します。さらに、テスト時間中の更新で確率的ポリシー勾配法の複数のステップが使用される場合に、結果がどのように拡張されるかを示します。
Patternless Adversarial Attacks on Video Recognition Networks
ビデオ認識ネットワークへのパターンレス攻撃
URL:http://arxiv.org/abs/2002.05123v1
この論文の概要(機械翻訳による和訳)
画像分類ネットワークと同様に、ビデオの分類のためのディープニューラルネットワークは、敵対的な操作の対象となる場合があります。画像分類器とビデオ分類器の主な違いは、通常、ビデオ内に含まれる時間情報をオプティカルフローの形で、または暗黙的に隣接フレーム間のさまざまな違いによって使用することです。この作業では、人間の観察者によって実質的に気付かれず、主要な画像の敵対パターン検出アルゴリズムによって検出されない空間パターンのない時間摂動を導入することにより、ビデオ分類器をだますための操作スキームを提示します。単一のビデオのアクション分類の操作を実証した後、標的型攻撃と非標的型攻撃の両方で異なるクラス全体で一般化する時間的不変性を持つ敵対パターンを作成する手順を一般化します。
Parameterizing Branch-and-Bound Search Trees to Learn Branching Policies
分岐ポリシーを学習するための分岐限定検索ツリーのパラメーター化
URL:http://arxiv.org/abs/2002.05120v1
この論文の概要(機械翻訳による和訳)
分枝限定(B&B)は、混合整数線形計画問題(MILP)を解決するために通常使用される正確なツリー検索方法です。 MILPの分岐ポリシーの学習は活発な研究分野になりました。ほとんどの研究では、強力な分岐ルールを模倣し、問題の異なるクラスに特化することを提案しています。代わりに、異種のMILP全体を一般化するポリシーを学習することを目的としています。主な仮説は、B&B検索ツリーの状態をパラメーター化すると、このタイプの一般化を大幅に支援できることです。新しい模倣学習フレームワークを提案し、分岐を表す新しい入力機能とアーキテクチャを導入します。 MILPベンチマークインスタンスの実験は、分岐決定を調整するためにベースラインモデルに検索ツリーの状態の明示的なパラメーター化を組み込むことの利点を明確に示しています。結果として得られるポリシーは、ベースラインよりも高い精度に達し、平均して、より小さなB&Bツリーを探索し、一般的な目に見えないインスタンスの一般化を効果的に許可します。
Development of modeling and control strategies for an approximated Gaussian process
近似ガウス過程のモデリングおよび制御戦略の開発
URL:http://arxiv.org/abs/2002.05105v1
この論文の概要(機械翻訳による和訳)
関数の事前分布として広く適用されているガウス過程(GP)モデルは、優れたパフォーマンスを実証しています。多数のパラメーターの指定は、制御戦略の実装の計算効率と実行可能性に影響します。 GPを近似する線形モデルを提案します。このモデルは、一連の基底関数によってGPモデルを拡張します。提案された方法の利点を示すために、いくつかの例とシミュレーション研究が提示されています。提案された線形モデルで制御戦略が提供されます。
dtControl: Decision Tree Learning Algorithms for Controller Representation
dtControl:コントローラー表現のための決定木学習アルゴリズム
URL:http://arxiv.org/abs/2002.04991v1
この論文の概要(機械翻訳による和訳)
決定木学習は、機械学習アプリケーションで最も一般的に使用される一般的な分類手法です。最近の研究では、デシジョンツリーを使用して、証明可能な正しいコントローラーを簡潔に表すことができることが示されています。ルックアップテーブルまたはバイナリデシジョンダイアグラムを使用した表現と比較すると、デシジョンツリーは小さく、説明が容易です。メモリレスコントローラを決定木として表すための簡単に拡張可能なツールであるdtControlを紹介します。構成ごとのコントローラー合成から生じる10のケーススタディに適用されるさまざまな決定木学習アルゴリズムの包括的な評価をお見逃しなく。これらのアルゴリズムには、決定木学習で任意線形バイナリ分類器を使用するための2つの新しい手法と、決定木構築中にコントローラーを決定するための1つの新しいアプローチが含まれます。特に後者は非常に効率的で、5つのケーススタディで1桁の数の決定ノードを持つ決定木を生成します。
Regret Bounds for Noise-Free Bayesian Optimization
ノイズのないベイジアン最適化のための後悔限界
URL:http://arxiv.org/abs/2002.05096v1
この論文の概要(機械翻訳による和訳)
ベイジアン最適化は、低データ領域での非凸ブラックボックス最適化の強力な方法です。ただし、ノイズのない設定で一般的なアルゴリズムのタイトな上限を設定する問題は、未解決の問題です。この論文では、目的関数がMat ‘ernRKHSの有界ノルムを持つという点で滑らかであるという仮定の下で、2つのアルゴリズム、つまりGP-UCBとトンプソンサンプリングの新しい厳密な境界を確立します。重要なことに、いくつかの関連する作品とは異なり、ベイズ最適化ループ内で使用されるガウスプロセスエミュレーターのカーネルの完全な知識は考慮していません。これにより、利用可能なデータからガウスプロセスカーネルパラメーターを順次推定する実用的なアルゴリズムの結果を提供できます。
Compressive Learning of Generative Networks
生成ネットワークの圧縮学習
URL:http://arxiv.org/abs/2002.05095v1
この論文の概要(機械翻訳による和訳)
生成ネットワークは、サンプリングからの複素密度を印象的な精度で暗黙的に近似します。ただし、現代のデータセットは膨大な規模であるため、このトレーニングプロセスは多くの場合計算コストがかかります。ジェネレーティブネットワークトレーニングを圧縮学習の最近のフレームワークにキャストします。大規模なデータセットの計算負荷を、最初に単一のパスで単一のスケッチベクトルとして厳しく圧縮することで削減します。次に、コスト関数を提案します。これは、最大平均不一致に近似しますが、このスケッチのみが必要なため、最適化に時間とメモリを効率的に使用できます。
Efficient Structure-preserving Support Tensor Train Machine
効率的な構造保存サポートテンソルトレインマシン
URL:http://arxiv.org/abs/2002.05079v1
この論文の概要(機械翻訳による和訳)
高次元の特徴空間のマルチリレーショナルテンソル構造を展開すると、機械学習アルゴリズムのパフォーマンスがより効率的に向上します。 emph {次元の呪い}に遭遇し、ベクトル化されたデータを扱うとデータ構造を保存できません。テンソルデータの非線形関係をより経済的に緩和するために、 emph {TensorTrain Multi-way Multi-level Kernel(TT-MMK)}を提案します。この手法は、初期入力データのカーネルフィルタリング( emph {Kernelized Tensor Train(KTT)})、Canonical Polyadic(CP)形式でのKTTの安定した再パラメーター化、および二重構造を保持するサポートベクターマシン( emph {SVM} )非線形関係を明らかにするカーネル。 TT-MMK法は計算的に信頼性が高く、チューニングパラメーターに対する感度が低く、同様のテンソル化SVM法と比較して、SVM分類の予測精度が高いことを数値的に示しています。
Structure-Property Maps with Kernel Principal Covariates Regression
カーネルプリンシパル共変量回帰を使用した構造プロパティマップ
URL:http://arxiv.org/abs/2002.05076v1
この論文の概要(機械翻訳による和訳)
データセット内のサンプルを記述する機能間、またはサンプルに関連付けられた機能とプロパティ間の相関を探す線形手法に基づくデータ分析は、監視対象を構築するための大量のデータの自動処理に対する最も単純で最も堅牢で透過的なアプローチを構成しますまたは教師なし機械学習モデル。主成分共変回帰(PCovR)は、主成分分析と線形回帰の間を補間する過小評価されている方法であり、簡単に解釈できる低次元マップに関して構造とプロパティの関係を便利に明らかにするために使用できます。ここでは、線形アプローチの利便性とシンプルさのほとんどを維持しながら、プロセスに非線形性の要素を導入するカーネルトリックの使用を含む、これらのデータ分析スキームの教育的概要を提供します。その後、PCovRのカーネル化バージョンとスパース化された拡張を導入し、PCovRの基礎となる同じハイブリッド損失を組み込むために修正されたCURマトリックス分解に基づく機能選択スキームが続きます。化学および材料科学における構造特性の関係を明らかにし、予測する上で、これらのアプローチのパフォーマンスを実証します。
x-vectors meet emotions: A study on dependencies between emotion and speaker recognition
x-ベクトルは感情を満たす:感情と話者認識の間の依存性に関する研究
URL:http://arxiv.org/abs/2002.05039v1
この論文の概要(機械翻訳による和訳)
この作業では、話者認識と感情認識の依存関係を調査します。まず、話者認識のために学習した知識を、転移学習を通じて感情認識に再利用できることを示し、次に、話者認識に対する感情の影響を示します。感情認識のために、単純な線形モデルを使用するだけで、x-ベクトルモデルなどの事前に訓練されたモデルから抽出された特徴の良好なパフォーマンスを得るのに十分であることを示します。次に、感情分類の微調整によって感情認識パフォーマンスを改善します。 IEMOCAP、MSP-Podcast、およびCrema-Dの3種類のデータセットでの実験を評価しました。微調整により、事前トレーニングなしのベースラインモデルに対して、IEMOCAP、MSP-Podcast、およびCrema-Dでそれぞれ30.40%、7.99%、8.61%の絶対改善が得られました。最後に、話者検証に対する感情の影響に関する結果を提示します。話者検証のパフォーマンスは、テスト話者の感情の変化を起こしやすいことが観察されました。怒った発言を使ったトライアルは、3つのデータセットすべてで最悪のパフォーマンスを示しました。この分析により、話者認識コミュニティでの新しい研究が開始されることを願っています。
Active Learning for Sound Event Detection
サウンドイベント検出のためのアクティブラーニング
URL:http://arxiv.org/abs/2002.05033v1
この論文の概要(機械翻訳による和訳)
この論文は、音イベント検出(SED)のための能動学習システムを提案します。限られた注釈作業で学習したSEDモデルの精度を最大化することを目的としています。提案されたシステムは、最初にラベル付けされていないオーディオデータセットを分析し、そこから手動注釈用のサウンドセグメントを選択します。候補セグメントは、提案された変化点検出アプローチに基づいて生成され、選択は、ミスマッチ-最遠-トラバーサルの原理に基づいています。 SEDモデルのトレーニング中、記録はトレーニング入力として使用され、注釈付きセグメントの長期的なコンテキストを保持します。提案されたシステムは、評価に使用された2つのデータセット(TUT Rare Sound 2017およびTAU Spatial Sound 2019)の参照メソッドより明らかに優れています。コンテキストとしての記録を使用したトレーニングは、注釈付きセグメントのみを使用したトレーニングよりも優れています。ミスマッチファーストの最遠トラバーサルは、ランダムサンプリングと不確実性サンプリングに基づいた参照サンプル選択方法よりも優れています。注目すべきことに、targetsoundイベントがまれなデータセットでは、必要な注釈の労力を大幅に削減できます。トレーニングデータの2%のみに注釈を付けることにより、達成されたSEDパフォーマンスはすべてのトレーニングデータに注釈を付けるのと同じです。
M-estimators of scatter with eigenvalue shrinkage
固有値収縮を伴う散布のM推定器
URL:http://arxiv.org/abs/2002.04996v1
この論文の概要(機械翻訳による和訳)
一般的な正則化(収縮)共分散推定量は、SCMと同じ固有ベクトルのセットを共有しますが、その固有値をその平均値に向かって縮小するshrinksample共分散行列(SCM)です。本論文では、SCMを散布行列のM推定値に置き換えるより一般的なアプローチを検討し、最小二乗平均誤差で最適な収縮パラメーターを計算するための完全自動データ適応法を提案します。私たちのアプローチは、ガウス、フーバー、または$ t $重み関数などの重み関数の使用を許可します。これらはすべてM推定フレームワークで一般的に使用されています。重み関数は、データがガウス分布の場合、収縮SCM推定量に対してパフォーマンスが低下することはありませんが、データがヘビーテール分布からサンプリングされる場合、パフォーマンスが大幅に向上します。
Sparse Recovery With Non-Linear Fourier Features
非線形フーリエ機能を使用したスパースリカバリ
URL:http://arxiv.org/abs/2002.04985v1
この論文の概要(機械翻訳による和訳)
ランダムな非線形フーリエ機能は、最近、広範囲の回帰および分類アプリケーションで顕著なパフォーマンスを示しています。この成功に動機付けられたこの記事では、スパース非線形フーリエ機能(NFF)モデルに焦点を当てています。未知のパラメータを高い確率で完全に回復するのに十分な数のデータポイントの特性を提供します。特に、十分な数のデータポイントが、入力データの確率分布関数に関連付けられたカーネル行列にどのように依存するかを示します。結果を境界付き正規直交システムの回復可能性の境界と比較し、NFFモデルの下でのスパースな回復を示す例を示します。
Predictions of 2019-nCoV Transmission Ending via Comprehensive Methods
包括的な方法による2019-nCoV伝送終了の予測
URL:http://arxiv.org/abs/2002.04945v1
この論文の概要(機械翻訳による和訳)
2003年のSARSの発生以来、多くの予測疫学的モデルが提案されてきました。 2019年の終わりに、2019-nCoVと呼ばれる新しいコロナウイルスが発生し、中国と世界で増殖しています。ここでは、中国本土、特に湖北省からの省間伝送を予測するために、マルチモデル常微分方程式セットニューラルネットワーク(MMODEs-NN)とモデルを使用しない方法を提案します。以前に提案された疫学モデルと比較して、提案されたネットワークはODEsアクティベーションメソッドを使用して輸送をシミュレートできますが、シグモイド関数、ガウス関数、およびポアソン分布に基づくモデルを使用しないメソッドは線形で高速であり、合理的な予測を生成できます。数値実験と現実によれば、病気を制御するための特別な政策はいくつかの省で成功しており、流行が中国の春祭りの旅行ラッシュの始まりに近い流行の伝播は、2月18日までに減速し、終了する可能性が高い提案されている数学的および人工知能法は、2019-nCoVの終わりの一貫した合理的な予測を提供できます。我々の仕事は、2019-nCoVの包括的な予測研究の出発点になると予想しています。
Federated Clustering via Matrix Factorization Models: From Model Averaging to Gradient Sharing
行列因子分解モデルによる連合クラスタリング:モデル平均化から勾配共有まで
URL:http://arxiv.org/abs/2002.04930v1
この論文の概要(機械翻訳による和訳)
最近、連合学習(FL)は、クライアントのプライベート生データを知らなくてもネットワーク上でモデルをトレーニングできるため、大きな注目を集めています。この論文では、FL設定下での教師なしクラスタリング問題を研究します。クラスタリングに一般化行列因子分解モデルを採用することにより、モデルの平均化と勾配共有の原理に基づいた2つの新しい(一次)連合クラスタリング(FedC)アルゴリズムをそれぞれ提案し、それらの理論的な収束条件を提示します。両方のアルゴリズムに$ mathcal {O}(1 / T)$収束率があり、$ T $はクライアントごとの勾配評価の総数であり、ローカルエポック長を制御し、部分的なクライアントを許可することで通信コストを効果的に削減できることを示します。各通信ラウンドへの参加。数値実験では、特に非i.i.dのシナリオでは、勾配共有に基づくFedCアルゴリズムがモデルの平均化に基づくものよりも優れていることが示されています。データ、および集中型クラスタリングアルゴリズムと同等以上のパフォーマンスを発揮できます。
Beyond UCB: Optimal and Efficient Contextual Bandits with Regression Oracles
UCBを超えて:回帰オラクルによる最適かつ効率的なコンテキストバンディット
URL:http://arxiv.org/abs/2002.04926v1
この論文の概要(機械翻訳による和訳)
コンテキストバンディットの基本的な課題は、分類や回帰などの古典的な教師付き学習タスクよりも悪くない計算要件を備えた柔軟で汎用的なアルゴリズムを開発することです。文脈上の盗賊のオンライン回帰から最初の普遍的かつ最適な削減を提供します。特定の値関数クラスを使用したオンライン回帰用のオラクルを、実行時やメモリ要件にオーバーヘッドのない、誘導されたポリシークラスを持つコンテキストバンディットのアルゴリズムに変換する方法を示します。オラクルが回帰の最適なレートを取得するたびに、アルゴリズムがミニマックス最適であることを示します。以前の結果と比較して、アルゴリズムは実現可能性を超える分布推定を必要とせず、コンテキストが敵対的に選択された場合でも機能します。
Targeted free energy estimation via learned mappings
学習したマッピングを介したターゲット自由エネルギー推定
URL:http://arxiv.org/abs/2002.04913v1
この論文の概要(機械翻訳による和訳)
自由エネルギー摂動(FEP)は、自由エネルギーの差を推定する方法として60年以上前にZwanzigによって提案され、それ以来、それを不可欠な構成要素として使用する膨大な数の関連する方法に影響を与えてきました。ただし、重要度サンプリングベースの推定量であるため、FEPには厳しい制限があります。これは、分布間の十分なオーバーラップの要件です。 Targeted Free Energy Perturbationと呼ばれるこの問題を軽減するための戦略は、構成空間での高次元マッピングを使用して、基礎となる分布の重複を増やします。その可能性にもかかわらず、この方法は、引き付け可能なマッピングを定式化するという手ごわい挑戦のために、限られた注目しか集めていません。ここでは、ターゲットFEPを機械学習(ML)問題としてキャストします。この場合、マッピングは、オーバーラップを増やすように最適化されたニューラルネットワークとしてパラメーター化されます。問題の固有の順列および周期対称性を尊重するモデルを使用して、完全に周期的な溶媒和システムでメソッドをテストします。ベースラインと比較した場合、本手法が自由エネルギー推定値の大幅な分散削減につながることを実証します。
Ensemble of Sparse Gaussian Process Experts for Implicit Surface Mapping with Streaming Data
ストリーミングデータを使用した暗黙的な表面マッピングのためのスパースガウスプロセスエキスパートのアンサンブル
URL:http://arxiv.org/abs/2002.04911v1
この論文の概要(機械翻訳による和訳)
マップの作成はロボット工学の重要なタスクであり、効果的な計画とナビゲーションの基礎を提供します。この論文では、既知のポーズを持つ範囲データのストリームから、環境のコンパクトで連続的な暗黙の表面マップを学習します。このために、マップの異なる部分を担当する近似ガウス過程(GP)エキスパートのアンサンブルを作成し、段階的に調整します。到着するすべてのデータをGPモデルに挿入する代わりに、モデルの複雑さと予測エラーの間で貪欲なトレードオフを行うため、アルゴリズムは、幾何学的な特徴がほとんどない領域でリソースを使用せず、環境が多様で豊富な場所で使用します。合成および実世界のデータセットでアプローチを評価し、パラメータおよび測定ノイズに対する感度を分析します。結果は、サブサンプリングされたデータを使用した正確なGP回帰と同等以上のパフォーマンスで、さまざまな条件下でコンパクトで正確な陰的サーフェスモデルを学習できることを示しています。
Learning Flat Latent Manifolds with VAEs
VAEを使用したフラットな潜在マニホールドの学習
URL:http://arxiv.org/abs/2002.04881v1
この論文の概要(機械翻訳による和訳)
多くの場合、データポイント間の類似性を測定するにはドメインの知識が必要です。これは、類似性/距離がよりコンパクトな潜在空間で推定される潜在変数モデルなどの監視されていない方法に依存することで部分的に補うことができます。普及しているのは、ユークリッドメトリックの使用であり、これには、リーマン幾何学のフレームワークによってキャプチャされた、デコーダに格納されたデータの類似性に関する情報を無視するという欠点があります。非現実的な方法。ユークリッドメトリックがデータポイント間の類似性のプロキシであるフラットな潜在多様体を学習できる変分オートエンコーダーのフレームワークの拡張を提案します。これは、潜在空間をリーマン多様体として定義し、メトリックテンソルをスケーリングされた単位行列。さらに、最近提示された、より表現力のある階層的な1を持つ変分オートエンコーダーで通常使用されるコンパクトな事前配置を配置し、制約付き最適化問題として学習問題を定式化しました。直線ベースのアプローチの計算効率を維持しながら、教師なしアプローチのパフォーマンスが最先端の教師ありアプローチのパフォーマンスに近いビデオトラッキングベンチマークを含む、一連のデータセットでメソッドを評価します。
Convex Density Constraints for Computing Plausible Counterfactual Explanations
もっともらしい反事実的説明を計算するための凸密度制約
URL:http://arxiv.org/abs/2002.04862v1
この論文の概要(機械翻訳による和訳)
EUのGDPRなどの法的規制だけでなく、機械学習の導入が増加しているため、機械学習モデルによって提案された意思決定について、わかりやすい説明が必要になります。反事実的説明は、モデルの特定の決定を説明する最も一般的な手法の1つと見なされます。 「任意の」反事実的説明の計算は十分に研究されていますが、妥当で現実的な反事実的説明を効率的に計算する方法は未解決の研究課題です。私たちは最近の研究に基づいて、もっともらしい反事実的説明の正式な定義を提案し、研究しています。特に、我々は反推定的説明の妥当性と実行可能性を強化するために密度推定器を使用する方法を調査します。効率的な計算の目的のために、結果の反事実が高密度のデータ空間の領域に位置することを保証する凸密度制約を提案します。
Training Two-Layer ReLU Networks with Gradient Descent is Inconsistent
勾配降下を使用した2層ReLUネットワークのトレーニングに一貫性がない
URL:http://arxiv.org/abs/2002.04861v1
この論文の概要(機械翻訳による和訳)
2層(リーク)ReLUネットワークは、たとえばHeらによって提案された広く使用されている方法。 (2015)および最小二乗損失の勾配降下を使用して訓練されたものは、普遍的に一貫していません。具体的には、高い確率で、勾配降下法が最適化ランドスケープの悪い局所的最小値を見つけるだけのデータ生成分布の大きなクラスを記述します。これらのケースでは、ターゲット関数が非線形であっても、見つかったネットワークが本質的に線形回帰を実行することがわかります。さらに、これが実際的でない状況で発生し、確率的勾配降下が同様の動作を示すという数値的証拠を提供します。
Efficient active learning of sparse halfspaces with arbitrary bounded noise
任意の有界ノイズを伴うスパース半空間の効率的なアクティブ学習
URL:http://arxiv.org/abs/2002.04840v1
この論文の概要(機械翻訳による和訳)
この作業では、ラベルノイズ下での$ mathbb {R} ^ d $内の同種の$ s $スパースハーフスペースの能動学習について学習します。ラベルノイズがない場合でも、これは困難な問題であり、ごく最近になってラベルの複雑さの範囲が次の形式になります$ tilde {O} left(s cdot mathrm {polylog}(d、 frac {1} { epsilon} ) right)$は、等方性の対数凹分布の広範なクラスの下で、計算効率の高いアルゴリズムのために citet {zhang2018efficient}で確立されました。対照的に、高レベルのラベルノイズ下では、計算効率の良いアルゴリズムによって達成されるラベルの複雑さの限界ははるかに悪いです。ラベルノイズが{ em Massart}条件〜 citep {massart2006risk}を満たす場合、つまり、各ラベルがパラメーター$ eta in [0、 frac 1 2)$に対して最大で$ eta $の確率で反転される場合、 citet {awasthi2016learning}の作業は、ラベルの複雑さを伴う等方性対数凹分布下で計算効率の高いアクティブ学習アルゴリズムを提供します$ tilde {O} left(s ^ { mathrm {poly} {(1 /(1-2 eta))) }} mathrm {poly}( log d、 frac {1} { epsilon}) right)$。したがって、アルゴリズムは、ノイズレート$ eta $が定数の場合にのみラベル効率が高くなります。この作業では、ラベルの複雑度が$ tilde {O} left(である、有界ノイズおよび等方性の対数凹分布の下で$ s $の疎な半空間をアクティブに学習する多項式時間アルゴリズムを設計することにより、最先端技術を大幅に改善します frac {s} {(1-2 eta)^ 4} mathrm {polylog}(d、 frac 1 epsilon) right)$。したがって、新しいアルゴリズムはノイズレートに近い場合でもラベル効率が高い$ frac {1} {2} $。私たちの作業の前には、そのような結果は、ランダム分類ノイズモデルについても知られていませんでした。このアルゴリズムは、既存のマージンベースのアルゴリズムフレームワークに基づいて構築され、各反復で、慎重に選択された損失シーケンスに対して一連のオンラインミラー降下更新を実行し、境界ノイズを考慮した新しい勾配更新ルールを使用します。
LaProp: a Better Way to Combine Momentum with Adaptive Gradient
LaProp:運動量と適応勾配を組み合わせるより良い方法
URL:http://arxiv.org/abs/2002.04839v1
この論文の概要(機械翻訳による和訳)
Adamの発散問題を特定し、適応勾配降下法のファミリーに属する新しいオプティマイザーLaPropを提案します。この方法により、ハイパーパラメーターを選択する際の柔軟性が高まり、微調整の労力が軽減され、符号付き勾配法と適応勾配法の間の簡単な補間が可能になります。 LaPropの後悔を凸問題に束縛し、限界が以前の方法と鍵因子によって異なることを示します。これはその利点を示しています。 LaPropは、ノイズの多い勾配、非常に深い完全に接続されたネットワークの最適化、ニューラルアートスタイルの転送、トランスフォーマーを使用した自然言語処理、およびディープQネットワークを使用した強化学習で、おもちゃのタスクで以前の方法よりも優れていることを実験的に示しています。 LaPropのパフォーマンスの改善は、一貫性があり、時には劇的で定性的であることが示されています。
Uniform Interpolation Constrained Geodesic Learning on Data Manifold
データ多様体での均一補間制約付き測地線学習
URL:http://arxiv.org/abs/2002.04829v1
この論文の概要(機械翻訳による和訳)
本論文では、データ多様体内の最小測地線を学習する方法を提案します。学習した測地線に沿って、2つの指定されたデータサンプル間の高品質の補間を生成できます。具体的には、オートエンコーダネットワークを使用してデータサンプルを潜在空間にマッピングし、補間ネットワークを介して補間を実行します。事前の幾何学的情報を追加して、表現の凸面のオートエンコーダを正規化し、特定の補間アプローチに対して、生成された補間がデータ多様体の分布内に残るようにします。測地線を学習する前に、適切なリーマン計量を定義する必要があります。そのため、データ多様体が等尺的に浸漬されているユークリッド空間の正準計量によってリーマン計量を誘導します。マニホールド上。モデルの理論的分析を提供し、画像変換を例として使用して、メソッドの有効性を示します。
Deep Multi-Task Augmented Feature Learning via Hierarchical Graph Neural Network
階層グラフニューラルネットワークを介したディープマルチタスク拡張特徴学習
URL:http://arxiv.org/abs/2002.04813v1
この論文の概要(機械翻訳による和訳)
ディープマルチタスク学習は、多くのアプリケーションで優れたパフォーマンスを達成するため、近年多くの注目を集めています。機能学習は、タスク間で共通の情報を共有するためのディープマルチタスク学習にとって重要です。本稿では、階層型グラフニューラルネットワーク(HGNN)を提案して、ディープマルチタスク学習のための拡張機能を学習します。 HGNNは、2レベルのグラフニューラルネットワークで構成されています。低レベルでは、タスク内グラフのニューラルネットワークは、タスク内の各データポイントの強力な表現を学習するために、その近傍を集約します。学習された表現に基づいて、最大プーリングと同様の方法で、タスクごとにタスク埋め込みを生成できます。第2レベルでは、タスク間グラフニューラルネットワークが、注意メカニズムに基づいてすべてのタスクのタスク埋め込みを更新し、タスク関係をモデル化します。次に、1つのタスクの埋め込みタスクを使用して、このタスクのデータポイントの特徴表現を補強します。さらに、分類タスクでは、クラスグラフ間ニューラルネットワークが導入され、より細かい粒度、つまりクラスレベルで同様の操作を実行し、すべてのタスクで各クラスのクラス埋め込みを生成し、すべてのタスクでクラス埋め込みを使用して特徴表現を補強します。拡張戦略は、多くのディープマルチタスク学習モデルで使用できます。トレーニングと一般化損失の観点からHGNNを分析します。この戦略を使用すると、実世界のデータの実験により、パフォーマンスが大幅に向上することがわかります。
Lookahead: a Far-Sighted Alternative of Magnitude-based Pruning
先読み:マグニチュードベースのプルーニングの先見の明のある代替手段
URL:http://arxiv.org/abs/2002.04809v1
この論文の概要(機械翻訳による和訳)
大きさベースのプルーニングは、ニューラルネットワークをプルーニングするための最も簡単な方法の1つです。その単純さにもかかわらず、マグニチュードベースのプルーニングとその変形は、現代のアーキテクチャをプルーニングするための顕著なパフォーマンスを実証しました。マグニチュードベースのプルーニングは、単一層に対応する線形演算子のフロベニウス歪みを実際に最小化するという観察に基づいて、単一層の最適化をマルチレイヤー最適化に拡張することにより、単純なプルーニング方法である先読みプルーニングを開発します。私たちの実験結果は、提案された方法が、特に高スパースレジームで、VGGやResNetを含むさまざまなネットワークで一貫してマグニチュードベースのプルーニングよりも優れていることを示しています。 https://github.com/alinlab/lookahead_pruning forcodesを参照してください。
Topologically Densified Distributions
トポロジカル密度分布
URL:http://arxiv.org/abs/2002.04805v1
この論文の概要(機械翻訳による和訳)
私たちは、オーバーパラメータ化されたニューラルネットワークを用いた小さなサンプルサイズの学習の文脈で正則化を研究しています。具体的には、ネットワークの重みに関する規範などのアーキテクチャのプロパティから、線形分類器の前の内部表現のプロパティにフォーカスを移します。具体的には、その空間で誘導された確率測度から引き出されたサンプルに位相的制約を課します。これは、トレーニングインスタンスの表現の周りの質量集中効果、つまり、一般化に有益なプロパティにつながる可能性があります。ニューラルネットワーク設定にトポロジの制約を課すために以前の作業を活用することにより、より良い一般化の主張をサポートする経験的証拠を(さまざまなビジョンベンチマークにわたって)提供します。
Machine Learning in Python: Main developments and technology trends in data science, machine learning, and artificial intelligence
Pythonの機械学習:データサイエンス、機械学習、人工知能の主な開発と技術動向
URL:http://arxiv.org/abs/2002.04803v1
この論文の概要(機械翻訳による和訳)
よりスマートなアプリケーションは、データから収集された洞察をより有効に活用しており、あらゆる業界および研究分野に影響を与えています。この革命の中核には、毎日生成される膨大なデータの処理から有用なアクションの学習と実行まで、それを推進するツールと方法があります。ディープニューラルネットワークは、従来のMLおよびスケーラブルな汎用GPUコンピューティングの進歩とともに、人工知能の重要なコンポーネントとなり、これらの驚くべきブレークスルーの多くを可能にし、採用への障壁を下げています。 Pythonは、低レベルのライブラリとクリーンな高レベルのAPIの使用を可能にすることで、パフォーマンスと生産性の両方を向上させ、科学計算、データサイエンス、機械学習の最も好ましい言語であり続けています。この調査では、Pythonを使用した機械学習の分野についての洞察を提供し、Pythonを有効にしたコアハードウェアおよびソフトウェアパラダイムのいくつかを特定するために重要なトピックを巡回します。読者を教育し、Python機械学習の分野を前進させることを目的として、全体的な比較のためにまとめられた、広く使用されているライブラリと概念をカバーします。
Deep Multi-Task Learning via Generalized Tensor Trace Norm
一般化されたテンソルトレースノルムによるディープマルチタスク学習
URL:http://arxiv.org/abs/2002.04799v1
この論文の概要(機械翻訳による和訳)
トレースノルムは、モデルパラメータの観点からタスク間の低ランク構造を発見できるため、マルチタスク学習で広く使用されています。今日、大きなデータセットの出現とディープラーニング技術の人気により、ディープマルチタスクモデルにテンソルトレース標準が使用されています。ただし、既存のテンソルトレース標準では、すべての低ランク構造を検出することはできず、ユーザーはコンポーネントの重要性を手動で決定する必要があります。これら2つの問題を一緒に解決するために、本書では、一般化されたテンソルトレースノルム(GTTN)を提案します。 GTTNは、すべての可能なテンソル平坦化のマトリックストレース基準の凸の組み合わせとして定義されているため、考えられるすべての低ランク構造を発見できます。誘導された目的関数では、GTTNの組み合わせ係数を学習して重要度を自動的に決定します。実際のデータセットの実験は、提案されたGTTNの有効性を実証します。
A Simple General Approach to Balance Task Difficulty in Multi-Task Learning
マルチタスク学習におけるタスクの難易度のバランスをとる簡単な一般的アプローチ
URL:http://arxiv.org/abs/2002.04792v1
この論文の概要(機械翻訳による和訳)
マルチタスク学習では、さまざまなタスクの難易度が変化します。この状況を処理するための多くの作業があり、それらを直接合計アプローチ、加重合計アプローチ、最大アプローチ、カリキュラム学習アプローチなど、5つのカテゴリに分類します。多目的最適化アプローチ。これらのアプローチには、たとえば、手動で設計されたルールを使用してタスクの重み、滑らかでない目的関数を更新したり、トレーニング損失以外の関数を組み込んでいないなど、独自の制限があります。このペーパーでは、これらの制限を軽減するために、BalancedMulti-Task Learning(BMTL)フレームワークを提案します。タスクの重み付けに関する既存の研究とは異なり、BMTLフレームワークは、最適化手順中に大きなトレーニング損失を持つタスクがより多くの注目を受けるという直観的な考えに基づいて、各タスクのトレーニング損失を変換してタスク間の難易度のバランスをとることを提案します。変換関数を分析し、必要な条件を導き出します。提案されたBMTLフレームワークは非常にシンプルで、ほとんどのマルチタスク学習モデルと組み合わせることができます。実証研究は、提案されたBMTLフレームワークの最新のパフォーマンスを示しています。
To Split or Not to Split: The Impact of Disparate Treatment in Classification
分割するか分割しないか:分類における異なる扱いの影響
URL:http://arxiv.org/abs/2002.04788v1
この論文の概要(機械翻訳による和訳)
機械学習モデルが、法的に保護された属性または機微な属性(人種、性別など)によって定義されたグループに対して異なる決定を行うと、異なる扱いが発生します。予測精度が最重要であるドメインでは、異なる処理を示すモデルを適合させることは受け入れられます。分割分類子の効果を調査し(つまり、各グループに個別の分類子をトレーニングして展開します)、情報理論的に不可能な結果を導き出します。さらに、有限サンプルレジームでは、分割はもはや有益ではなく、各グループからのサンプル数と仮説クラスの複雑さに依存することを実証します。分割の効果を理解するためのデータ依存の境界を提供し、これらの境界を実世界のデータセットに示します。
Graph Universal Adversarial Attacks: A Few Bad Actors Ruin Graph Learning Models
グラフの普遍的な攻撃:少数の悪役がグラフ学習モデルを台無しにする
URL:http://arxiv.org/abs/2002.04784v1
この論文の概要(機械翻訳による和訳)
ディープニューラルネットワークは、よく一般化されていますが、小さな敵対的摂動に敏感であることが知られています。この現象は、深刻なセキュリティ上の脅威を引き起こし、ディープラーニングモデルの堅牢性の詳細な調査を必要とします。グラフ構造および/またはノードの特徴を敵対的に混乱させると、モデルのパフォーマンスが大幅に低下することがわかっています。この作業では、グラフに少数の悪役ノードが含まれる場合、同様にこのような脆弱性が発生することを異なる角度から示します。さらに悪いことに、あるグラフモデルで見つかった悪いアクターは、他のモデルもひどく妥協します。 badactorsを「アンカーノード」と呼び、それらを識別するためにGUAという名前のアルゴリズムを提案します。徹底的な経験的調査は、アンカーノードが同じクラスに属することが多いという興味深い発見を示唆しています。また、アンカーノードの数と攻撃の成功率の間の直感的なトレードオフを裏付けています。 2708個のノードを含むデータセットCoraの場合、わずか6個のアンカーノードにより、GCNおよび他の3つのモデルの攻撃成功率が80 %を超えます。
Revisiting Fixed Support Wasserstein Barycenter: Computational Hardness and Efficient Algorithms
修正されたサポートWasserstein Barycenterの再考:計算の困難さと効率的なアルゴリズム
URL:http://arxiv.org/abs/2002.04783v1
この論文の概要(機械翻訳による和訳)
サイズが$ n $の有限計量空間でサポートされる$ m $の離散確率測度のWasserstein重心を計算する固定サポートWasserstein重心問題(FS-WBP)を研究します。最初に、FS-WBPの線形計画法(LP)表現から生じる制約行列は、$ m geq 3 $および$ n = 2 $の場合は完全にユニモジュラーですが、$ m geq 3 $および$ n の場合は完全ユニモジュラーではないことを示しますgeq 3 $。この結果は、FS-WBPが最小コストのフロー問題ではなく、したがって線形計画法を使用して効率的に解決できないことを示しているため、未解決の問題に答えています。この否定的な結果に基づいて、現在、FS-WBPを解決するために最も広く採用されているアルゴリズムである、反復的ブレグマン射影(IBP)アルゴリズムの単純で効率的なバリアントを提案および分析します。このアルゴリズムは、$ widetilde { mathcal {O}}(mn ^ {7/3} / varepsilon)$の複雑さの限界を達成する加速IBPアルゴリズムです。この境界は、標準IBPalgorithmで得られた境界よりも優れています—- $ widetilde { mathcal {O}}(mn ^ {2} / varepsilon ^ 2)$ — $ varepsilon $および加速された原始双対勾配アルゴリズム— $ widetilde { mathcal {O}}(mn ^ {5/2} / varepsilon)$ — $ n $に関して。シミュレーションされたデータセットの実証研究は、加速が約束されていることを示しています理論によると、実際には現実的です。
Deep Transfer Learning for Physiological Signals
生理学的信号の深層伝達学習
URL:http://arxiv.org/abs/2002.04770v1
この論文の概要(機械翻訳による和訳)
ディープラーニングはヘルスケアでますます一般的になりつつありますが、生理学的シグナル(温度、心拍数など)の伝達学習は未熟です。私たちのフレームワークはPHASE(PHysiologicAl Signal Embeddings)と呼ばれます。それはi)生理学的シグナルの深い埋め込みを学習し、ii)埋め込みに基づいて有害な結果を予測します。 PHASEは、生理学的信号の病院を横断する部門横断的な設定でのディープトランスファー学習の最初のインスタンスです。 PHASEの信号ごと(信号ごとに1つ)のLSTM埋め込み関数は、パフォーマンスの向上、病院間の転送の成功、計算コストの削減など、多くの利点をもたらします。
Distribution-Agnostic Model-Agnostic Meta-Learning
分布に依存しないモデル-不可知論のメタ学習
URL:http://arxiv.org/abs/2002.04766v1
この論文の概要(機械翻訳による和訳)
Model-Agnostic Meta-Learning(MAML)アルゴリズム citep {finn2017model}は、任意の学習モデルのパラメーターの迅速な学習に成功したことが実証されているため、その効率性と汎用性で称賛されています。しかし、MAMLは、特定の分布、およびこの分布から引き出されたタスクの予想される(またはサンプルの平均)損失を最適化します。ここでは、目的関数をmin-max問題として再定式化することにより、MAMLのこの制限を修正します。提案されたアルゴリズムは、最初の分布非依存およびモデル非依存のメタ学習方法であり、$ mathcal {O}(1 / epsilon ^ 2)$のレートで$ epsilon $-正確な点に収束することを示します。凸面設定および$ mathcal {O}( max {1 / epsilon ^ 5,1 / delta ^ 5 })$のレートでの$( epsilon、 delta)$固定点非凸の設定で。また、MAMLと比較した場合のアルゴリズムの最悪の優位性を実証する数値実験も提供しています。
Capsules with Inverted Dot-Product Attention Routing
反転ドット製品アテンションルーティングを備えたカプセル
URL:http://arxiv.org/abs/2002.04764v1
この論文の概要(機械翻訳による和訳)
カプセルネットワークの新しいルーティングアルゴリズムを導入します。このアルゴリズムでは、親の状態と子の投票の間の合意のみに基づいて、子カプセルが親にルーティングされます。新しいメカニズム1)inverteddot-productアテンションを介してルーティングを設計します。 2)正規化としてレイヤーの正規化を強制します。 3)逐次反復ルーティングを同時反復ルーティングに置き換えます。以前に提案されたルーティングアルゴリズムと比較すると、この方法は、CIFAR-10やCIFAR-100などのベンチマークデータセットのパフォーマンスを向上させ、4倍少ないパラメーターで強力なCNN(ResNet-18)で同等の性能を発揮します。オーバーレイされた数字画像から数字を認識する別のタスクで、提案されたカプセルモデルは、同じ数のレイヤーとレイヤーあたりのニューロンを与えられたCNNに対して有利に機能します。私たちの仕事は、カプセルネットワークを複雑な現実世界のタスクに適用する可能性を高めると考えています。コードはhttps://github.com/apple/ml-capsules-inverted-attention-routingで公開されています
One-hidden-layer ReLU Neural Networksのグローバルな損失状況を理解する
URL:http://arxiv.org/abs/2002.04763v1
この論文の概要(機械翻訳による和訳)
1隠れ層のReLUネットワークの場合、すべてのローカルミニマムは各微分可能領域でグローバルであり、これらのローカルミニマムは、データ、隠れニューロンの活性化パターン、およびネットワークサイズに応じて、一意または連続的である可能性があることを示します。極小値がそれらの定義領域内にあるかどうかを特定する基準を与え、もしそうなら(真の微分可能な極小値と呼びます)、それらの位置と損失値を特定します。さらに、we点と微分不可能な極小点の存在に必要かつ十分な条件を与えます。最後に、ガウス入力データと並列重みベクトルの真の局所最小値にとどまる確率を計算し、重みがデータがあまりない領域にある場合、指数関数的に消失することを示します。これは、深いReLUニューラルネットワークをトレーニングするときに、勾配ベースのローカル検索方法が通常、ローカルミニマムに閉じ込められない理由の質問にヒントを与える可能性があります。
Collaborative Inference for Efficient Remote Monitoring
効率的なリモート監視のための協調的推論
URL:http://arxiv.org/abs/2002.04759v1
この論文の概要(機械翻訳による和訳)
現在の機械学習モデルは、幅広いアプリケーションで優れたパフォーマンスを発揮しますが、サイズが大きく複雑であるため、ストレージと計算能力が限られているエッジデバイスでのリモート監視などのタスクには適していません。これをモデルレベルで解決するための単純なアプローチは、より単純なアーキテクチャを使用することですが、これは予測精度を犠牲にし、有害事象の発症の正確な検出を必要とするアプリケーションの監視には不向きです。この論文では、ローカル監視ツールとして機能する単純な関数とサーバー上で評価される複雑な修正項の合計として予測モデルを分解することにより、この問題の代替ソリューションを提案します。早期監視システムとして効果的に機能できるという意味で、ローカル監視機能が安全であることを保証するために、後者にサイン要件が課されます。私たちの分析は、モデルの複雑さとパフォーマンスの間のトレードオフを定量化し、アーキテクチャ設計のガイダンスとして機能します。一連の監視実験で提案されたフレームワークを検証し、安全性の要件に最小限に違反する複雑さを大幅に軽減した監視モデルを学習することに成功しました。
Salvaging Federated Learning by Local Adaptation
局所適応による連合学習の救済
URL:http://arxiv.org/abs/2002.04758v1
この論文の概要(機械翻訳による和訳)
連合学習(FL)は、機密データ(たとえば、スマートフォンでユーザーが入力したテキスト)に対してMLモデルをトレーニングするための大幅に促進されたアプローチです。 FLは、参加者間で不均衡で非iidのデータのトレーニング用に設計されています。連合モデルのプライバシーと整合性を確保するために、最新のFLアプローチでは、差分プライバシーまたは堅牢な集約を使用して、「外れ値」参加者の影響を制限します。まず、次の単語の予測などの標準タスクでは、多くの参加者がFLからメリットを得られないことを示します。これは、フェデレーションモデルがローカルでトレーニングできるモデルよりもデータの精度が低いためです。集約は、参加者から連合モデルの精度をさらに破壊することにより、この問題を悪化させます。次に、連合モデルのローカル適応のための3つの手法を評価します:微調整、マルチタスク学習、および知識の蒸留。各手法が適用可能な場所を分析し、すべての参加者が地域適応の恩恵を受けることを実証します。ローカルモデルが貧弱な参加者は、従来のFLよりも大幅に精度が向上します。ローカルモデルがフェデレーションモデルよりも優れており、今日FLに参加するインセンティブを持たない参加者は、改善は少なくなりますが、適応されたフェデレーションモデルをローカルモデルよりも向上させるのに十分です。
A Random-Feature Based Newton Method for Empirical Risk Minimization in Reproducing Kernel Hilbert Space
カーネルヒルベルト空間の再現における経験的リスク最小化のためのランダム特徴ベースのニュートン法
URL:http://arxiv.org/abs/2002.04753v1
この論文の概要(機械翻訳による和訳)
カーネル法を使用した教師あり学習では、再生カーネルヒルベルト空間(RKHS)で大規模な有限和の最小化が発生します。多くの場合、ヘッセ行列がサブサンプルを介して近似されるニュートン法の効率的な変形を使用して、大規模な有限和問題を解決できます。ただし、RKHSでは、ペナルティ関数のカーネルへの依存性により、標準サブサンプリングアプローチが適用できなくなります。これは、グラム行列が低ランクの形式では容易に利用できないためです。この論文では、このクラスの問題について、カーネル近似を自然に使用してニュートン法を高速化できることを観察します。カーネル近似のランダム化された機能に焦点を当て、ローカル超線形収束と高確率の意味でのグローバル収束を楽しむ新しい二次アルゴリズムを提供します。分析の鍵は、ランダムな特徴を介して近似されたヘッシアンが元のヘッシアンのスペクトルを保存することを示しています。サブサンプリング手法のバリエーションと比較して、アプローチの効率を検証する数値実験を提供します。
On the Value of Target Data in Transfer Learning
転移学習における目標データの価値について
URL:http://arxiv.org/abs/2002.04747v1
この論文の概要(機械翻訳による和訳)
転送学習において、任意の量のソースデータについて、追加のラベル付きまたはラベルなしのターゲットデータの価値を理解することを目指しています。これは、サンプリングコストの最小化に関する実用的な質問によって動機付けられます。これにより、通常、ターゲットデータはソースデータよりも取得が困難またはコストがかかりますが、精度が向上します。この目的のために、ソースとターゲットの両方のサンプルサイズの観点から最初のミニマックスレートを確立し、ソースとターゲット間の不一致の新しい概念によってパフォーマンスの制限がキャプチャされることを示します。これを転送指数と呼びます。
On Layer Normalization in the Transformer Architecture
Transformerアーキテクチャのレイヤーの正規化について
URL:http://arxiv.org/abs/2002.04745v1
この論文の概要(機械翻訳による和訳)
Transformerは、自然言語処理タスクで広く使用されています。ただし、Transformerをトレーニングするには、通常、慎重に設計された学習レートウォームアップステージが必要です。これは、最終パフォーマンスに不可欠であることが示されていますが、最適化が遅くなり、ハイパーパラメーターチューニングが増えます。この論文では、まず、学習率のウォームアップ段階が不可欠である理由を理論的に研究し、層の正規化の場所が重要であることを示します。具体的には、初期化時に、元の設計のポストLNトランスフォーマーに対して、残差ブロック間のレイヤーの正規化では、出力レイヤー近くのパラメーターの予想される勾配が大きくなります。したがって、これらの勾配に大きな学習率を使用すると、トレーニングが不安定になります。ウォームアップ段階は、この問題を回避するために実際に役立ちます。一方、我々の理論は、層の正規化が残差ブロックの内側に置かれた場合(Pre-LN Transformerとして最近提案された)、初期化時に勾配が適切に動作することも示しています。これにより、Pre-LNTransformersのトレーニングのウォームアップステージを削除することができます。実験で、ウォームアップステージのないPre-LNトランスフォーマーは、幅広いアプリケーションでトレーニング時間とハイパーパラメーターチューニングを大幅に短縮しながら、ベースラインと同等の結果を達成できることを示しています。
Fast Geometric Projections for Local Robustness Certification
ローカルロバストネス認証のための高速幾何学的投影
URL:http://arxiv.org/abs/2002.04742v1
この論文の概要(機械翻訳による和訳)
局所的な堅牢性により、モデルが$ epsilon $ -ball内のすべての入力を一貫して分類し、さまざまな形式の敵入力を排除します。この論文では、区分的線形活性化関数を用いたフィードフォワードニューラルネットワークの局所ロバスト性をチェックするための高速な手順を提示します。重要な洞察は、そのようなネットワークが入力空間を多面体複合体に分割し、ネットワークが各多面体領域内で線形になるようにすることです。したがって、特定の入力の周りの領域内の決定境界の体系的な検索は、堅牢性を評価するのに十分です。重要なことは、これらの領域を、高価な制約解決の代わりに幾何学的投影を使用して分析する方法を示すことです。したがって、以前のアプローチにフォールバックすることで対処できる、不完全さを犠牲にして効率的で高度に並列なGPU実装を許可します。経験的に、不完全性は問題ではないことが多く、私たちの方法は、制約解決に基づく既存の堅牢性認証手法よりも1〜2桁高速に実行されることがわかります。