2020年01月25日に発表された機械学習分野の論文27本のAbstractをまとめて和訳しました。
この記事の見出し
- 1 Deep Transformer Models for Time Series Forecasting: The Influenza Prevalence Case
- 2 FsNet: Feature Selection Network on High-dimensional Biological Data
- 3 The Reciprocal Bayesian LASSO
- 4 Applying Recent Innovations from NLP to MOOC Student Course Trajectory Modeling
- 5 Target-Embedding Autoencoders for Supervised Representation Learning
- 6 Replica Exchange for Non-Convex Optimization
- 7 BLK-REW: A Unified Block-based DNN Pruning Framework using Reweighted Regularization Method
- 8 Scaling Laws for Neural Language Models
- 9 Continual Local Replacement for Few-shot Image Recognition
- 10 A Bayesian Long Short-Term Memory Model for Value at Risk and Expected Shortfall Joint Forecasting
- 11 Towards Robust DNNs: An Taylor Expansion-Based Method for Generating Powerful Adversarial Examples
- 12 Stacked Boosters Network Architecture for Short Term Load Forecasting in Buildings
- 13 Linking Bank Clients using Graph Neural Networks Powered by Rich Transactional Data
- 14 Multi-objective Neural Architecture Search via Non-stationary Policy Gradient
- 15 On the human evaluation of audio adversarial examples
- 16 Low-Complexity LSTM Training and Inference with FloatSD8 Weight Representation
- 17 Ada-LISTA: Learned Solvers Adaptive to Varying Models
- 18 Semi-supervised Grasp Detection by Representation Learning in a Vector Quantized Latent Space
- 19 Best Principal Submatrix Selection for the Maximum Entropy Sampling Problem: Scalable Algorithms and Performance Guarantees
- 20 Information Compensation for Deep Conditional Generative Networks
- 21 RPN: A Residual Pooling Network for Efficient Federated Learning
- 22 Compositional properties of emergent languages in deep learning
- 23 Structured Compression and Sharing of Representational Space for Continual Learning
- 24 Best Arm Identification for Cascading Bandits in the Fixed Confidence Setting
- 25 Towards Automatic Clustering Analysis using Traces of Information Gain: The InfoGuide Method
- 26 Expected Information Maximization: Using the I-Projection for Mixture Density Estimation
- 27 MRI Banding Removal via Adversarial Training
Deep Transformer Models for Time Series Forecasting: The Influenza Prevalence Case
時系列予測のためのディープトランスフォーマモデル:インフルエンザ有病率のケース
URL:http://arxiv.org/abs/2001.08317v1
この論文の概要(機械翻訳による和訳)
このホワイトペーパーでは、時系列予測への新しいアプローチを示します。時系列データは、多くの科学および工学分野で普及しています。時系列予測は、時系列データのモデリングにおける重要なタスクであり、機械学習の重要な領域です。この作業では、Transformerベースの機械学習モデルを使用して時系列データを予測する新しい方法を開発しました。このアプローチは、自己注意メカニズムを活用して、時系列データから複雑なパターンとダイナミクスを学習することで機能します。さらに、これは汎用フレームワークであり、単変量および多変量の時系列データ、および時系列の埋め込みに適用できます。ケーススタディとしてインフルエンザ様疾患(ILI)の予測を使用して、我々のアプローチで得られた予測結果は、最先端の技術に匹敵するものであることを示します。
FsNet: Feature Selection Network on High-dimensional Biological Data
FsNet:高次元生物学データの特徴選択ネットワーク
URL:http://arxiv.org/abs/2001.08322v1
この論文の概要(機械翻訳による和訳)
生物学的データは一般に高次元であり、複雑な非線形パターンを発見するために十分に一般化され、スケーラブルな効率的な機械学習方法が必要です。人工知能と機械学習の分野における最近の進歩は、ディープニューラルネットワーク(DNN)に起因する可能性があります。これは、コンピュータービジョンと自然言語処理のさまざまなタスクを達成するためです。ただし、標準のDNNは、高次元のデータや少数のサンプルを含むデータの処理には適していません。これは、多数のパラメーターを学習するために大量の計算リソースと多数のサンプルが必要になるためです。特に、遺伝子発現データなどの高次元の生物学的データには解釈可能性が重要ですが、DNNモデルの非線形特徴選択アルゴリズムは完全には調査されていません。本稿では、スケーラブルなコンクリートニューラルネットワークアーキテクチャであるFeature Selection Network(FsNet)と呼ばれる新しい非線形特徴選択方法を、高次元および少数のサンプル設定で提案します。具体的には、ネットワークは、離散的な特徴選択に具体的なランダム変数を使用するセレクターレイヤーと、再構築損失で正則化された監視されたディープニューラルネットワークで構成されます。セレクターと再構築レイヤーの多数のパラメーターは、限られたサンプル数で簡単にオーバーフィッティングを引き起こす可能性があるため、2つの小さなネットワークを使用して、セレクターと再構築レイヤーの大きな仮想重み行列を予測します。いくつかの実世界の高次元生物学データセットの実験結果は、提案されたアプローチの有効性を示しています。
The Reciprocal Bayesian LASSO
相互ベイジアンLASSO
URL:http://arxiv.org/abs/2001.08327v1
この論文の概要(機械翻訳による和訳)
相互LASSO(rLASSO)正則化では、係数に増加するペナルティを使用する従来のペナルティ化方法とは対照的に、減少するペナルティ関数を使用し、従来の収縮方法と比較してより強力な節約と優れたモデル選択を実現します。ここで、rLASSO問題の完全ベイズ定式化を検討します。これは、回帰パラメーターが独立した逆ラプラス事前分布に割り当てられている場合、線形回帰パラメーターのrLASSO推定がベイジアン事後モード推定として解釈できるという観察に基づいています。この事後からのベイズ推定は、doubleParetoまたは切り捨てられた正規分布のスケール混合によって動機付けられた拡張階層を使用して可能です。シミュレートされたデータセットと実際のデータセットでは、ベイジアン定式化が、後の推論の利点を提供しながら、幅広いシナリオにわたってその古典的ないとこ推定、予測、および変数選択よりも優れていることを示します。最後に、この新しいアプローチの他のバリアントについて説明し、柔軟な相互ペナルティを使用した変数選択の統合フレームワークを提供します。このペーパーで説明するすべてのメソッドは、https://github.com/himelmallick/BayesRecipeでRパッケージとして公開されています。
Applying Recent Innovations from NLP to MOOC Student Course Trajectory Modeling
NLPからMOOC学生コースの軌道モデリングへの最近のイノベーションの適用
URL:http://arxiv.org/abs/2001.08333v1
この論文の概要(機械翻訳による和訳)
このペーパーでは、以前にNLP(自然言語処理)タスクに取り組むために適用された複数のアイデアを適用して、MOOC学生コースの軌跡モデリングのニューラルネットワークに基づく予測手法を改善できるいくつかの戦略を提示します。特に、このペーパーでは、最近導入されたTransformerarchitectureとともに、2つの形式の正則化で強化されたLSTMネットワークを調査します。
Target-Embedding Autoencoders for Supervised Representation Learning
教師あり表現学習のためのターゲット埋め込みオートエンコーダ
URL:http://arxiv.org/abs/2001.08345v1
この論文の概要(機械翻訳による和訳)
オートエンコーダベースの学習は、教師なしおよび半教師付き設定で表現を訓練するための主要なものとして浮上しています。このペーパーでは、ターゲット空間が高次元である、純粋に監視された設定で一般化を改善するためのフレームワークを分析します。教師付き予測のためのターゲット埋め込みオートエンコーダー(TEA)の一般的なフレームワークを動機付け、形式化し、機能から予測可能でもターゲットの予測でもあるように共同で最適化された中間潜在表現を学習します。ターゲットのバリエーションがコンパクトなセットによって駆動される前にエンコードする基礎となる要因。理論上の貢献として、我々は、均一な安定性を実証し、補助再構成タスクの利点を正則化の形として解釈することにより、線形TEAの一般化の保証を提供します。経験的貢献として、このアプローチの検証を既存の静的分類アプリケーションを超えて多変量シーケンス予測に拡張し、線形および非線形リカレントアーキテクチャの両方でそれらの利点を検証します。これにより、フィードフォワードインスタンス化を超えたこのフレームワークのさらなる一般性を強調しています。
Replica Exchange for Non-Convex Optimization
非凸最適化のためのレプリカ交換
URL:http://arxiv.org/abs/2001.08356v1
この論文の概要(機械翻訳による和訳)
勾配降下(GD)は、凸の目的関数に対して迅速に収束することが知られていますが、極小値でトラップされる可能性があります。一方、Langevindynamics(LD)は状態空間を探索してグローバルな最小値を見つけることができますが、正確な推定値を得るためには、LDは小さな離散化ステップサイズと弱い確率的力で実行する必要があり、一般に収束が遅くなります。これら2つのアルゴリズムは、LDがより低い目的関数を生成する場合に現在の位置を交換する単純な交換メカニズムを通じて「コラボレーション」できます。この考えは、サンプリング文献からの複製交換技術の特異な限界とみなすことができます。目的関数が一意のグローバルミニマムの近傍で強く凸であると仮定して、この新しいアルゴリズムがグローバルミニマムに高い確率で線形に収束することを示します。勾配を確率的勾配に置き換え、交換メカニズムに適切なしきい値を追加することにより、アルゴリズムをオンライン設定でも使用できます。いくつかの数値実験を通じて理論結果をさらに検証し、GDまたはLDを単独で実行するよりも提案されたアルゴリズムの優れた性能を観察します。
BLK-REW: A Unified Block-based DNN Pruning Framework using Reweighted Regularization Method
BLK-REW:Reweighted Regularization Methodを使用した統合ブロックベースのDNNプルーニングフレームワーク
URL:http://arxiv.org/abs/2001.08357v1
この論文の概要(機械翻訳による和訳)
さまざまなリソースが制限されたコンピューティングプラットフォームでのDNN実行の高速化は、長年の問題でした。先行研究では、l1ベースのグループラッソまたはADMMなどの動的正則化を利用して、DNNモデルで構造化プルーニングを実行し、並列コンピューティングアーキテクチャを活用しています。しかし、枝刈り寸法と枝刈り方法の両方に普遍性が欠けているため、パフォーマンスが低下し、適用性が制限されます。この問題を解決するために、一般的で柔軟な構造化プルーニングディメンションと、強力で効率的な再重み付けされた正則化方法を備えた、新しいブロックベースのプルーニングフレームワークを提案します。私たちのフレームワークは普遍的であり、CNNとRNNの両方に適用でき、2つの主要な計算集約型レイヤー(つまり、CONVレイヤーとFCレイヤー)を完全にサポートすることを意味します。加速のためのプルーニングタスクのすべての側面を完了するために、リアルタイムベースでDNN推論を実行できるフレームワークにコンパイラベースのコード最適化も統合します。私たちの知る限りでは、weightpruningフレームワークが、リアルタイムのモバイルアクセラレーションと精度の妥協なしで、CNNとRNNの両方のユニバーサルカバレッジを達成するのは初めてです。
Scaling Laws for Neural Language Models
神経言語モデルのスケーリング則
URL:http://arxiv.org/abs/2001.08361v1
この論文の概要(機械翻訳による和訳)
クロスエントロピー損失に関する言語モデルの性能に関する経験的なスケーリング則を研究します。損失は、モデルサイズ、データセットサイズ、およびトレーニングに使用される計算量のべき乗則としてスケーリングし、いくつかの傾向は7桁を超えます。ネットワークの幅や深さなどのその他のアーキテクチャの詳細は、広範囲で最小限の影響しか与えません。 Simpleequationsは、モデル/データセットサイズに対するオーバーフィットの依存性と、モデルサイズに対するトレーニング速度の依存性を管理します。これらの関係により、固定計算予算の最適な割り当てを決定できます。より大きなモデルでは、サンプルの効率が大幅に向上するため、最適な計算効率のトレーニングには、比較的控えめな量のデータで非常に大きなモデルをトレーニングし、収束する前に大幅に停止する必要があります。
Continual Local Replacement for Few-shot Image Recognition
少数ショット画像認識のための継続的なローカル置換
URL:http://arxiv.org/abs/2001.08366v1
この論文の概要(機械翻訳による和訳)
数発学習の目標は、1つまたは少数のトレーニングデータに基づいて、新規クラスを認識できるモデルを学習することです。主に次の2つの側面により課題があります。(1)新規クラスの優れた特徴表現が不足している。 (2)いくつかのラベル付きデータは、真のデータ分布を正確に表すことができませんでした。この作業では、高度なネットワークアーキテクチャを使用して、より優れた機能表現を学習し、2番目の問題に焦点を当てます。データ不足の問題に対処するために、新しい継続的なローカル交換戦略が提案されています。ラベルのない画像のコンテンツを利用して、ラベルの付いた画像を継続的に強化します。具体的には、擬似ラベリング戦略が採用され、その場でセマンティック類似画像を常に選択します。元のラベル付き画像は、次のエポックトレーニング用に選択した画像にローカルで置き換えられます。このようにして、モデルはラベルのない画像から新しいセマンティック情報を直接学習でき、埋め込みスペース内の監視信号の容量を大幅に拡大できます。これにより、モデルは一般化を改善し、分類のより良い決定境界を学習できます。広範な実験により、当社のアプローチがさまざまな少数ショット画像認識ベンチマークで既存の方法よりも非常に競争力のある結果を達成できることが実証されています。
A Bayesian Long Short-Term Memory Model for Value at Risk and Expected Shortfall Joint Forecasting
バリュー・アット・リスクと予想される不足共同予測のためのベイジアン長期短期記憶モデル
URL:http://arxiv.org/abs/2001.08374v1
この論文の概要(機械翻訳による和訳)
Value-at-Risk(VaR)およびExpected Shortfall(ES)は、市場リスクを測定し、極端な市場の動きを管理するために、金融セクターで広く使用されています。分位点スコア関数と非対称ラプラス密度の間の最近のリンクは、VaRとESのジョイントモデリングのための柔軟な尤度ベースのフレームワークをもたらしました。これら2つの量の基礎となる共同ダイナミクスをキャプチャできることは、金融アプリケーションで高い関心を集めています。非対称ラプラス準尤度に基づいたハイブリッドモデルを開発し、Machine LearningのLong Short-Term Memory(LSTM)時系列モデリング手法を使用して、VaRおよびESの基礎となるダイナミクスを効率的にキャプチャすることにより、この問題に対処します。このモデルをLSTM-ALと呼びます。 LSTM-ALモデルのベイジアン推論には、適応マルコフ連鎖モンテカルロ(MCMC)アルゴリズムを採用しています。実証結果は、提案されたLSTM-ALモデルが、確立されたさまざまな競合モデルにわたってVaRおよびESの予測精度を改善できることを示しています。
Towards Robust DNNs: An Taylor Expansion-Based Method for Generating Powerful Adversarial Examples
ロバストなDNNに向けて:強力な敵対的な例を生成するためのテイラー展開ベースの方法
URL:http://arxiv.org/abs/2001.08389v1
この論文の概要(機械翻訳による和訳)
ディープニューラルネットワーク(DNN)は多くの分野で成功したアプリケーションを実現していますが、敵対的な例に対して脆弱です。敵対的訓練は、DNNの堅牢性を改善する最も効果的な方法の1つであり、損失関数を最小化し、摂動を最大化するミニマックスポイント問題として一般に考えられています。したがって、強力な敵対者の例は、摂動の最大化を効果的にシミュレートして、ミニマックス問題を解決できます。論文では、ロバストな敵訓練のためのより強力な敵の例を生成するための新しい方法が提案されました。主なアイデアは、Taylor展開を使用して入力近傍のDNNの出力を近似し、ラグランジュ乗数法を使用して敵の例を生成することで最適化します。実験結果は、これらの強力な敵対者の例で訓練されたDNNの堅牢性を効果的に改善できることを示しています。
Stacked Boosters Network Architecture for Short Term Load Forecasting in Buildings
建物の短期負荷予測のためのスタック型ブースターネットワークアーキテクチャ
URL:http://arxiv.org/abs/2001.08406v1
この論文の概要(機械翻訳による和訳)
このホワイトペーパーでは、建物のエネルギー負荷の短期的な負荷予測のための新しい深層学習アーキテクチャを示します。このアーキテクチャは、単一の深層ネットワークとしてモデル化されたシンプルベース学習器と複数のブースティングシステムに基づいています。このアーキテクチャは、元の多変量時系列を複数のカスケード単変量時系列に変換します。疎相互作用、パラメータ共有、および同変表現を組み合わせることで、このアプローチにより、深いネットワークアーキテクチャで優れた表現力を実現しながら、過剰適合との戦いが可能になります。アーキテクチャは、フィンランドのオフィスビルからのエネルギーデータを使用して、いくつかの短期負荷予測タスクで評価されます。提案されたアーキテクチャは、すべてのタスクで最先端の負荷予測モデルよりも優れています。
Linking Bank Clients using Graph Neural Networks Powered by Rich Transactional Data
豊富なトランザクションデータを活用したグラフニューラルネットワークを使用した銀行クライアントのリンク
URL:http://arxiv.org/abs/2001.08427v1
この論文の概要(機械翻訳による和訳)
金融機関は、ユーザートランザクションと送金に関する膨大な量のデータを取得します。これは、時間とともに動的に変化する大きなグラフと考えることができます。この作業では、銀行のクライアントのネットワークにおける新しい相互作用を予測するタスクに焦点を当て、リンク予測の問題として扱います。ネットワークのトポロジ構造だけでなく、グラフのノードとエッジに使用できる豊富な時系列データを使用する新しいグラフニューラルネットワークモデルを提案します。欧州の大手銀行から数年間提供されたデータを使用して、開発した方法を評価します。提案されたモデルは、他のニューラルネットワークモデルを含む既存のアプローチよりも優れており、リンク予測問題のROC AUCスコアに大きなギャップがあり、クレジットスコアリングの品質を向上させることもできます。
Multi-objective Neural Architecture Search via Non-stationary Policy Gradient
非定常ポリシー勾配による多目的ニューラルアーキテクチャ検索
URL:http://arxiv.org/abs/2001.08437v1
この論文の概要(機械翻訳による和訳)
多目的ニューラルアーキテクチャ検索(NAS)は、複数の相反する目的が存在する中で新しいアーキテクチャを発見することを目的としています。スカラー化と進化に基づく最近のアプローチは有望な結果をもたらしましたが、完全なパレートフロントを正確かつ効率的に近似する問題は挑戦的なままです。この目的のために、本研究では、非定常政策勾配(NPG)の新規強化学習ベースのパラダイムを検討します。NPGは非定常報酬関数を利用し、パレートフロント全体を効率的にキャプチャするための政策の継続的適応を促進します。スカラー化と進化からの要素を持つ2つの新しい報酬関数を紹介します。非定常性を処理するために、コサインの温度減衰とウォームリスタートを使用した新しい探査スキームを提案します。迅速かつ正確なアーキテクチャ評価のために、トレーニング中に継続的に微調整する、事前トレーニング済みの新しい共有モデルを導入します。 CIFAR-10、CIFAR-100、およびImageNetに関する広範な実験的研究は、フレームワークが代表的なパレートフロントを高速で発見しながら、他の多目的NASメソッドおよび多くの最先端のNASメソッドよりも優れた予測パフォーマンスを達成できることを示しています同様のネットワークサイズ。私たちの研究は、NPGが多目的NASのシンプルで高速かつ効果的なパラダイムとしての可能性を示しています。
On the human evaluation of audio adversarial examples
オーディオ敵対例の人間評価について
URL:http://arxiv.org/abs/2001.08444v1
この論文の概要(機械翻訳による和訳)
人間と機械の相互作用は音声通信にますます依存するようになっていますが、通常、機械学習モデルは人間の音声コマンドの解釈に適用されますが、これらのモデルは敵の例にだまされる可能性があります。敵対的摂動を生成する新しい手法の開発に焦点が当てられており、人間が摂動に気付くかどうか、およびどのように気付くかを決定する側面への注意はあまり払われていません。提案された敵対摂動戦略の高いだまし率は摂動が検出できない場合にのみ価値があるため、この質問は重要です。この論文では、オーディオの敵対的な例に関する文献で提案されている歪み測定基準が、これらの攻撃を生成する方法の有効性を評価するために一般的に適用される範囲で、摂動に対する人間の知覚の信頼できる尺度であるかどうかを調査します。また、18人の被験者が音声の敵の例を評価する実験では、従来の方法で採用されたメトリックが、音声の領域における敵の例の知覚的類似性の信頼できる尺度ではないことを示しています。
Low-Complexity LSTM Training and Inference with FloatSD8 Weight Representation
FloatSD8重量表現による低複雑度のLSTMトレーニングと推論
URL:http://arxiv.org/abs/2001.08450v1
この論文の概要(機械翻訳による和訳)
FloatSDテクノロジーは、複雑性の低い畳み込みニューラルネットワーク(CNN)のトレーニングと推論で優れたパフォーマンスを発揮することが示されています。この論文では、FloatSDをリカレントニューラルネットワーク(RNN)、特に長期短期記憶(LSTM)に適用しました。 FloatSD weightrepresentationに加えて、モデルトレーニングの勾配とアクティベーションを8ビットに量子化しました。さらに、累積の計算精度と重みのマスターコピーが32ビットから16ビットに低下しました。モデルの精度を完全に維持しながら、提案されたトレーニングスキームが複数のLSTMモデルをゼロから正常にトレーニングできることを実証しました。最後に、実装における提案方法の利点を検証するために、LSTMニューロン回路を設計し、ダイ面積と消費電力を大幅に削減できることを示しました。
Ada-LISTA: Learned Solvers Adaptive to Varying Models
Ada-LISTA:さまざまなモデルに適応する学習済みソルバー
URL:http://arxiv.org/abs/2001.08456v1
この論文の概要(機械翻訳による和訳)
LISTA(学習反復ソフトしきい値アルゴリズム)などの反復ソルバーの展開に基づくニューラルネットワークは、パフォーマンスが向上するため広く使用されています。それにもかかわらず、非学習ソルバーとは対照的に、これらのネットワークは特定の辞書でトレーニングされるため、さまざまなモデルシナリオには適用できません。この作業では、Ada-LISTAと呼ばれる適応学習ソルバーを紹介します。Ada-LISTAは、信号のペアとそれに対応する辞書を入力として受け取り、すべてに役立つユニバーサルアーキテクチャを学習します。このスキームは、辞書の摂動や置換を含むさまざまなモデルの線形レートでのスパースコーディングを解決することが保証されていることを証明します。また、その実用的な適応能力を示す広範な数値研究も提供しています。最後に、Ada-LISTAをnaturalimage inpaintingに展開します。パッチマスクは空間的に変化するため、そのような適応が必要です。
Semi-supervised Grasp Detection by Representation Learning in a Vector Quantized Latent Space
ベクトル量子化潜在空間における表現学習による半教師付き把握検出
URL:http://arxiv.org/abs/2001.08477v1
この論文の概要(機械翻訳による和訳)
画像から品質の把握を決定することは、重要な研究分野です。この作業では、ベクトル量子化VariationAutoencoder(VQ-VAE)を使用して離散潜在空間をモデル化する、半教師あり学習ベースの把握検出アプローチを提示します。私たちの知る限り、これはロボットの把持検出の分野でVAEsが適用された最初の例です。 VAEは、ラベル付きデータの量が限られているにもかかわらず、モデルがCornell Grasping Dataset(CGD)を超えて一般化するのに役立ちます。私たちは、CGDにないイメージ上のモデルをテストすることにより、この主張を検証します。また、モデルは、ラベルのない画像を使用して把握を改善しない既存のアプローチよりも大幅に優れたパフォーマンスを発揮します。
Best Principal Submatrix Selection for the Maximum Entropy Sampling Problem: Scalable Algorithms and Performance Guarantees
最大エントロピーサンプリング問題のための最良の主要部分行列の選択:スケーラブルなアルゴリズムと性能保証
URL:http://arxiv.org/abs/2001.08537v1
この論文の概要(機械翻訳による和訳)
この論文は、共分散行列から事前に指定されたサイズの最も有益な主要部分行列を選択する古典的な最大エントロピーサンプリング問題(MESP)を研究しています。 MESPは、ヘルスケア、電力システム、製造、データサイエンスなど、多くの分野に広く適用されています。ラグランジュの双対および主な特性を調べることにより、MESPの新しい凸整数プログラムを導出し、その連続緩和によりほぼ最適な解が得られることを示します。この結果は、効率的なサンプリングアルゴリズムを研究し、MESPの近似限界を開発する動機付けとなります。次に、同じ近似限界を持つサンプリングアルゴリズムの効率的な決定論的実装を提供します。特異行列用の新しい数学ツールを開発し、提案された凸整数プログラムのラグランジュ双対を分析することにより、広く使用されているlocalsearchアルゴリズムを調査し、MESPの最初の知られている近似限界を証明します。 Theproofテクニックは、ローカル検索アルゴリズムの効率的な実装で私たちをさらに刺激します。私たちの数値実験は、これらの近似アルゴリズムが中規模および大規模のインスタンスをほぼ最適に効率的に解決できることを示しています。提案されたアルゴリズムは、オープンソースソフトウェアとしてコーディングおよびリリースされています。最後に、分析をA-Optimal MESP(A-MESP)に拡張します。目的は、選択した主部分行列の逆のトレースを最小化することです。
Information Compensation for Deep Conditional Generative Networks
深い条件付き生成ネットワークの情報補償
URL:http://arxiv.org/abs/2001.08559v1
この論文の概要(機械翻訳による和訳)
近年、監視なし/弱監視の条件付き生成的敵対ネットワーク(GAN)は、データのモデル化と生成のタスクで多くの成功を収めています。しかし、それらの弱点の1つは、潜在空間にエンコードされた表現を特徴付けるさまざまな要因を分離または解きほぐす能力の低さにあります。この問題に対処するために、新しい情報補償接続(IC接続)を使用した監視なしの条件付きGANの新しい構造を提案します。提案されたIC接続により、GANはデコンボリューション操作中に発生した情報損失を補償できます。さらに、離散および連続潜在変数のもつれの程度を定量化するために、新しい評価手順を設計します。私たちの経験的な結果は、我々の方法が無条件の世代設定での最新のGANと比較してより良いもつれを解くことを示唆します。
RPN: A Residual Pooling Network for Efficient Federated Learning
RPN:効率的な連合学習のための残余プーリングネットワーク
URL:http://arxiv.org/abs/2001.08600v1
この論文の概要(機械翻訳による和訳)
フェデレーテッドラーニングとは、データプライバシーとセキュリティを保護しながら、さまざまな関係者が共同でモデルをトレーニングできる新しい機械学習フレームワークです。モデルの複雑さ、ネットワークの信頼性の低さ、および接続の不安定性により、通信コストは、連合学習を実際のアプリケーションに適用するための大きなボトルネックになっています。現在の既存の戦略は、ハイパーパラメータを手動で設定するか、元のプロセスを複数のステップに分割する必要があるため、エンドツーエンドの実装を実現するのが困難です。この論文では、Residual Pooling Network(RPN)と呼ばれる新しい圧縮戦略を提案します。私たちの実験は、RPNがデータ送信を効果的に削減するだけでなく、標準的な連合学習と比較してほぼ同じパフォーマンスを達成することを示しています。新しいアプローチはエンドツーエンドの手順として実行され、通信効率を改善するためにすべてのCNNベースのモデルトレーニングシナリオに容易に適用する必要があります。
Compositional properties of emergent languages in deep learning
深層学習における新興言語の構成的特性
URL:http://arxiv.org/abs/2001.08618v1
この論文の概要(機械翻訳による和訳)
マルチエージェントの深層学習システムにおける最近の発見は、構成言語の出現を指し示しています。これらの主張は、多くの場合、正確な分析や言語のテストなしで行われます。この作業では、2つの異なる協調型マルチエージェントゲームから生じる緊急言語を分析し、より正確な構成を測定します。私たちの調査結果は、ディープラーニングモデルによって発見されたソリューションは、しばしば抽象レベルで推論する能力に欠けているため、学習した知識をトレーニングの分布例から一般化できないことを示唆しています。組成能力をテストするための戦略と人間レベルの概念の出現について説明します。
Structured Compression and Sharing of Representational Space for Continual Learning
継続的学習のための表現空間の構造化圧縮と共有
URL:http://arxiv.org/abs/2001.08650v1
この論文の概要(機械翻訳による和訳)
人間は生涯を通じて適応的かつ効率的に学習することに長けていますが、学習タスクにより、人工ニューラルネットワークは古いタスクについて学習した関連情報を徐々に上書きし、「壊滅的な忘却」をもたらします。この現象を克服するための努力は、古いデータやパラメータの重要度スコアを保存したり、ネットワークアーキテクチャを拡大したりする必要があるなど、さまざまな方法でリソースの利用率が低下します。表現空間を、以前に学習したタスクからの凝縮された情報を含むコア空間と、現在のタスクを学習するためのスクラッチ空間に似た残余空間に分割することにより、ネットワークが継続的かつ効率的に学習できるようにするアルゴリズムを提案します。その後、PrincipalComponent Analysisを使用して残余スペースが圧縮され、コアスペースに追加され、次のタスクのパラメーターが解放されます。 P-MNIST、CIFAR-10、CIFAR-100データセットでアルゴリズムを評価します。壊滅的な忘却の問題を完全に克服しながら、最先端の方法に匹敵する精度を達成します。さらに、結果のアーキテクチャの構造化された性質により、推論中のエネルギー効率が最大4.5倍向上します。
Best Arm Identification for Cascading Bandits in the Fixed Confidence Setting
固定信頼度設定での盗賊のカスケードに最適な腕の識別
URL:http://arxiv.org/abs/2001.08655v1
この論文の概要(機械翻訳による和訳)
カスケードバンディットのフレームワーク内で、アームとも呼ばれる$ K $アイテムの最適なセットを見つけるためのアルゴリズムであるCascadeBAIを設計および分析します。 CascadeBAIの時間の複雑さの上限は、重要な分析上の課題、つまり、各ステップで利用可能なフィードバックの量を確率的に推定するという課題を克服することによって導き出されます。これを行うために、左側のサブガウスrvと呼ぶランダム変数(rv)の新しいクラスを定義します。これらは、非累積型の場合に限り、累積生成関数(CGF)がaquadraticによって制限されるrvです。 -CGFの正の引数。これにより、十分にタイトなバーンスタイン型濃度不等式の適用が可能になります。時間の複雑さの下限を導出することにより、CascadeBAIのパフォーマンスがいくつかの実用的なレジームで最適であることを示しています。最後に、広範な数値シミュレーションにより、CascadeBAIの有効性と、時間の複雑さの上限が厳しくなることが裏付けられています。
Towards Automatic Clustering Analysis using Traces of Information Gain: The InfoGuide Method
情報ゲインのトレースを使用した自動クラスタリング分析に向けて:InfoGuideメソッド
URL:http://arxiv.org/abs/2001.08677v1
この論文の概要(機械翻訳による和訳)
クラスタリング分析は、広範囲のドメインで遍在する情報検索ツールになっていますが、より自動化されたフレームワークはまだありません。内部メトリクスはクラスタの検索を成功させるための重要なプレーヤーですが、実際のデータセットに対するそれらの有効性は、主にデータセットの基礎となる非現実的な仮定のため、完全には理解されていません。複雑化するクラスタリング検索間の{ itトレース情報の取得}をキャプチャすることを仮定しました— { it InfoGuide} —自動クラスタリング分析とクラスタリング検索を改善しました。 Kolmogorov-Smirnov統計を使用して情報ゲインのトレースをキャプチャし、{ it InfoGuide}によって取得されたクラスターを、人工的に生成されたベンチマーク、および実世界のデータセットで一般的に使用される他の内部メトリックによって取得されたクラスターと比較することにより、{ it InfoGuide}仮説を検証しました。我々の結果は、{ it InfoGuide}がより自動化されたクラスタリング分析を可能にし、重要な統計特性を表示する実世界のデータセットでクラスターを検索するのにより適しているかもしれないことを示唆しました。
Expected Information Maximization: Using the I-Projection for Mixture Density Estimation
期待される情報の最大化:混合密度推定のためのIプロジェクションの使用
URL:http://arxiv.org/abs/2001.08682v1
この論文の概要(機械翻訳による和訳)
高度にマルチモーダルなデータのモデリングは、機械学習において困難な問題です。ほとんどのアルゴリズムは、データ分布のモデル分布へのM(oment)投影に対応する尤度の最大化に基づいています。 M-projectionは、モデルが表現できないモードでモデルを強制的に平均化します。対照的に、I(情報)-射影はデータ内のそのようなモードを無視し、モデルが表現できるモードに集中します。このような動作は、すべてのモードをカバーするよりもシングルモードを正しくモデリングすることが重要である高度にマルチモーダルなデータを扱う場合に魅力的です。この利点にもかかわらず、Iプロジェクションは、データに基づいて効率的に最適化できるアルゴリズムがないため、実際にはめったに使用されません。この作業では、一般的な潜在変数モデルのサンプルのみに基づいてI射影を計算するためのExpected Information Maximization(EIM)と呼ばれる新しいアルゴリズムを提示します。ここでは、専門家の混合ガウスモデルと混合ガウスに焦点を当てます。私たちのアプローチは、I-projectionobjectiveに変分上限を適用し、元の目的を各混合成分および係数の単一の目的に分解し、効率的な最適化を可能にします。 GANと同様に、このアプローチでは弁別器を使用しますが、厳密な上限を使用して、より安定した最適化手順を使用します。私たちのアルゴリズムは、最近のGANapproachesよりもI射影の計算にはるかに効果的であることを示し、2つの歩行者および交通予測データセットのマルチモーダル行動をモデル化するアプローチの有効性を示します。
MRI Banding Removal via Adversarial Training
敵対訓練によるMRIバンディング除去
URL:http://arxiv.org/abs/2001.08699v1
この論文の概要(機械翻訳による和訳)
ディープラーニング技術を使用してサブサンプリングデータから再構成されたMRI画像は、多くの場合、特徴的なバンディングを示します。これは、再構成画像の低信号対雑音領域で特に強力です。この作業では、人間の注釈を必要とせずにバンディング構造にペナルティを課す敵対的損失の使用を提案します。この手法は、再構築時に追加の計算や後処理を必要とせずに、バンディングの外観を大幅に減らします。私たちのアプローチは統計的に有意な詳細の損失なしにバンディング除去で優れていると評価されている専門の評価者(委員会認定放射線医)のグループによる強力なベースラインに対するブラインド比較の結果を報告します。