画像認識分野論文まとめ【2020年02月25日arXiv公開】

アブストまとめ
Like0
お気に入り

2020年02月25日に発表された画像認識分野の論文49本のAbstractをまとめて和訳しました。

この記事の見出し

Deep Nearest Neighbor Anomaly Detection

最近傍の異常検出

著者:Liron Bergman, Niv Cohen, Yedid Hoshen
URL:http://arxiv.org/abs/2002.10445v1

この論文の概要(機械翻訳による和訳)
最近傍は、異常検出のための成功した長年の技術です。最近、自己管理の深い方法(RotNetなど)によって大きな進歩が達成されました。ただし、自己監視機能は、通常、Imagenetの事前トレーニング機能よりもパフォーマンスが劣ります。この作業では、最近の進歩がImagenetの事前学習済み特徴空間で動作する最近傍メソッドを実際に上回ることができるかどうかを調査します。単純な最近傍アプローチは、精度、少ないショットの一般化、トレーニング時間、ノイズの堅牢性を備えながら、画像分布に関する仮定を少なくして、自己監督法を上回ることが実験的に示されています。

Batch Normalization Biases Deep Residual Networks Towards Shallow Paths

バッチ正規化は、浅いパスに向かって深い残余ネットワークにバイアスをかけます

著者:Soham De, Samuel L. Smith
URL:http://arxiv.org/abs/2002.10444v1

この論文の概要(機械翻訳による和訳)
バッチ正規化には複数の利点があります。これは、損失状況の調整を改善し、驚くほど効果的なレギュラライザーです。ただし、バッチ正規化の最も重要な利点は残余ネットワークで発生し、そこではトレーニング可能な最大の深さが劇的に増加します。この利点の起源を特定します。初期化時に、バッチの正規化は、ネットワークの深さの平方根に比例する正規化係数によって、スキップ接続に比べて残りのブランチをダウンスケールします。これにより、トレーニングの初期段階で、深く正規化された残差ネットワークによって計算された関数が、適切に動作する勾配を持つ浅いパスによって支配されることが保証されます。この洞察を使用して、正規化せずに非常に深い残差ネットワークをトレーニングできる単純な初期化スキームを開発します。また、バッチ正規化により、より大きな学習率で安定したトレーニングが可能になりますが、この利点が役立つのは、大きなバッチサイズでトレーニングを並列化する場合のみです。私たちの結果は、異なるアーキテクチャのバッチ正規化の明確な利点を分離するのに役立ちます。

Maximum Entropy on the Mean: A Paradigm Shift for Regularization in Image Deblurring

平均の最大エントロピー:画像のブレ除去における正則化のパラダイムシフト

著者:Gabriel Rioux, Rustum Choksi, Tim Hoheisel, Christopher Scarvelis
URL:http://arxiv.org/abs/2002.10434v1

この論文の概要(機械翻訳による和訳)
画像のブレ除去は、悪名高い挑戦的な不適切な逆問題です。近年、画像のレベルでの正規化または機械学習の技術に基づいて、さまざまなアプローチが提案されています。私たちは、画像空間上の確率分布のレベルで正規化に向けてパラダイムをシフトする代替アプローチを提案します。私たちの方法は、画像の確率密度関数のレベルで働く平均エントロピーの概念に基づいており、その期待はグラウンドトゥルースの推定値です。凸解析と確率理論の手法を使用して、この方法が計算上実行可能であり、非常に大きなブラーに適していることを示します。さらに、画像にシンボル(既知のパターン)が埋め込まれている場合、未知のブラーカーネルを顕著な効果で近似するためにこの方法をどのように適用できるかを示します。ただし、中程度から大量のノイズについては、最先端の方法で事前調整されたノイズ除去によって良好に機能します。

Suppressing Uncertainties for Large-Scale Facial Expression Recognition

大規模な表情認識のための不確実性の抑制

著者:Kai Wang, Xiaojiang Peng, Jianfei Yang, Shijian Lu, Yu Qiao
URL:http://arxiv.org/abs/2002.10392v1

この論文の概要(機械翻訳による和訳)
質の高い大規模な表情データセットに注釈を付けることは、あいまいな表情、低品質の顔画像、および注釈者の主観性に起因する不確実性のため、非常に困難です。これらの不確実性は、ディープラーニング時代の大規模な顔の表情認識(FER)の重要な課題につながります。この問題に対処するために、このペーパーでは、不確実性を効率的に抑制し、深いネットワークが不正確な顔画像を過度にフィッティングするのを防ぐ、シンプルで効率的なセルフキュアネットワーク(SCN)を提案します。具体的には、SCNは2つの異なる側面から不確実性を抑制します:1)順位付けの正則化で各トレーニングサンプルを重み付けするミニバッチ上の自己注意メカニズム、および2)最下位グループのこれらのサンプルのラベルを変更するための慎重な再ラベル付けメカニズム。合成FERデータセットと収集されたWebEmotionデータセットの実験により、この方法の有効性が検証されました。公開ベンチマークの結果は、SCNがRAF-DBで textbf {88.14} %、AffectNetで textbf {60.23} %、FERPlusで textbf {89.35} %を使用して、現在の最先端の方法よりも優れていることを示しています。 。このコードは、 href {https://github.com/kaiwang960112/Self-Cure-Network} {https://github.com/kaiwang960112/Self-Cure-Network}で入手できます。

Sketchformer: Transformer-based Representation for Sketched Structure

Sketchformer:スケッチ構造のトランスフォーマーベースの表現

著者:Leo Sampaio Ferraz Ribeiro, Tu Bui, John Collomosse, Moacir Ponti
URL:http://arxiv.org/abs/2002.10381v1

この論文の概要(機械翻訳による和訳)
Sketchformerは、フリーハンドスケッチ入力をベクター形式で、つまり一連のストロークとしてエンコードするための、新しいトランスフォーマーベースの表現です。Sketchformerは、スケッチ分類、スケッチベースの画像検索(SBIR)、およびスケッチの再構成と補間といった複数のタスクに効果的に対処します。連続およびトークン化された入力表現を調査するいくつかのバリアントを報告し、それらのパフォーマンスを比較します。辞書学習トークン化スキームによって駆動される学習埋め込みは、LSTMシーケンスからシーケンスアーキテクチャ:SketchRNNおよび派生物によって駆動されるベースライン表現と比較すると、分類および画像検索タスクで最先端のパフォーマンスをもたらします。スケッチの再構築と補間は、ストロークシーケンスが長い複雑なスケッチのSketchformer埋め込みによって大幅に改善されることを示しています。

Joint Learning of Assignment and Representation for Biometric Group Membership

生体認証グループメンバーシップの割り当てと表現の共同学習

著者:Marzieh Gheisari, Teddy Furon, Laurent Amsaleg
URL:http://arxiv.org/abs/2002.10363v1

この論文の概要(機械翻訳による和訳)
このペーパーでは、好奇心but盛で正直なサーバーが登録済みの生体認証署名を再構築し、クエリを実行するクライアントのIDを推測することを防ぐグループメンバーシッププロトコルのフレームワークを提案します。このフレームワークは、埋め込みパラメータ、グループ表現、および割り当てを同時に学習します。実験は、セキュリティ/プライバシーと検証/識別のパフォーマンス間のトレードオフを示しています。

Group Membership Verification with Privacy: Sparse or Dense?

プライバシーを伴うグループメンバーシップの検証:疎か密か?

著者:Marzieh Gheisari, Teddy Furon, Laurent Amsaleg
URL:http://arxiv.org/abs/2002.10362v1

この論文の概要(機械翻訳による和訳)
グループメンバーシップの検証では、バイオメトリック特性がグループの1人のメンバーに対応するかどうかを確認しますが、そのメンバーのIDは明らかにしません。最近の貢献は、テンプレートを個別の埋め込みに量子化することと、いくつかのテンプレートを1つのグループ表現に集約することの2つのメカニズムの共同使用により、グループメンバーシッププロトコルにプライバシーを提供します。ただし、このスキームには1つの欠点があります。グループを表すデータ構造にはサイズが制限されており、多くのテンプレートが集約されているとノイズの多いクエリを認識できません。さらに、埋め込みのスパース性は、パフォーマンスの検証に重要な役割を果たしているようです。このホワイトペーパーでは、セキュリティ、コンパクトさ、および検証パフォーマンスの両方に対するスパース性の影響を明らかにできるグループメンバーシップ検証の数学モデルを提案します。このモデルは、ノイズの多いクエリに対して堅牢なブルームフィルターへのギャップを埋めます。クエリのノイズがほとんどない場合を除き、高密度ソリューションのほうが競争力が高いことを示しています。

Comparing View-Based and Map-Based Semantic Labelling in Real-Time SLAM

リアルタイムSLAMでのビューベースとマップベースのセマンティックラベリングの比較

著者:Zoe Landgraf, Fabian Falck, Michael Bloesch, Stefan Leutenegger, Andrew Davison
URL:http://arxiv.org/abs/2002.10342v1

この論文の概要(機械翻訳による和訳)
一般に有能な空間AIシステムは、幾何モデルが意味のあるセマンティックラベルと組み合わされた永続的なシーン表現を構築する必要があります。シーンにラベルを付けるための多くのアプローチは、2つの明確なグループに分けることができます。生成されたシーンモデルにラベルを付けるmap-basedただし、これまでのところ、ビューベースのラベル付けとマップベースのラベル付けを定量的に比較する試みはありませんでした。ここでは、公正な比較のためのアクセス可能なプラットフォームとしてリアルタイムハイトマップフュージョンを使用する実験的フレームワークと比較を提示し、この分野のさらなる体系的な研究への道を開きます。

Guessing State Tracking for Visual Dialogue

ビジュアルダイアログの状態追跡の推測

著者:Wei Pang, Xiaojie Wang
URL:http://arxiv.org/abs/2002.10340v1

この論文の概要(機械翻訳による和訳)
GuesserはGuessWhat ?!で重要な役割を果たします。視覚的な対話のように。質問者とオラクルの間の質問と回答に基づく対話を介して、オラクル自身が想定している画像にターゲットオブジェクトを配置します。ほとんどの既存の推測者は、事前に定義されたラウンド数のダイアログですべての質問と回答のペアを受け取った後、1回だけ推測します。この論文は、推測者に推測状態を提案し、推測を、ダイアログを介した推測状態の変化を伴うプロセスと見なします。したがって、推測状態追跡ベースの推測モデルが提案されています。推測状態は、画像内の候補オブジェクトの分布として定義されます。 3つのモジュールを含む状態更新アルゴリズムが提供されます。 UoVRは現在の推測状態に応じて画像の表現を更新し、QAEncoderは質問と回答のペアをエンコードし、UoGSは画像と対話履歴の両方の情報を組み合わせて推測状態を更新します。推測状態が手元にある場合、2つの損失関数がモデルトレーニングの監視として定義されます。初期の監督は、初期のラウンドで推測者への監督を行い、段階的な監督は推測状態への単調性をもたらします。 GuessWhat ?!データセットの実験結果は、このモデルが以前のモデルを大幅に上回り、最新の技術、特に83.3%の推測成功率が人間レベルのパフォーマンス84.4%に達していることを示しています。

Anatomy-aware 3D Human Pose Estimation in Videos

ビデオでの解剖学を考慮した3D人間の姿勢推定

著者:Tianlang Chen, Chen Fang, Xiaohui Shen, Yiheng Zhu, Zhili Chen, Jiebo Luo
URL:http://arxiv.org/abs/2002.10322v1

この論文の概要(機械翻訳による和訳)
この作業では、3Dの人間の姿勢推定ビデオの新しいソリューションを提案します。 3D関節位置を直接回帰する代わりに、人間の骨格の解剖学からインスピレーションを引き出して、タスクを骨方向予測と骨長予測に分解し、そこから3D関節位置を完全に導き出すことができます。私たちの動機は、人間の骨格の骨の長さが時間を超えて一貫しているという事実です。これにより、ビデオ内の{ it all}フレーム全体でグローバル情報を活用して、骨の長さを高精度に予測するための効果的な技術を開発することができます。さらに、骨方向予測ネットワークのために、ロングスキップ接続を備えた完全に畳み込みの伝搬アーキテクチャを提案します。基本的に、時間のかかるメモリユニット(LSTMなど)を使用せずに、さまざまなボーンの方向を階層的に予測します。さらに、骨の長さと骨の方向を予測するネットワークのトレーニングを橋渡しするために、新しい関節シフト損失が導入されています。ポーズ。当社の完全なモデルは、Human3.6MおよびMPI-INF-3DHPデータセットで以前の最良の結果よりも優れており、包括的な評価によりモデルの有効性が検証されます。

Self-Adaptive Training: beyond Empirical Risk Minimization

自己適応トレーニング:経験的リスク最小化を超えて

著者:Lang Huang, Chao Zhang, Hongyang Zhang
URL:http://arxiv.org/abs/2002.10319v1

この論文の概要(機械翻訳による和訳)
自己適応型トレーニング—余分な計算コストをかけずにモデル予測によって問題のあるトレーニングラベルを動的に修正する新しいトレーニングアルゴリズム—潜在的に破損しているディープラーニングトレーニングデータの一般化を改善します。この問題は、たとえば、ラベルノイズや配信不能サンプルによって破損したデータから堅牢に学習するために重要です。ただし、このようなデータの標準的な経験的リスク最小化(ERM)は、ノイズを容易にオーバーフィットする可能性があるため、パフォーマンスが最適化されません。この論文では、モデル予測がトレーニングプロセスに実質的にメリットをもたらすことを観察します。自己適応トレーニングは、さまざまなレベルのノイズの下でERMよりも一般化を大幅に改善し、自然および敵対的トレーニングの両方でオーバーフィットの問題を軽減します。自己適応型トレーニングのエラー容量曲線を評価します。テストエラーは単調に減少しています。モデル容量。これは、ノイズの過剰適合の結果である可能性がある、ERMで最近発見された二重降下現象とは対照的です。 CIFARおよびImageNetデータセットの実験により、ラベルノイズによる分類と選択的分類の2つのアプリケーションでのアプローチの有効性が検証されます。 url {https://github.com/LayneH/self-adaptive-training}でコードをリリースします。

Sketch Less for More: On-the-Fly Fine-Grained Sketch Based Image Retrieval

スケッチを少なくしてもっと:オンザフライで細かくスケッチした画像ベースの画像検索

著者:Ayan Kumar Bhunia, Yongxin Yang, Timothy M. Hospedales, Tao Xiang, Yi-Zhe Song
URL:http://arxiv.org/abs/2002.10310v1

この論文の概要(機械翻訳による和訳)
粒度の細かいスケッチベースの画像検索(FG-SBIR)は、ユーザーのクエリスケッチが与えられると、特定の写真インスタンスを検索する問題に対処します。しかし、その広範な適用性は、スケッチの描画に時間がかかり、ほとんどの人が完全で忠実なスケッチを描くのに苦労するという事実によって妨げられています。この論文では、可能な限り少ないストローク数でターゲット写真を取得するという究極の目標で、従来のFG-SBIRフレームワークを再定式化して課題に取り組んでいます。さらに、ユーザーが描画を開始するとすぐに取得を開始するオンザフライ設計を提案します。これを達成するために、完全なスケッチ描画エピソードで地上真実の写真のランクを直接最適化する強化学習ベースのクロスモーダル検索フレームワークを考案します。さらに、無関係なスケッチストロークに関連する問題を回避する新しい報酬スキームを導入し、検索中により一貫したランクリストを提供します。 2つの公開されている詳細なスケッチ検索データセットで、最新の方法と代替ベースラインよりも優れた早期検索効率を実現します。

PUGeo-Net: A Geometry-centric Network for 3D Point Cloud Upsampling

PUGeo-Net:3D点群アップサンプリングのためのジオメトリ中心のネットワーク

著者:Yue Qian, Junhui Hou, Sam Kwong, Ying He
URL:http://arxiv.org/abs/2002.10277v1

この論文の概要(機械翻訳による和訳)
この論文は、与えられた疎な点群から基礎となる幾何学的構造を記述するために、均一な密な点群を生成する問題に対処します。不規則で不規則な性質のために、年齢タスクとしての点群の高密度化は困難です。この課題に取り組むために、各入力ポイントに対して$ 3 times 3 $ linear変換行列$ bf T $を学習する、PUGeo-Netと呼ばれる斬新なディープニューラルネットワークベースの方法を提案します。 Matrix $ mathbf T $は、ローカルパラメーター化の拡張ヤコビ行列を近似し、2Dパラメトリックドメインと3Dtangent平面の間に1対1の対応を構築します。 3Dスペース。その後、接平面の法線に沿って変位を計算することにより、サンプルを曲面に投影します。 PUGeo-Netは、画像の超解像技術に大きく動機付けられ、抽象的な特徴空間に新しいポイントを生成する既存の深層学習方法とは根本的に異なります。そのジオメトリ中心の性質のおかげで、PUGeo-Netは、シャープな機能を備えたCADモデルと、豊かな幾何学的な詳細を備えたスキャンモデルの両方でうまく機能します。さらに、PUGeo-Netcanは、元のポイントと生成されたポイントの法線を計算します。これは、表面再構成アルゴリズムによって非常に望まれます。計算結果は、頂点座標と法線を共同で生成できる最初のニューラルネットワークであるPUGeo-Netが、アップサンプリングファクター$ 4 sim 16 $の精度と効率の点で常に最新技術を上回ることを示しています

Automatic Estimation of Sphere Centers from Images of Calibrated Cameras

キャリブレーションされたカメラの画像からの球心の自動推定

著者:Levente Hajder, Tekla Tóth, Zoltán Pusztai
URL:http://arxiv.org/abs/2002.10217v1

この論文の概要(機械翻訳による和訳)
モダリティの異なるデバイスのキャリブレーションは、ロボットビジョンの重要な問題です。このタスクには、平面などの通常の空間オブジェクトが頻繁に使用されます。このホワイトペーパーでは、カメラ画像内の楕円の自動検出、および検出された2D楕円に対応する球体の3D位置の推定について説明します。 (i)楕円カメラ画像を検出し、(ii)サイズがわかっている場合に対応する球の空間位置を推定する2つの新しい方法を提案します。アルゴリズムは、定量的および定性的にテストされます。これらは、デジタルカメラ、深度センサー、およびLiDARデバイスを搭載した自動運転車のセンサーシステムのキャリブレーションに適用されます。

On the General Value of Evidence, and Bilingual Scene-Text Visual Question Answering

エビデンスの一般的価値、およびバイリンガルのシーンテキスト視覚的質問応答について

著者:Xinyu Wang, Yuliang Liu, Chunhua Shen, Chun Chet Ng, Canjie Luo, Lianwen Jin, Chee Seng Chan, Anton van den Hengel, Liangwei Wang
URL:http://arxiv.org/abs/2002.10215v1

この論文の概要(機械翻訳による和訳)
Visual Question Answering(VQA)メソッドは驚くべき進歩を遂げましたが、一般化に失敗しました。これは、画像コンテンツと言語で表現されたアイデアとの間の深い相関関係ではなく、データの偶然の相関関係を学習することに脆弱であるという事実に現れています。 2つの言語で表現された質問が含まれるという点でこの問題に対処するための一歩を踏み出すデータセットと、メソッドの推論能力を反映するために十分に理解された画像ベースのメトリックを採用する評価プロセスを提示します。偶然正しいです。データセットはVQA問題のシーンテキストバージョンを反映しており、推論の評価は参照表現のチャレンジのテキストベースのバージョンとして見ることができます。データセットの価値を示す実験と分析が提供されます。

Mnemonics Training: Multi-Class Incremental Learning without Forgetting

ニーモニックトレーニング:忘れることのないマルチクラスインクリメンタルラーニング

著者:Yaoyao Liu, An-An Liu, Yuting Su, Bernt Schiele, Qianru Sun
URL:http://arxiv.org/abs/2002.10211v1

この論文の概要(機械翻訳による和訳)
Multi-Class Incremental Learning(MCIL)は、以前の概念でトレーニングされたモデルを段階的に更新することにより、新しい概念を学習することを目的としています。しかし、以前の概念を忘れずに新しい概念を効果的に学習するには、固有のトレードオフがあり、潜在的に以前の概念の壊滅的な忘却につながります。この問題を軽減するために、以前の概念のいくつかの例を保持することが提案されていますが、このアプローチの有効性はこれらの例の代表性に大きく依存します。このペーパーでは、ニーモニックと呼ばれる新しい自動フレームワークを提案します。このフレームワークでは、模範をパラメータ化し、エンドツーエンドで最適化できるようにします。 2レベルの最適化、つまりモデルレベルとエグゼンプラーレベルを通じてフレームワークをトレーニングします。 3つのMCILベンチマーク、CIFAR-100、ImageNet-Subset、およびImageNetで広範な実験を実施し、ニーモニックの使用により、エクセプラが最先端を大幅に上回ることができることを示しています。興味深いことに、興味深いことに、ニーモニックの模範はクラス間の境界にある傾向があります。

Beyond Camera Motion Removing: How to Handle Outliers in Deblurring

カメラの動きの除去を超えて:ブレ除去で外れ値を処理する方法

著者:Chenwei Yang, Meng Chang, Huajun Feng, Zhihai Xu, Qi Li
URL:http://arxiv.org/abs/2002.10201v1

この論文の概要(機械翻訳による和訳)
カメラの動きのブレ除去を実行することは、より良い画像品質を達成するための重要な低レベルの視覚タスクです。シーンに飽和ピクセルや塩コショウノイズなどの外れ値がある場合、画像の復元がより困難になります。本書では、カメラの動きのぼけを行うためのエッジ認識スケールリカレントネットワーク(EASRN)を提案します。 EASRNには、複数のスケールでブラーを除去する別個のブレ除去モジュールと、異なる入力スケールを融合するアップサンプリングモジュールがあります。訓練プロセスを監視し、データセット生成の新しい方法を提案することにより、異常値の問題を解決するための顕著なエッジ検出ネットワークを提案します。鮮明な画像に明るい縞が印刷され、飽和からのカットオフ効果をシミュレートします。標準のボケ除去データセットでメソッドを評価します。客観的な評価指標と主観的な視覚化の両方は、我々の方法が他の最先端のアプローチよりも優れたボケ除去品質をもたらすことを示しています。

ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network

ABCNet:適応ベジエ曲線ネットワークによるリアルタイムシーンテキストスポッティング

著者:Yuliang Liu, Hao Chen, Chunhua Shen, Tong He, Lianwen Jin, Liangwei Wang
URL:http://arxiv.org/abs/2002.10200v1

この論文の概要(機械翻訳による和訳)
シーンテキストの検出と認識は、ますます注目を集めています。既存の方法は、文字ベースとセグメンテーションベースの2つのグループに大まかに分類できます。これらのメソッドは、文字の注釈付けにコストがかかるか、複雑なパイプラインを維持する必要がありますが、これはリアルタイムアプリケーションに適さないことがよくあります。ここでは、Adaptive Bezier-Curve Network(ABCNet)を提案することで問題に対処します。私たちの貢献は3つあります:1)初めて、パラメータ化されたベジェ曲線により、任意の形状のテキストを適応的に適合させます。 2)任意の形状のテキストインスタンスの正確な畳み込み機能を抽出するための新しいBezierAlignレイヤーを設計し、以前の方法と比較して精度を大幅に向上させます.3)標準の境界ボックス検出と比較して、ベジエ曲線検出は無視できる計算オーバーヘッドを導入し、本方法の優位性をもたらします効率と精度の両方で。任意の形状のベンチマークデータセット、つまりTotal-TextおよびCTW1500の実験は、ABCNetが最先端の精度を達成する一方で、速度を大幅に改善することを示しています。特に、Total-Textのリアルタイムバージョンは、競合する認識精度を備えた最新の最先端の方法よりも10倍以上高速です。コードはhttps://tinyurl.com/AdelaiDetで入手できます

Learning Attentive Pairwise Interaction for Fine-Grained Classification

きめの細かい分類のための注意深いペアワイズ相互作用の学習

著者:Peiqin Zhuang, Yali Wang, Yu Qiao
URL:http://arxiv.org/abs/2002.10191v1

この論文の概要(機械翻訳による和訳)
細分化された分類は、非常に混同されたカテゴリ間の微妙な違いのため、挑戦的な問題です。ほとんどのアプローチは、個々の入力画像の識別表現を学習することにより、この困難に対処します。一方、人間は、画像ペアを比較することにより、対照的な手がかりを効果的に識別することができます。この事実に着想を得て、本論文では、相互作用によってきめの細かい画像のペアを段階的に認識することができる、シンプルだが効果的な注意深いペアワイズインタラクションネットワーク(API-Net)を提案します。具体的には、API-Netはまず、相互の特徴ベクトルを学習して入力ペア。次に、この相互ベクトルを個々のベクトル内で比較して、各入力画像のゲートを生成します。これらの別個のゲートベクトルは、セマンティックの違いに関する相互のコンテキストを継承します。これにより、API-Netは、2つのイメージ間のペアワイズ相互作用によって対照的な手がかりを注意深くキャプチャすることができます。さらに、スコアランク正則化を使用してAPI-Netをエンドツーエンドでトレーニングします。これにより、機能の優先順位を考慮してAPI-Netをさらに一般化できます。粒度の細かい分類で、5つの一般的なベンチマークで広範な実験を実施しています。 API-Netは、最近のSOTAmethods、つまりCUB-200-2011(90.0%)、航空機(93.9%)、スタンフォードカーズ(95.3%)、スタンフォードドッグス(90.3%)、NABirds(88.1%)よりも優れています。

3DSSD: Point-based 3D Single Stage Object Detector

3DSSD:ポイントベースの3Dシングルステージオブジェクト検出器

著者:Zetong Yang, Yanan Sun, Shu Liu, Jiaya Jia
URL:http://arxiv.org/abs/2002.10187v1

この論文の概要(機械翻訳による和訳)
現在、多くの種類のボクセルベースの3Dシングルステージ検出器がありますが、ポイントベースのシングルステージメソッドはまだ未開拓です。このペーパーでは、最初に、3DSSDという名前の軽量で効果的なポイントベースの3Dシングルステージオブジェクト検出器を紹介し、精度と効率のバランスを取りました。このパラダイムでは、すべての既存のポイントベースの方法に不可欠なすべてのアップサンプリングレイヤーと改良段階が放棄され、大きな計算コストが削減されます。ダウンサンプリングプロセスでフュージョンサンプリング戦略を新規に提案し、代表性の低いポイントの検出を実行可能にします。候補生成層を含むデリケートなボックス予測ネットワーク、3D中心性割り当て戦略を備えたアンカーフリー回帰ヘッドは、精度と速度の需要を満たすように設計されています。当社のパラダイムは、優れた優れた単一ステージのアンカーフリーフレームワークです。他の既存の方法。広く使用されているKITTIdatasetおよびより困難なnuScenesデータセットで3DSSDを評価します。私たちの方法は、すべての最先端のボクセルベースのシングルステージメソッドよりも大きなマージンで優れており、2つのステージポイントベースのメソッドと同等のパフォーマンスを持ち、25 FPSを超える推論速度で、以前のステートの2倍高速です-アートポイントベースの方法。

HRank: Filter Pruning using High-Rank Feature Map

HRank:高ランク機能マップを使用したプルーニングのフィルター処理

著者:Mingbao Lin, Rongrong Ji, Yan Wang, Yichen Zhang, Baochang Zhang, Yonghong Tian, Ling Shao
URL:http://arxiv.org/abs/2002.10179v1

この論文の概要(機械翻訳による和訳)
ニューラルネットワークのプルーニングは、リソースに制限のあるデバイスでのディープニューラルネットワークの展開を促進する有望な見通しです。ただし、既存の方法は、非突発的なネットワークコンポーネントの理論的なガイダンスが欠落しているため、プルーニングデザインのトレーニングの非効率性と人件費の問題を抱えています。 HRankは、CNNが受け取る画像バッチの数に関係なく、単一のフィルターで生成される複数の機能マップの平均ランクが常に同じであるという発見に触発されました。 HRankに基づいて、低ランクの機能マップでフィルターを除去するために数学的に定式化された方法を開発します。プルーニングの背後にある原則は、低ランクの機能マップに含まれる情報が少ないため、プルーニングされた結果を簡単に再現できることです。さらに、一部の部分が更新されていない場合でも、モデルのパフォーマンスにほとんど影響が及ばないように、高ランクの機能マップの重みにはより重要な情報が含まれることを実験的に示しています。追加の制約を導入することなく、HRankは、FLOPとパラメーターの削減に関して、同様の精度で最新技術を大幅に改善します。たとえば、ResNet-110では、59.2%のパラメーターを削除することで58.2%-FLOPsの削減を達成し、CIFAR-10のトップ1精度でわずか0.14%の損失しかありません。 Res-50を使用すると、パラメーターの36.7%を削除することで43.8%-FLOPsの削減を達成し、ImageNetのトップ1の精度で1.17%の損失しかありません。コードは、https://github.com/lmbxmu/HRankで入手できます。

Improving STDP-based Visual Feature Learning with Whitening

ホワイトニングによるSTDPベースの視覚的特徴学習の改善

著者:Pierre Falez, Pierre Tirilly, Ioan Marius Bilasco
URL:http://arxiv.org/abs/2002.10177v1

この論文の概要(機械翻訳による和訳)
近年、スパイキングニューラルネットワーク(SNN)は、ディープニューラルネットワーク(DNN)の代替として登場しています。 SNNは、低電力ニューロモルフィックハードウェアを使用してより高い計算効率を示し、スパイクタイミング依存可塑性(STDP)などのローカルおよび教師なし学習ルールを使用したトレーニングに必要なラベル付きデータが少なくて済みます。 SNNは、MNISTなどの単純なデータセットでのイメージ分類における有効性を実証しています。ただし、自然な画像を処理するには、前処理ステップが必要です。差分ガウス(DoG)フィルタリングは、通常、オンセンター/オフセンターコーディングと併用されますが、分類パフォーマンスに有害な情報の損失をもたらします。このホワイトペーパーでは、STDPを使用して機能を学習する前に、前処理ステップとしてホワイトニングを使用することを提案します。 CIFAR-10の実験では、標準化により、DoDPフィルタリングに比べて分類性能が大幅に向上し、標準のニューラルネットワークで学習したものに近い視覚的特徴をSTDPで学習できることが示されています。また、ニューロモーフィックハードウェアに実装するのに適した学習に適したコンボリューションカーネルとしてのホワイトニングの近似を提案します。また、データセット全体でかなり安定していることを示しており、単一のホワイトニング変換を学習して異なるデータセットを処理できるようになっています。

When Relation Networks meet GANs: Relation GANs with Triplet Loss

関係ネットワークがGANに会うとき:三重項損失を伴う関係GAN

著者:Runmin Wu, Kunyao Zhang, Lijun Wang, Yue Wang, Huchuan Lu, Yizhou Yu
URL:http://arxiv.org/abs/2002.10174v1

この論文の概要(機械翻訳による和訳)
最近の研究では、生成的敵対ネットワーク(GAN)を使用してリアルな画像を生成することで著しい進歩を遂げていますが、トレーニングの安定性の欠如は、特に高解像度の入力や複雑なデータセットの場合、ほとんどのGANの長引く懸念事項です。ランダムに生成された分布は実際の分布とほとんど重複しないため、GANのトレーニングでは勾配消失の問題がしばしば発生します。重みクリッピング、勾配ペナルティ、スペクトル正規化などの経験的手法を使用して弁別器の機能を制限することにより、この問題に対処するためのいくつかのアプローチが提案されています。実際の入力サンプルと偽の入力サンプルを区別するために弁別器をトレーニングする代わりに、同じ分布からのペアのサンプルと異なる分布からのサンプルを分離するために弁別器をトレーニングすることにより、ペアのサンプル間の関係を調査します。この目的のために、識別器の関係ネットワークアーキテクチャを検討し、より良い一般化と安定性を実行するatriplet損失を設計します。ベンチマークデータセットに関する広範な実験により、提案された関係判別子と新しい損失により、無条件および条件付きの画像生成や画像変換などの可変視力タスクの大幅な改善が得られることが示されています。 / Relation-GAN}

Real-time Kinematic Ground Truth for the Oxford RobotCar Dataset

Oxford RobotCarデータセットのリアルタイムキネマティックグラウンドトゥルース

著者:Will Maddern, Geoffrey Pascoe, Matthew Gadd, Dan Barnes, Brian Yeomans, Paul Newman
URL:http://arxiv.org/abs/2002.10152v1

この論文の概要(機械翻訳による和訳)
大規模なOxford RobotCarDatasetに基づいた、困難な長期的なローカリゼーションとマッピングのベンチマークに向けた参照データのリリースについて説明します。このリリースには、すべての照明、天候、交通状況で収集された英国オックスフォードを通るルートの72のトラバースが含まれ、自律走行車が確実に動作することが期待される状況の代表例です。基地局の記録では、データセットの1年間の全体にわたって、世界的に一貫したセンチメートル精度の正確な真実を作成しました。計画されたオンラインベンチマークサービスと相まって、天候の変化に直面する都市環境の道路車両の長期的な自律性に焦点を当てた、さまざまなローカリゼーションおよびマッピングアプローチの定量的評価および比較を可能にしたいと考えています。

Audio-driven Talking Face Video Generation with Natural Head Pose

ナチュラルヘッドポーズを使用した音声駆動のトーキングフェイスビデオの生成

著者:Ran Yi, Zipeng Ye, Juyong Zhang, Hujun Bao, Yong-Jin Liu
URL:http://arxiv.org/abs/2002.10137v1

この論文の概要(機械翻訳による和訳)
現実世界の話し顔は、しばしば自然な頭の動きを伴います。しかし、ほとんどの既存の話し顔のビデオ生成方法は、固定された頭のポーズでの顔のアニメーションのみを考慮しています。本論文では、ソースパーソンのオーディオ信号Aとターゲットパーソンの非常に短いビデオVを入力とし、合成された高品質な自然な頭のポーズの会話顔ビデオを出力するディープニューラルネットワークモデルを提案することにより、この問題に対処します( V)の視覚情報、表情と唇の同期を利用する(AとVの両方を考慮して)。私たちの仕事で最も難しい問題は、自然なポーズがしばしば面内および面外の頭の回転を引き起こし、合成された話し顔のビデオが現実的とはほど遠いことです。この課題に対処するために、3D顔アニメーションを再構築し、合成フレームに再レンダリングします。これらのフレームをスムーズなバックグラウンド遷移でリアルなフレームに微調整するために、新しいメモリ拡張GANモジュールを提案します。広範な実験と3人のユーザーの研究により、本手法が高品質(つまり、自然な頭の動き、表情、良好な唇の同期)のパーソナライズされた会話用フェイスビデオを生成し、最先端の手法よりも優れていることが示されています。

Semantic Flow for Fast and Accurate Scene Parsing

高速で正確なシーン解析のためのセマンティックフロー

著者:Xiangtai Li, Ansheng You, Zhen Zhu, Houlong Zhao, Maoke Yang, Kuiyuan Yang, Yunhai Tong
URL:http://arxiv.org/abs/2002.10120v1

この論文の概要(機械翻訳による和訳)
このペーパーでは、高速で正確なシーン解析のための効果的な方法に焦点を当てています。パフォーマンスを改善する一般的な方法は、強力なセマンティック表現で高解像度の機能マップを実現することです。 2つの戦略が広く使用されています—アストロスコンボリューションと機能ピラミッドフュージョンは、計算集約的または非効率的です。隣接するビデオフレーム間のmotionalignmentのオプティカルフローに触発され、隣接するレベルの機能マップとブロードキャストの高レベル機能から高解像度機能へのセマンティックフローを効果的かつ効率的に学習するFlow Alignment Module(FAM)を提案します。さらに、モジュールを共通の機能ピラミッド構造に統合すると、ResNet-18などの非常に軽量なバックボーンネットワークでも、他のリアルタイムメソッドよりも優れたパフォーマンスを発揮します。 Cityscapes、PASCALContext、ADE20K、CamVidなど、いくつかの挑戦的なデータセットで広範な実験が行われています。特に、私たちのネットワークは、26 FPSのフレームレートでCityscapesで80.4 %mIoUを達成した最初の企業です。コードは url {https://github.com/donnyyou/torchcv}で入手できます。

DeepSign: Deep On-Line Signature Verification

DeepSign:深いオンライン署名検証

著者:Ruben Tolosana, Ruben Vera-Rodriguez, Julian Fierrez, Javier Ortega-Garcia
URL:http://arxiv.org/abs/2002.10119v1

この論文の概要(機械翻訳による和訳)
ディープラーニングは、過去数年で息をのむようなテクノロジーになり、従来の手作りのアプローチや、さまざまなタスクのための人間さえも克服しました。ただし、手書き署名の検証などの一部のタスクでは、公開されているデータの量が不足しているため、ディープラーニングの実際の制限をテストすることは困難です。公的データの不足に加えて、異なるデータベースと実験プロトコルが通常考慮されるため、新規に提案されたアプローチの改善を評価することは容易ではありません。この研究の主な貢献は次のとおりです。i)オンライン署名検証のための最先端の深層学習アプローチの詳細な分析を提供し、ii)新しいDeepSignDBオンライン手書き署名バイオメトリックパブリックデータベースを提示して説明します。 iii)新しいアプローチと最新技術の公平な比較を実行するために、研究コミュニティに使用される標準的な実験プロトコルとベンチマークを提案し、iv)Time-Aligned Recurrent Neural Networks( TA-RNN)オンライン手書き署名検証のタスク。このアプローチは、動的タイムワーピングとリカレントニューラルネットワークの可能性を組み合わせて、偽造に対するより堅牢なシステムをトレーニングします。提案されたTA-RNNシステムは、最新のパフォーマンスよりも優れており、熟練した偽造詐欺師とユーザーごとに1つのトレーニングシグネチャのみを考慮した場合、EERが2.0%未満です。

SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation

SMOKE:キーポイント推定による単段単眼3Dオブジェクト検出

著者:Zechen Liu, Zizhang Wu, Roland Tóth
URL:http://arxiv.org/abs/2002.10111v1

この論文の概要(機械翻訳による和訳)
インフラストラクチャのない自律的なナビゲーションと運転には、オブジェクトの3D方向と移動の推定が不可欠です。単眼視の場合、成功する方法は主に2つの要素に基づいています:(i)2D領域提案を生成するネットワーク、(ii)取得した関心領域を利用して3Dオブジェクトポーズを予測するR-CNN構造。 2Ddetectionネットワークは冗長であり、3Ddetectionに無視できないノイズを導入すると主張します。したがって、本稿では、単一のキーポイント推定値と回帰3D変数を組み合わせることにより、検出された各オブジェクトの3Dバウンディングボックスを予測するSMOKEという名前の新しい3Dオブジェクト検出方法を提案します。 2番目の寄与として、3Dバウンディングボックスを構築するための多段階解きほぐしアプローチを提案します。これにより、トレーニングの収束と検出の精度の両方が大幅に向上します。以前の3D検出技術とは対照的に、この方法では、複雑な前処理/後処理、追加のデータ、および改良段階を必要としません。構造が単純であるにもかかわらず、提案されたSMOKEネットワークは、KITTIデータセットの既存のすべての単眼3D検出方法よりも優れており、3Dオブジェクト検出と鳥瞰図評価の両方で最高の最先端の結果を提供します。コードは公開されます。

Communication Contention Aware Scheduling of Multiple Deep Learning Training Jobs

複数のディープラーニングトレーニングジョブの通信競合を考慮したスケジューリング

著者:Qiang Wang, Shaohuai Shi, Canhui Wang, Xiaowen Chu
URL:http://arxiv.org/abs/2002.10105v1

この論文の概要(機械翻訳による和訳)
分散ディープラーニング(DDL)は、高性能GPUクラスターでのトレーニングパフォーマンスの向上に役立つため、その人気が急速に高まっています。複数のジョブを同時にトレーニングする場合、クラスターの全体的なパフォーマンスを最大化するには、効率的なジョブスケジューリングが不可欠です。ただし、既存のスケジューラは、異なる分散トレーニングジョブからの複数の通信タスクの通信競合を考慮していないため、システムのパフォーマンスが低下し、ジョブの完了時間が長くなる可能性があります。このペーパーでは、DDLジョブを有向非巡回グラフ(DAG)として編成し、ノード間の通信の競合を考慮する新しいDDLジョブスケジューリングフレームワークを最初に確立します。その後、効率的なアルゴリズムLWF-$ kappa $を提案して、GPU使用率のバランスを取り、各ジョブに割り当てられたGPUを統合します。ジョブ完了時間。したがって、これらの通信タスクを効率的にスケジュールするために、証明可能なアルゴリズムであるAdaDUALを提案します。 AdaDUALに基づいて、最終的にDDLジョブスケジューリング問題に対するAda-SRSFを提案します。 10 Gbpsイーサネットで接続された64 GPUクラスターのシミュレーションは、LWF-$ kappa $が従来の最初の適合アルゴリズムよりも最大$ 1.59 times $の改善を達成することを示しています。さらに重要なことに、Ada-SRSFは、SRSF(1)スキーム(すべての競合を回避する)およびSRSF(2)スキーム(2つすべてを盲目的に受け入れる)と比較して、平均ジョブ完了時間を$ 20.1 %$および$ 36.7 %$短縮します。方法通信の競合)それぞれ。

GANHopper: Multi-Hop GAN for Unsupervised Image-to-Image Translation

GANHopper:教師なしの画像から画像への変換のためのマルチホップGAN

著者:Wallace Lira, Johannes Merz, Daniel Ritchie, Daniel Cohen-Or, Hao Zhang
URL:http://arxiv.org/abs/2002.10102v1

この論文の概要(機械翻訳による和訳)
複数のホップを介して2つのドメイン間で画像を徐々に変換する、監視されていない画像から画像への変換ネットワークであるGANHOPPERを導入​​します。 2つの入力ドメイン。私たちのネットワークは、2つのドメインからのペアになっていない画像のみでトレーニングされ、中間の画像はありません。すべての方向は、各方向に沿って単一のジェネレーターを使用して生成されます。標準のサイクル整合性と敵対的損失に加えて、ジェネレーターによって生成された中間画像を重み付きハイブリッドとして分類するようにトレーニングされた、新しいハイブリッド識別器を導入します。また、各ホップの大きさを制限するために滑らかさの用語を導入し、さらに翻訳を正規化します。従来の方法と比較して、GANHOPPERは、背景や一般的な配色などの非ドメイン固有の機能を保持しながら、ドメイン固有の画像機能と幾何学的なバリエーションを含む画像変換に優れています。

LeafGAN: An Effective Data Augmentation Method for Practical Plant Disease Diagnosis

LeafGAN:実用的な植物病害診断のための効果的なデータ増強方法

著者:Quan Huu Cap, Hiroyuki Uga, Satoshi Kagiwada, Hitoshi Iyatomi
URL:http://arxiv.org/abs/2002.10100v1

この論文の概要(機械翻訳による和訳)
植物の病気の自動診断のための多くのアプリケーションは、深層学習技術の成功に基づいて開発されてきました。ただし、これらのアプリケーションはしばしばオーバーフィッティングに悩まされ、新しい環境のテストデータセットで使用すると診断パフォーマンスが劇的に低下します。これの典型的な理由は、検出される症状が不明確であり、データの多様性に関連する制限があることです。この論文では、LeafGAN、独自の注意メカニズムを備えた新しい画像から画像への翻訳システムを提案します。 LeafGANは、植物の病気の診断のパフォーマンスを向上させるためのデータ増強ツールとして、健康な画像からの変換を介して、さまざまな病気の画像を生成します。独自の注意メカニズムのおかげで、このモデルは背景のさまざまな画像から関連領域のみを変換できるため、トレーニング画像の汎用性が向上します。すなわち病気の診断性能はベースラインからわずか0.7%増加しましたが、LeafGANは診断性能を7.4%向上させました。また、LeafGANによって生成された画像は、バニラCycleGANによって生成された画像よりも品質が高く、説得力があることを視覚的に確認しました。

Implicit Geometric Regularization for Learning Shapes

形状を学習するための暗黙的な幾何学的正則化

著者:Amos Gropp, Lior Yariv, Niv Haim, Matan Atzmon, Yaron Lipman
URL:http://arxiv.org/abs/2002.10099v1

この論文の概要(機械翻訳による和訳)
形状をニューラルネットワークのレベルセットとして表現することは、さまざまな形状分析および再構築タスクに役立つことが最近証明されました。これまで、このような表現は次のいずれかを使用して計算されました。または(ii)ニューロレベルセットで明示的に定義された損失関数。この論文では、生データ(つまり、通常の情報の有無にかかわらずポイントクラウド)から高忠実度の暗黙の神経表現を直接計算するための新しいパラダイムを提供します。ニューラルネットワークが入力ポイントクラウド上で消滅し、単位ノルムの勾配を持つようにするかなり単純な損失関数は、滑らかで自然なゼロレベルセットサーフェスに有利な暗黙の幾何学的正則化プロパティを持ち、不良ゼロ損失ソリューションを回避することがわかります。線形の場合のこの特性の理論的分析を提供し、実際には、我々の方法が、以前の方法と比較して、より高い詳細レベルと忠実度を備えた人工的な神経表現の状態につながることを示します。

Utilizing a null class to restrict decision spaces and defend against neural network adversarial attacks

nullクラスを使用して決定スペースを制限し、ニューラルネットワークの敵対攻撃を防御する

著者:Matthew J. Roos
URL:http://arxiv.org/abs/2002.10084v1

この論文の概要(機械翻訳による和訳)
最近の進歩にもかかわらず、一般にディープニューラルネットワークは、いわゆる敵対的な例(人間の視聴者にとって意味的な意味にそのような変化がないにもかかわらず、出力分類に変化をもたらす可能性のある小さな摂動を伴う入力画像)に対して脆弱です。これは、MNIST数字分類タスクなどの、一見単純な課題でも当てはまります。部分的に、これは、これらのネットワークが、人間がこれらの分類を行うために使用するのと同じ一連のオブジェクト機能に依存していないことを示唆しています。この論文では、この現象の背後にある追加の、大部分は未調査の原因、つまり、入力クラス全体がトレーニングクラスに分割されている従来のトレーニングパラダイムの使用を調べます。このパラダイムにより、個々のクラスの学習された決定空間は、入力空間の非常に大きな領域に広がり、トレーニングセットの画像と意味的な類似性を持たない画像が含まれます。この研究では、anullクラスを含むモデルをトレーニングします。つまり、モデルは、入力画像を数字クラスの1つとして分類することを「オプトアウト」する場合があります。トレーニング中に、数字クラスのより厳密で意味的に意味のある決定空間を作成しようとして、さまざまな方法でヌル画像が作成されます。最高の性能を発揮するモデルは、敵の例のほとんどすべてをヌルとして分類します。テーマを誤った数字クラスのメンバーと間違えるのではなく、同時に摂動のないテストセットで高い精度を維持します。本書で提示するヌルクラスとトレーニングパラダイムの使用は、一部のアプリケーションに対して敵対攻撃に対する効果的な防御を提供する場合があります。この調査を再現するためのコードは、https://github.com/mattroos/null_class_adversarial_defenseで入手できます。

Generalized Octave Convolutions for Learned Multi-Frequency Image Compression

学習した多周波数画像圧縮のための一般化されたオクターブ畳み込み

著者:Mohammad Akbari, Jie Liang, Jingning Han, Chengjie Tu
URL:http://arxiv.org/abs/2002.10032v1

この論文の概要(機械翻訳による和訳)
学習した画像圧縮は最近、すべての標準コーデックよりも優れている可能性を示しています。最先端のレート歪み性能は、潜在的表現の空間依存性を効果的にキャプチャするために、超優先モデルと自己回帰モデルを共同で利用するコンテキスト適応型エントロピーアプローチによって達成されました。しかし、潜像には高周波数と低周波数の情報が混在しており、これは以前の研究では同じ空間解像度の特徴マップでは非効率的に表現されていました。 thelatentsを高周波数と低周波数に分解します。低周波数はより低い解像度で表されるため、それらの空間的冗長性が低減され、圧縮率が向上します。さらに、オクターブ畳み込みにより、効果的な高周波数および低周波数の通信が行われ、再構築の品質が向上します。また、情報の空間構造を保存するために、内部活性化層を備えた新しい一般化オクターブ畳み込みおよびオクターブ転置畳み込みアーキテクチャを開発します。私たちの実験は、提案された方式がPSNRとMS-SSIMmetricsの両方ですべての標準コーデックと学習ベースの方法より優れていることを示し、学習した画像圧縮の最新技術を確立します。

Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by Enabling Input-Adaptive Inference

トリプルウィン:入力適応型推論を可能にすることにより、精度、堅牢性、効率性を同時に向上

著者:Ting-Kuei Hu, Tianlong Chen, Haotao Wang, Zhangyang Wang
URL:http://arxiv.org/abs/2002.10025v1

この論文の概要(機械翻訳による和訳)
ディープネットワークは、精度(クリーンな自然画像)と堅牢性(敵の摂動画像)の間の対立に直面することが最近提案されました(Tsipras et al。、2019)。このようなジレンマは、高精度で堅牢な分類器を学習するために、本質的にサンプルの複雑さ(Schmidt et al。、2018)および/またはモデル容量(Nakkiran、2019)に根ざしていることが示されています。そのため、分類タスクを与えると、モデルの容量を増やすと、モデルのサイズと遅延が犠牲になりますが、精度と堅牢性の両方にメリットがあり、リソースに制約のあるアプリケーションに課題が生じます。モデルの精度、堅牢性、効率性を共同設計して、トリプルウィンを達成することは可能ですか?この論文では、入力適応型の効率的な推論に関連する複数出口ネットワークを研究し、モデルの精度、堅牢性、効率を最適化する際の「スイートポイント」を達成する強力な約束を示します。提案されたソリューションは、ロバスト動的推論ネットワーク(RDI-Nets)と呼ばれ、各入力(クリーンまたは敵対)が複数の出力レイヤー(初期ブランチまたは最終レイヤー)のいずれかを適応的に選択して、その予測を出力できるようにします。そのマルチロス適応性は、敵の攻撃と防御に新しいバリエーションと柔軟性を追加します。既存のバックボーンにこのようなロバストな適応推論を装備することにより、結果として得られるRDI-Netsは、防御された元のモデルと比較して、30%以上の計算節約により、より高い精度とロバストネスを実現できることを実験的に示します。

Deep Multimodal Image-Text Embeddings for Automatic Cross-Media Retrieval

自動クロスメディア検索のためのディープマルチモーダル画像テキスト埋め込み

著者:Hadi Abdi Khojasteh, Ebrahim Ansari, Parvin Razzaghi, Akbar Karimi
URL:http://arxiv.org/abs/2002.10016v1

この論文の概要(機械翻訳による和訳)
この論文では、クロスモーダル検索のための視覚テキスト埋め込みスペースを学習することにより、画像と文章をマッチングするタスクを検討します。テキストと画像の特徴と表現は比較できないため、このようなスペースを見つけることは困難な作業です。この作業では、視覚と言語表現の両方を同時に学習して画像とテキストの類似性を推測するための、エンドツーエンドの深層マルチモーダル畳み込みリカレントネットワークを導入します。モデルは、ヒンジベースのトリプレットランキングを使用して、どのペアが一致(正)で、どのペアが不一致(負)であるかを学習します。共同表現について学ぶために、Twitterから新しく抽出されたツイートのコレクションを活用します。データセットの主な特徴は、画像やツイートがベンチマークと同じように標準化されていないことです。さらに、説明がきちんと構成されているベンチマークとは反対に、写真とツイートの間に高いセマンティック相関がある場合があります。 MS-COCObenchmarkデータセットの実験結果は、このモデルが以前に提示された特定の方法よりも優れており、最新技術と比較して競争力のあるパフォーマンスを持っていることを示しています。コードとデータセットは一般に公開されています。

NeurIPS 2019 Disentanglement Challenge: Improved Disentanglement through Aggregated Convolutional Feature Maps

NeurIPS 2019解きほぐしチャレンジ:集約畳み込み機能マップによる解きほぐしの改善

著者:Maximilian Seitzer
URL:http://arxiv.org/abs/2002.10003v1

この論文の概要(機械翻訳による和訳)
NeurIPS 2019の解きほぐしチャレンジへのステージ1提出に対するこのレポートは、画像を直接使用する場合と比較して解きほぐしの改善につながるVAEをトレーニングするための簡単な画像前処理方法を示しています。特に、ImageNetで事前トレーニングされたCNNから抽出された、地域的に集約された機能マップを使用することを提案します。この方法は、チャレンジのステージ1で2位になりました。コードはhttps://github.com/mseitzer/neurips2019-disentanglement-challengeで入手できます。

Gradual Channel Pruning while Training using Feature Relevance Scores for Convolutional Neural Networks

畳み込みニューラルネットワークの特徴関連性スコアを使用したトレーニング中の段階的なチャネルプルーニング

著者:Sai Aparna Aketi, Sourjya Roy, Anand Raghunathan, Kaushik Roy
URL:http://arxiv.org/abs/2002.09958v1

この論文の概要(機械翻訳による和訳)
ディープニューラルネットワークの膨大な推論コストは、ネットワーク圧縮によって縮小できます。プルーニングは、ディープネットワーク圧縮に使用される主要なアプローチの1つです。ただし、既存のプルーニングテクニックには、次の1つ以上の制限があります。1)プルーニングおよび微調整ステージによる計算量の多いトレーニングステージの追加のエネルギーコスト、2)特定の統計に基づいたレイヤーごとのプルーニング、効果を無視ネットワーク内のエラー伝播の原因、3)重要なチャネルをグローバルに決定するための効率的な推定の欠如、4)非構造化プルーニングには、効果的な使用のための特殊なハードウェアが必要です。上記のすべての問題に対処するために、機能関連スコアと呼ばれる新しいデータ駆動型メトリックを使用した方法論のトレーニング中に、シンプルで効果的な段階的なチャネルプルーニングを提示します。提案された技術は、実際のトレーニング段階中に固定された間隔で構造化された方法で最も重要でないチャネルをプルーニングすることにより、追加の再トレーニングサイクルを取り除きます。機能関連性スコアは、ネットワークの識別力に対する各チャネルの寄与を効率的に評価するのに役立ちます。CIFAR-10、CIFAR-100、ImageNetなどのデータセットを使用して、VGGやResNetなどのアーキテクチャで提案された方法論の有効性を実証し、 $ 1 %$未満の精度でトレードオフしながら大幅なモデル圧縮。特に、ResNet-110でトレーニングされたCIFAR-10データセットでは、プルーニングされていないネットワークに比べて精度が$ 0.01 %$低下し、FLOPの$ 2.4 times $圧縮と$ 56 %$削減を実現します。

Multi-Stream Networks and Ground-Truth Generation for Crowd Counting

クラウドカウントのためのマルチストリームネットワークと根拠のある生成

著者:Rodolfo Quispe, Darwin Ttito, Adín Rivera, Helio Pedrini
URL:http://arxiv.org/abs/2002.09951v1

この論文の概要(機械翻訳による和訳)
群衆のシーン分析は、たとえば、科学捜査、都市計画、監視、セキュリティなど、さまざまなアプリケーションのために最近多くの注目を集めています。これに関連して、困難なタスクはクラウドカウントと呼ばれ、その主な目的は単一の画像に存在する人数を推定することです。この作業では、マルチストリーム畳み込みニューラルネットワークが開発および評価されます。このネットワークでは、入力として画像を受け取り、エンドツーエンドの方法で人々の空間分布を表す密度マップを生成します。極端に制約のないスケールや視点の変更など、複雑なクラウドカウントの問題に対処するために、ネットワークアーキテクチャは、ストリームごとに異なるサイズのフィルターを持つ受容フィールドを利用します。さらに、2つの最も一般的なファッションがグラウンドトゥルースの生成に与える影響を調査し、小さな顔の検出とスケール補間に基づくハイブリッド手法を提案します。 2つの挑戦的なデータセット、UCF-CC-50とShanghaiTechで行われた実験は、グラウンドトゥルース生成方法を使用すると優れた結果が得られることを示しています。

Monocular Direct Sparse Localization in a Prior 3D Surfel Map

以前の3D Surfelマップでの単眼直接スパースローカリゼーション

著者:Haoyang Ye, Huaiyang Huang, Ming Liu
URL:http://arxiv.org/abs/2002.09923v1

この論文の概要(機械翻訳による和訳)
この論文では、以前のサーフェルマップで単眼カメラのポーズを追跡するアプローチを紹介します。前のサーフェルマップから頂点および法線マップをレンダリングすることにより、画像フレーム内の疎追跡点のグローバル平面情報が取得されます。グローバルプラナー情報がある場合とない場合の追跡ポイントには、システムに対するフレームのグローバル制約とローカル制約の両方が含まれます。このアプローチでは、すべての制約をフレームのローカルウィンドウ内の直接測光誤差の形式で定式化します。最終的な最適化では、これらの制約を利用して、絶対スケールでグローバル6-DoFcameraポーズを正確に推定します。広範なシミュレーションと実世界の実験は、単眼法がさまざまな条件下で正確なカメラ位置確認結果を提供できることを示しています。

Exploring Spatial-Temporal Multi-Frequency Analysis for High-Fidelity and Temporal-Consistency Video Prediction

高忠実度および時間一貫性のビデオ予測のための時空間多重周波数分析の調査

著者:Beibei Jin, Yu Hu, Qiankun Tang, Jingyu Niu, Zhiping Shi, Yinhe Han, Xiaowei Li
URL:http://arxiv.org/abs/2002.09905v1

この論文の概要(機械翻訳による和訳)
ビデオ予測は、過去のフレームに基づいて将来のフレームを推測するピクセル単位の高密度予測タスクです。外観の詳細の欠落とモーションブラーは、現在の予測モデルの2つの主要な問題であり、画像の歪みと一時的な不整合をもたらします。この論文では、2つの問題に対処するために多周波解析を検討する必要性を指摘します。ヒューマンビジョンシステム(HVS)の周波数帯域分解特性に触発され、マルチレベルウェーブレット解析に基づくビデオ予測ネットワークを提案し、空間的および時間的情報を統一的に扱います。具体的には、マルチレベル空間離散ウェーブレット変換は、各ビデオフレームを複数の周波数を持つ異方性サブバンドに分解し、構造情報を充実させ、詳細を確保します。一方、時間軸で動作するマルチレベルテンポラル離散ウェーブレット変換は、フレームシーケンスを異なる周波数のサブバンドグループに分解し、固定フレームレートでのマルチ周波数モーションを正確にキャプチャします。多様なデータセットでの広範な実験により、このモデルが最先端の作品よりも忠実度と時間的一貫性を大幅に改善することが示されています。

DotFAN: A Domain-transferred Face Augmentation Network for Pose and Illumination Invariant Face Recognition

DotFAN:ポーズおよび照明不変の顔認識のためのドメイン転送顔増強ネットワーク

著者:Hao-Chiang Shao, Kang-Yu Liu, Chia-Wen Lin, Jiwen Lu
URL:http://arxiv.org/abs/2002.09859v1

この論文の概要(機械翻訳による和訳)
畳み込みニューラルネットワーク(CNN)ベースの顔認識モデルのパフォーマンスは、ラベル付きトレーニングデータの豊富さに大きく依存しますが、異なるポーズや照明の変化の下で顔のアイデンティティの大きなバリエーションを含むトレーニングセットを収集することは、非常に高価であり、 -クラスの顔は実際には重大な問題をイメージします。この論文では、他のドメインから収集された既存のリッチフェイスデータセットから抽出された知識に基づいて、入力フェイスの一連のバリアントを生成できる3Dモデル支援ドメイン転送フェイス拡張ネットワーク(DotFAN)を提案します。 DotFANは構造的に条件付きCycleGANですが、潜在的なコード制御のために、2つの追加のサブネットワーク、つまり、Face Expert Network(FEM)とFace ShapeRegressor(FSR)があります。 FSRは顔の属性を抽出することを目的としていますが、FEMは顔のアイデンティティをキャプチャするように設計されています。 DotFANは、その助けを借りて、ほぐされた顔の表現を学習し、拡張顔のアイデンティティを保持しながら、さまざまな顔の属性の顔画像を効果的に生成できます。実験では、DotFANが小さなfacedatasetを増強してクラス内の多様性を改善し、増強されたデータセットからより良い顔認識モデルを学習できるようになることが示されています。

Unsupervised Denoising for Satellite Imagery using Wavelet Subband CycleGAN

ウェーブレットサブバンドCycleGANを使用した衛星画像の教師なしノイズ除去

著者:Joonyoung Song, Jae-Heon Jeong, Dae-Soon Park, Hyun-Ho Kim, Doo-Chun Seo, Jong Chul Ye
URL:http://arxiv.org/abs/2002.09847v1

この論文の概要(機械翻訳による和訳)
マルチスペクトル衛星画像センサーは、赤(R)、緑(G)、青(B)、近赤外線(N)などのさまざまなスペクトルバンド画像を取得します。それぞれのスペクトルバンドの固有の分光特性により、地上のマルチスペクトル衛星画像は、さまざまな地質調査アプリケーションに使用できます。残念ながら、イメージングセンサーノイズからの画像アーチファクトは、シーンの品質に影響を与えることが多く、衛星画像のアプリケーションに悪影響を及ぼします。最近、衛星画像のノイズを除去するために、ディープラーニングのアプローチが広く検討されています。しかし、ほとんどの深層学習ノイズ除去方法は、教師あり学習スキームに従います。これは、実際の状況では収集が困難な、ノイズの多い画像ときれいな画像のペアを一致させる必要があります。本論文では、ウェーブレットサブバンドサイクル一貫性のある敵対ネットワーク(WavCycleGAN)を使用した衛星画像の新しい教師なしマルチスペクトルノイズ除去方法を提案します。提案された方法は、対になったデータの欠如を克服するために、敵対的損失とサイクル一貫性損失を使用する教師なし学習スキームに基づいています。さらに、標準の画像ドメインcycleGANとは対照的に、エッジや詳細情報などの高周波成分を犠牲にすることなく効果的なノイズ除去を行うウェーブレットサブバンドドメイン学習スキームを導入します。衛星画像センサーでの縦縞と波ノイズの除去に関する実験結果は、提案された方法が効果的にノイズを除去し、衛星画像の重要な高周波特徴を保存することを示しています。

Practical and Bilateral Privacy-preserving Federated Learning

実用的かつ双方向のプライバシー保護連合学習

著者:Yan Feng, Xue Yang, Weijun Fang, Shu-Tao Xia, Xiaohu Tang
URL:http://arxiv.org/abs/2002.09843v1

この論文の概要(機械翻訳による和訳)
フェデレーション学習は、生データを収集せずにニューラルネットワークの新しい分散トレーニングモデルとして注目を集めていますが、フェデレーション学習のほとんどすべての既存の研究は、クライアントのプライバシーの保護のみを考慮しており、モデルの反復と最終モデルのパラメーターが信頼できないクライアントに漏れることを防止していませんおよび外部の攻撃者。このホワイトペーパーでは、クライアントの生のトレーニングデータだけでなく、トレーニングフェーズ中のモデル反復と最終モデルパラメータも保護する、最初の双方向プライバシー保護連合学習スキームを紹介します。具体的には、グローバルモデルをマスクまたは暗号化するための効率的なプライバシー保護手法を提示します。これにより、クライアントはノイズの多いグローバルモデルをトレーニングできるだけでなく、サーバーのみが正確な更新モデルを取得できるようになります。詳細なセキュリティ分析は、クライアントがモデルの反復にも最終的なグローバルモデルにもアクセスできないことを示しています。一方、サーバーは、正確に更新されたモデルを回復するために使用される追加情報からクライアントの生のトレーニングデータを取得することはできません。最後に、大規模な実験により、提案された方式は、余分な通信オーバーヘッドをもたらすことなく、従来の連合学習と同等のモデル精度を備えていることが実証されています。

Assembling Semantically-Disentangled Representations for Predictive-Generative Models via Adaptation from Synthetic Domain

合成ドメインからの適応を介した予測生成モデルのための意味的に解きほぐされた表現の組み立て

著者:Burkay Donderici, Caleb New, Chenliang Xu
URL:http://arxiv.org/abs/2002.09818v1

この論文の概要(機械翻訳による和訳)
ディープニューラルネットワークは、入力データの高レベルの階層表現を形成できます。さまざまな研究者が、これらの表現を使用してさまざまな有用なアプリケーションを実現できることを実証しています。ただし、このような表現は通常、データ内の統計に基づいており、アプリケーションが必要とする可能性のあるセマンティック表現に適合しない場合があります。通常、条件モデルはこの課題を克服するために使用されますが、作成するのが難しく費用がかかる大きな注釈付きデータセットが必要です。この論文では、物理ベースのエンジンの助けを借りて、意味的に整合した表現を代わりに生成できることを示します。これは、分離された属性を持つ合成データセットを作成し、合成データセットのエンコーダーを学習し、合成ドメインからの規定の属性を実ドメインからの属性で増強することにより達成されます。提案された(SYNTH-VAE-GAN)メソッドは、実際のデータラベルに依存することなく、人間の顔の属性の条件付き予測生成モデルを構築できることが示されています。

Neuron Shapley: Discovering the Responsible Neurons

ニューロンシャプリー:責任あるニューロンの発見

著者:Amirata Ghorbani, James Zou
URL:http://arxiv.org/abs/2002.09815v1

この論文の概要(機械翻訳による和訳)
ディープネットワークの予測とパフォーマンスに対する個々のニューロンの寄与を定量化する新しいフレームワークとしてNeuron Shapleyを開発します。ニューロン間の相互作用を考慮することで、Neuron Shapleyは、アクティベーションパターンに基づく一般的なアプローチと比較して、重要なフィルターをより効果的に識別します。興味深いことに、最高のShapleyscoresを持つ30個のフィルターのみを削除すると、InImage-v3 onImageNetの予測精度が事実上破壊されます。これらのいくつかの重要なフィルターを視覚化することにより、ネットワークの機能に関する洞察が得られます。 Neuron Shapleyは柔軟なフレームワークであり、多くのタスクで責任あるニューロンを識別するために適用できます。顔認識における偏った予測の原因となるフィルターや、敵の攻撃に対して脆弱なフィルターを識別する追加のアプリケーションを示します。これらのフィルターを削除すると、モデルをすばやく修復できます。これらすべてのアプリケーションを有効にすることは、Neuron Shapley値を効率的に推定するために開発した新しいマルチアームバンディットアルゴリズムです。

Random Bundle: Brain Metastases Segmentation Ensembling through Annotation Randomization

ランダムバンドル:アノテーションランダム化による脳転移セグメンテーションの組み立て

著者:Darvin Yi, Endre Gøvik, Michael Iv, Elizabeth Tong, Greg Zaharchuk, Daniel Rubin
URL:http://arxiv.org/abs/2002.09809v1

この論文の概要(機械翻訳による和訳)
脳転移のセグメンテーションのパフォーマンスを向上させる、新しいアンサンブル方法であるランダムバンドル(RB)を紹介します。注釈付き病変の50%を打ち切り、データセット上の各ネットワークをトレーニングすることにより、アンサンブルを作成します。また、一方的なブートストラップ損失を適用して、インシリコの50%の偽陰性率を誘導した後のパフォーマンスを回復し、ネットワークの感度を高めます。病変のmAP値のネットワーク検出を39%向上させ、80%の精度で感度を3倍以上向上させます。また、DICEスコアによりセグメンテーションの質がわずかに改善されています。さらに、RBアンサンブルは、さまざまな一般的なアンサンブル戦略よりも大きなマージンでベースラインを超えるパフォーマンスを向上させます。最後に、両方のシステムが同じ計算を持つように制約されている場合に、RBの組み合わせがそのパフォーマンスを単一のネットワークと比較することにより、計算効率が高いことを示します。

Reliable Fidelity and Diversity Metrics for Generative Models

生成モデルの信頼性の高い忠実度および多様性メトリック

著者:Muhammad Ferjad Naeem, Seong Joon Oh, Youngjung Uh, Yunjey Choi, Jaejun Yoo
URL:http://arxiv.org/abs/2002.09797v1

この論文の概要(機械翻訳による和訳)
画像生成タスクの指標評価指標を考案することは、未解決の問題のままです。実画像と生成画像の類似性を測定するために最も広く使用されているメトリックは、Fr ‘echet Inception Distance(FID)スコアです。生成された画像の忠実度と多様性の側面を区別しないため、最近の論文では、これらの特性を個別に診断するための精度と再現性の指標のバリエーションを導入しています。このペーパーでは、最新バージョンの精度およびリコールメトリックでさえ、まだ信頼できないことを示しています。たとえば、2つの同一の分布間の一致を検出できず、外れ値に対してロバストではなく、評価ハイパーパラメーターが任意に選択されます。上記の問題を解決する密度とカバレッジの指標を提案します。密度とカバレッジは、既存のメトリックよりも解釈可能で信頼性の高い信号を開業医に提供することを分析的および実験的に示しています。コード:https://github.com/clovaai/generative-evaluation-prdc

VisionGuard: Runtime Detection of Adversarial Inputs to Perception Systems

VisionGuard:知覚システムへの敵入力のランタイム検出

著者:Yiannis Kantaros, Taylor Carpenter, Sangdon Park, Radoslav Ivanov, Sooyong Jang, Insup Lee, James Weimer
URL:http://arxiv.org/abs/2002.09792v1

この論文の概要(機械翻訳による和訳)
ディープニューラルネットワーク(DNN)モデルは、敵対攻撃に対して脆弱であることが証明されています。この論文では、VisionGuardを提案します。これは、DNNベースの知覚システムへの敵対的入力のための、新しい攻撃およびデータセットに依存しない、計算上の軽い防御メカニズムです。特に、VisionGuardは、敵対的な画像が非可逆圧縮変換に敏感であるという観察に依存しています。具体的には、画像が敵であるかどうかを判断するために、VisionGuardは、調査中の画像の変換バージョンを供給した後、特定の入力画像のターゲット分類子の出力が大幅に変化するかどうかを確認します。さらに、VisionGuardは実行時と設計時の両方で計算的に軽量であるため、大規模なイメージドメインを含む可能性のあるリアルタイムアプリケーションに適しています。これを強調するために、関連する防御の大部分にとって計算上困難なタスクであるImageNetでのVisionGuardの効率性を実証します。および検出パフォーマンス。

分野/キーワード:

論文ナビに登録すると・・・
①最新情報をメールでお届け!
  • 話題のニュース一覧
  • 注目のプレスリリース
  • 論文解説・最近のイベント
②論文解説記事の投稿
  • ご自身の論文の解説
  • 読んだ論文のメモ
  • 研究に関する情報のシェア
③セミナー情報の宣伝
  • ご自身が主催するイベント情報を投稿してシェア
  • ユーザーで作るセミナー日程まとめに参加
【併せて読みたい関連記事】
X
- Enter Your Location -
- or -
パスワード再発行
お気に入り
  • Total (0)
0