画像認識分野論文まとめ【2020年02月06日arXiv公開】

アブストまとめ
Like0
お気に入り

2020年02月06日に発表された画像認識分野の論文48本のAbstractをまとめて和訳しました。

この記事の見出し

Ego-Lane Estimation by Modelling Lanes and Sensor Failures

レーンとセンサー障害のモデリングによる自我レーン推定

著者:Augusto Luis Ballardini, Daniele Cattaneo, Rubén Izquierdo, Ignacio Parra Alonso, Andrea Piazzoni, Miguel Ángel Sotelo, Domenico Giorgio Sorrenti
URL:http://arxiv.org/abs/2002.01913v1

この論文の概要(機械翻訳による和訳)
高速道路のようなシナリオのための確率的エゴレーン推定アルゴリズムを提示します。これは、エゴレーン推定の精度を高めるように設計されており、ノイズの多いライン検出器とトラッカーのみに依存して取得できます。寄与は、非定常マルコフモデル(HMM)と一時的な故障モデルに依存しています。提案されたアルゴリズムは、OpenStreetMap(または他のcartographicservices)道路特性の車線番号を利用し、予想される車線の数として、連続した、おそらく不完全な観測値を活用します。アルゴリズムの有効性は、さまざまなライン検出器を使用し、イタリアとスペインの両方で記録された100 Kmを超える高速道路シナリオで、はるかに使いやすく安定した信頼性の高い自車線推定を達成できることを示しています。他のアプローチとの定量的比較のためのデータセット、データセットを収集し、車両のエゴレーンについてGroundTruthに手動で注釈を付けました。このようなデータセットは、科学コミュニティから公開されて利用可能になっています。

Analyzing the Dependency of ConvNets on Spatial Information

空間情報に対するConvNetの依存関係の分析

著者:Yue Fan, Yongqin Xian, Max Maria Losch, Bernt Schiele
URL:http://arxiv.org/abs/2002.01827v1

この論文の概要(機械翻訳による和訳)
直感的に、画像分類は空間情報を使用することで利益を得るはずです。ただし、最近の研究では、これが標準CNNで過大評価されている可能性があることが示唆されています。このホワイトペーパーでは、エンベロープを推進し、空間情報への依存をさらに調査することを目指しています。トレーニングフェーズとテストフェーズの両方で空間情報を破壊するために、空間シャッフリングとGAP + FCを提案します。おもしろいことに、パフォーマンスの低下を抑えて空間情報を後のレイヤーから削除できることがわかります。これは、パフォーマンスを向上させるために後のレイヤーの空間情報が不要であることを示しています。たとえば、VGG-16のテスト精度は0.03%と2.66%しか低下せず、CIFAR100の最後の30%レイヤーと53%レイヤーから空間情報が完全に削除されています。幅広いCNNアーキテクチャ(VGG16、ResNet50、ResNet152)は、全体的に一貫したパターンを示しています。

Proximity Preserving Binary Code using Signed Graph-Cut

署名付きグラフカットを使用した近接保存バイナリコード

著者:Inbal Lav, Shai Avidan, Yoram Singer, Yacov Hel-Or
URL:http://arxiv.org/abs/2002.01793v1

この論文の概要(機械翻訳による和訳)
データポイント間の類似性と非類似性を学習してコンパクトで親和性を保持するバイナリコードを作成する、プロキシミティ保存コード(PPC)と呼ばれるバイナリ埋め込みフレームワークを紹介します。このコードを使用して、最近傍検索に高速でメモリ効率の高い近似を適用できます。当社のフレームワークは柔軟性があり、データポイント間で異なる近接性定義を可能にします。符号なしグラフ分割に基づいてバイナリコードを抽出する以前の方法とは対照的に、システムは、正および負のグラフの重みを組み込むことにより、データの魅力的および反発力をモデル化します。提案されたフレームワークは、NP困難であることが知られている問題である署名付きグラフの最小カットを見つけることまで要約されることが示されています。コードを少しずつ構築することにより、効率的な近似を提供し、優れた結果を達成します。提案された近似は、精度と複雑さの両方に関して、一般的に使用されるスペクトル法よりも優れていることを示しています。したがって、署名付きグラフカットに変換できる他の多くの問題に役立ちます。

Human Posture Recognition and Gesture Imitation with a Humanoid Robot

ヒューマノイドロボットによる人間の姿勢認識とジェスチャ模倣

著者:Amir Aly
URL:http://arxiv.org/abs/2002.01779v1

この論文の概要(機械翻訳による和訳)
自閉症は、社会的相互作用とコミュニケーションの障害、および制限された反復行動を特徴とする、非常に可変性の神経発達障害です。この神経発達障害に関する問題点は、これまで知られていなかった原因であり、したがって医学的に治療することはできません。最近、ロボットは自閉症児の社会的行動の発達に関与しており、自閉症児は仲間とよりもロボットとより良い相互作用を示しました。自閉症の文献に広く記述されている顕著な社会的障害の1つは、他の人を模倣することの不足である。セラピストはジェスチャの実行を開始し、ロボットがそれを模倣し、子供は同じことを試みます。これらのゲームが自閉症の子供に日常社会生活でこれらの新しいジェスチャを繰り返すことを促すことを望みます。

Feature-map-level Online Adversarial Knowledge Distillation

機能マップレベルのオンライン敵対的知識蒸留

著者:Inseop Chung, SeongUk Park, Jangho Kim, Nojun Kwak
URL:http://arxiv.org/abs/2002.01775v1

この論文の概要(機械翻訳による和訳)
機能マップには、画像の強度と空間相関に関する豊富な情報が含まれています。ただし、以前のオンライン知識の蒸留方法は、クラスの確率のみを利用していました。したがって、本論文では、対人訓練フレームワークを使用して、クラス確率の知識だけでなく、特徴マップの知識も転送するオンライン知識蒸留法を提案します。識別器を使用して異なるネットワークの機能マップ分布を区別することにより、複数のネットワークを同時にトレーニングします。各ネットワークには、対応する識別器があり、機能マップをそれ自体から偽物として識別し、他方のネットワークのそれを実物として分類します。ネットワークを訓練して、対応する識別器をだますことにより、他のネットワークの機能マップ分布を学習できます。我々の方法は、L1などの従来の直接配列法よりも優れた性能を発揮し、オンライン蒸留に適していることを示しています。また、3つ以上のネットワークを一緒にトレーニングするための新しい循環学習方式を提案します。分類タスクのさまざまなネットワークアーキテクチャにメソッドを適用し、特に小規模ネットワークと大規模ネットワークのペアをトレーニングする場合に、パフォーマンスの大幅な改善を発見しました。

Geocoding of trees from street addresses and street-level images

番地と街路レベルの画像からの樹木のジオコーディング

著者:Daniel Laumer, Nico Lang, Natalie van Doorn, Oisin Mac Aodha, Pietro Perona, Jan Dirk Wegner
URL:http://arxiv.org/abs/2002.01708v1

この論文の概要(機械翻訳による和訳)
ストリートレベルのパノラマ画像とツリーインスタンスマッチングのグローバル最適化フレームワークを使用して、地理座標で古いツリーインベントリを更新する方法を紹介します。新しい在庫がGPSを使用するのに対して、番地を使用して記録された2000年代初期までの在庫のツリーのジオロケーション。私たちの方法は、古い在庫を地理座標でレトロフィットし、新しい在庫と接続して、樹木の死亡率などの長期的な研究を促進します。この問題を困難にしているのは、住所ごとの異なる木数、画像内の異なる木のインスタンスの不均一な外観、あいまいな木です複数の画像とオクルージョンから見た場合の位置。この割り当て問題を解決するために、(i)ディープラーニングを使用してGoogleストリートビューパノラマでツリーを検出し、(ii)ツリーごとのマルチビュー検出を単一の表現に結合し、(iii)ストリートアドレスごとに指定されたツリーと一致する検出されたツリーをグローバル最適化アプローチ。米国カリフォルニア州の5都市で50000を超えるツリーの実験により、地理的座標を街路樹の38%に割り当てることができることが示されました。これは、大規模な街路樹の生態系サービスの価値に関する長期的な研究の出発点として適しています。

Entropy Minimization vs. Diversity Maximization for Domain Adaptation

ドメイン適応のためのエントロピー最小化と多様性最大化

著者:Xiaofu Wu, Suofei hang, Quan Zhou, Zhen Yang, Chunming Zhao, Longin Jan Latecki
URL:http://arxiv.org/abs/2002.01690v1

この論文の概要(機械翻訳による和訳)
エントロピー最小化は、教師なしドメイン適応(UDA)で広く使用されています。しかし、既存の研究では、エントロピーの最小化は単純なソリューションの崩壊につながる可能性があることを明らかにしています。この論文では、多様性の最大化をさらに導入することにより、些細な解決策を避けることを提案します。 UDAの可能な最小ターゲットリスクを達成するために、多様性の最大化はエントロピー最小化と精巧にバランスが取れている必要があることを示します。提案された最小エントロピーダイバーシティ最大化(MEDM)は、敵対的学習を使用せずに確率的勾配降下法によって直接実装できます。経験的証拠は、MEDMが4つの一般的なドメイン適応データセットで最先端の方法よりも優れていることを示しています。

CHAIN: Concept-harmonized Hierarchical Inference Interpretation of Deep Convolutional Neural Networks

チェーン:ディープ畳み込みニューラルネットワークの概念調和階層推論解釈

著者:Dan Wang, Xinrui Cui, Z. Jane Wang
URL:http://arxiv.org/abs/2002.01660v1

この論文の概要(機械翻訳による和訳)
ネットワークの大成功により、内部ネットワークメカニズムの解釈、特にネット意思決定ロジックの解釈に対する需要が高まっています。この課題に取り組むために、Concept-harmonizedHierArchical INference(CHAIN)を提案して、最終的な意思決定プロセスを解釈します。解釈されるネット決定に対して、提案された方法は、高い意味レベルから低い意味レベルまで視覚的概念へとネット決定を階層的に推定できるチェーン解釈を提示します。それを達成するために、3つのモデル、つまり概念調和モデル、階層的推論モデル、および概念調和階層的推論モデルを順番に提案します。第一に、概念調和モデルでは、高から低のセマンティックレベルの視覚的概念が、深層から浅層までのネットユニットに合わせられます。次に、階層推論モデルでは、深層の概念が浅層のユニットに分解されます。最後に、概念調和階層推論モデルでは、浅い層の概念から深い層の概念が推測されます。数回のラウンドの後、概念が調和した階層的推論が、最高の意味レベルから最低の意味レベルまで逆方向に行われます。最後に、純意思決定は、人間の意思決定に匹敵する概念調和階層推論の形式として説明されます。一方、特徴学習のためのネット層構造は、階層的な視覚概念に基づいて説明できます。定量的および定性的実験では、インスタンスおよびクラスレベルでのチェーンの有効性を実証します。

Concept Whitening for Interpretable Image Recognition

解釈可能な画像認識のためのコンセプトホワイトニング

著者:Zhi Chen, Yijie Bei, Cynthia Rudin
URL:http://arxiv.org/abs/2002.01650v1

この論文の概要(機械翻訳による和訳)
ニューラルネットワークは、レイヤーを横断するときにコンセプトについて何をエンコードしますか?機械学習の解釈可能性は間違いなく重要ですが、ニューラルネットワークの計算を理解するのは非常に困難です。隠されたレイヤーの内側を見る試みは、誤解を招く、使用できない、または潜在的なスペースに依存して、所有していない可能性のあるプロパティを所有する可能性があります。この作業では、ニューラルネットワークを事後的に分析するのではなく、コンセプトホワイトニング(CW)と呼ばれるメカニズムを導入して、ネットワークの特定のレイヤーを変更し、そのレイヤーに至るまでの計算をよりよく理解できるようにします。コンセプトホワイトニングモジュールがCNNに追加されると、潜在空間の軸を目的のコンセプトに合わせることができます。実験により、CWを使用すると、予測パフォーマンスを損なうことなく、ネットワークがレイヤー上で概念を徐々に学習する方法をより明確に理解できることがわかります。

Solving Raven’s Progressive Matrices with Neural Networks

ニューラルネットワークを使用したRavenのプログレッシブ行列の解決

著者:Tao Zhuo, Mohan Kankanhalli
URL:http://arxiv.org/abs/2002.01646v1

この論文の概要(機械翻訳による和訳)
レイヴンのプログレッシブ行列(RPM)は、人間のIntelligenceQuotient(IQ)テストに広く使用されています。このペーパーでは、教師ありと教師なしの両方の方法でニューラルネットワークを使用してRPMを解決することを目指しています。まず、教師あり学習の過剰適合を減らすための戦略を調査します。モデルの一般化を改善するために、大規模なデータセットでディープレイヤーと事前トレーニングを行うニューラルネットワークの使用をお勧めします。 RAVENデータセットの実験では、教師ありアプローチの全体的な精度が人間レベルのパフォーマンスを上回っていることを示しています。 RPMの問題の場合。擬似ターゲットの設計に基づいて、MCPTは教師なし学習問題を教師付きタスクに変換します。実験は、MCPTがランダムな推測のテスト精度を2倍にすることを示しています。 28.50%対12.5%。最後に、今後、監視なしで説明可能な戦略でRPMを解決する問題について説明します。

Enhancing Feature Invariance with Learned Image Transformations for Image Retrieval

画像検索のための学習画像変換による特徴不変性の強化

著者:Osman Tursun, Simon Denman, Sridha Sridharan, Clinton Fookes
URL:http://arxiv.org/abs/2002.01642v1

この論文の概要(機械翻訳による和訳)
既製の畳み込みニューラルネットワーク機能は、多くの画像検索タスクで最先端の結果を達成します。ただし、それらの不変性はネットワークアーキテクチャとトレーニングデータによって事前に定義されています。この作業では、変換された画像から集約された機能を使用して、ネットワークを微調整したり変更したりすることなく、既製の機能の不変性を高めることを提案します。効果的な方法で強化学習を通じて有益な画像変換のアンサンブルを学習します。実験結果は、学習された変換のアンサンブルが効果的で譲渡可能であることを示しています。

Illumination adaptive person reid based on teacher-student model and adversarial training

教師-学生モデルと敵対的訓練に基づく照明適応型個人リード

著者:Ziyue Zhang, Richard YD Xu, Shuai Jiang, Yang Li, Congzhentao Huang, Chen Deng
URL:http://arxiv.org/abs/2002.01625v1

この論文の概要(機械翻訳による和訳)
人物の再識別(ReID)の既存の作品のほとんどは、照明が同じに保たれるか、変動がほとんどない設定に焦点を当てていますが、照明の程度の変化は、ReIDアルゴリズムの堅牢性に大きく影響する可能性があります。この問題に対処するために、ReIDのパフォーマンスを向上させるために、ReID機能を照明機能から分離できるTwo-StreamNetworkを提案しました。その革新は3つあります。(1)識別エントロピー損失を使用して、ReID機能に照明情報が含まれないようにします。 (2)ReID教師モデルは、ReID分類をガイドするために、「ニュートラル」照明条件の下で画像によってトレーニングされます。 (3)照明教師モデルは、照明の分類を導くために、照明調整画像と元の画像の違いによってトレーニングされます。最も人気のある2つのReIDベンチマークであるMarket1501とDukeMTMC-reIDで定義済みの照明条件のセットを総合的に変更することにより、2つの拡張データセットを構築します。実験は、私たちのアルゴリズムが他の最先端の作品よりも優れており、極端に暗い場所での画像の処理に特に有効であることを示しています。

Monocular 3D Object Detection with Decoupled Structured Polygon Estimation and Height-Guided Depth Estimation

分離構造化ポリゴン推定と高さ誘導深度推定による単眼3Dオブジェクト検出

著者:Yingjie Cai, Buyu Li, Zeyu Jiao, Hongsheng Li, Xingyu Zeng, Xiaogang Wang
URL:http://arxiv.org/abs/2002.01619v1

この論文の概要(機械翻訳による和訳)
単眼3Dオブジェクト検出タスクは、単眼RGB画像に基づいてオブジェクトの3Dバウンディングボックスを予測することを目的としています。 3D空間での位置の回復は深度情報がないため非常に難しいため、このペーパーでは、検出問題を構造化ポリゴン予測タスクと深度回復タスクに分解する新しい統合フレームワークを提案します。広く研究されている2Dバウンディングボックスとは異なり、提案されている2D画像の新しい構造化ポリゴンは、ターゲットオブジェクトの複数の投影面で構成されています。予測された2D構造化ポリゴンを3D物理世界の直方体に逆投影するために、次の深度回復タスクは、特定のカメラ投影行列で逆投影変換を完了する前にオブジェクトの高さを使用します。 3D検出結果をさらに修正することを提案しました。挑戦的なKITTIベンチマークで実験が行われ、この手法では最先端の検出精度が達成されます。

Generating Interpretable Poverty Maps using Object Detection in Satellite Images

衛星画像でのオブジェクト検出を使用した解釈可能な貧困マップの生成

著者:Kumar Ayush, Burak Uzkent, Marshall Burke, David Lobell, Stefano Ermon
URL:http://arxiv.org/abs/2002.01612v1

この論文の概要(機械翻訳による和訳)
正確な地方レベルの貧困測定は、政府および人道主義組織が生活の改善に向けた進捗を追跡し、乏しい資源を分配するために不可欠なタスクです。衛星画像を使用して貧困を予測する際の最近のコンピュータービジョンの進歩により、精度が向上していることが示されていますが、政策立案者が解釈できる機能を生成せず、実践者による採用を禁止しています。ここでは、オブジェクト検出器を高解像度(30cm)の衛星画像に適用することにより、地域レベルで貧困を正確に予測するための解釈可能な計算フレームワークを示します。オブジェクトの重み付きカウントを機能として使用して、ウガンダの村レベルの貧困を予測する0.539ピアソンのr ^ 2を達成します。これは、既存の(および解釈不能な)ベンチマークより31%向上しています。機能の重要性とアブレーション分析により、オブジェクト数と貧困予測の間の直感的な関係が明らかになりました。少なくともこの重要な領域では、解釈可能性がパフォーマンスを犠牲にする必要はないことが示唆されました。

Accelerating Object Detection by Erasing Background Activations

バックグラウンドアクティベーションの消去によるオブジェクト検出の高速化

著者:Byungseok Roh, Han-Cheol Cho, Myung-Ho Ju, Soon Hyung Pyo
URL:http://arxiv.org/abs/2002.01609v1

この論文の概要(機械翻訳による和訳)
ディープラーニングの最近の進歩により、複数のビジョンタスクで構成される複雑な実世界のユースケースが可能になり、ワークロード全体の前処理ステップとして検出タスクがエッジ側にシフトされています。しかし、リソースに制約のあるデバイスで深いモデルを実行することは難しいため、効率的なネットワークの設計が求められています。本論文では、対象物が存在しない背景領域の特徴マップ計算を回避することにより、検出速度を加速するための対象物認識対象物検出方法を提示する。この目標を達成するために、オブジェクト検出(OD)ネットワークの前に軽量オブジェクトネスマスク生成(OMG)ネットワークを組み込み、ODネットワークに入力される前に入力画像の背景領域をゼロにすることができます。したがって、推論速度はまばらな畳み込みで促進できます。アクティベーション全体でバックグラウンド領域をゼロに切り替えることで、ReLUアクティベーションを使用したMobileNetV2-SSDLiteのゼロ値の平均数がさらに増加し​​、推論ステップ中に36%から68%になります。さらに、実験結果では、ResNet101を使用したVGGやRetinaNet、および追加のデータセットであるPASCAL VOCなどの重いネットワークでも同様の傾向が示されています。コードがリリースされます。

Anomaly Detection by Latent Regularized Dual Adversarial Networks

潜在的な正則化二重敵対ネットワークによる異常検出

著者:Chengwei Chen, Pan Chen, Haichuan Song, Yiqing Tao, Yuan Xie, Shouhong Ding, Lizhuang Ma
URL:http://arxiv.org/abs/2002.01607v1

この論文の概要(機械翻訳による和訳)
異常検出は、多くの現実世界のアプリケーションを備えたコンピュータービジョン分野の基本的な問題です。何らかの分布から出現する、正常なクラスに属する広範囲の画像を考えると、このタスクの目的は、異常なインスタンスに属する分布外の画像を検出するようにモデルを構築することです。半教師付き生成敵対ネットワーク(GAN)ベースの方法は、最近異常検出タスクで人気を集めています。ただし、GANのトレーニングプロセスはまだ不安定で困難です。これらの問題を解決するために、トレーニングデータの基礎となる構造が潜在的な特徴空間でキャプチャされるだけでなく、判別可能な方法で潜在表現の空間でさらに制限され、より正確な検出器につながる、新しい敵対デュアルオートエンコーダネットワークが提案されます。さらに、識別器と見なされる補助オートエンコーダーは、より安定したトレーニングプロセスを取得できます。実験により、このモデルがGTSRB一時停止標識データセットだけでなく、MNISTおよびCIFAR10データセットで最先端の結果を達成していることがわかります。

Unsupervised Community Detection with a Potts Model Hamiltonian, an Efficient Algorithmic Solution, and Applications in Digital Pathology

ポッツモデルハミルトニアンによる教師なしコミュニティ検出、効率的なアルゴリズムソリューション、およびデジタル病理学への応用

著者:Brendon Lutnick, Wen Dong, Zohar Nussinov, Pinaki Sarder
URL:http://arxiv.org/abs/2002.01599v1

この論文の概要(機械翻訳による和訳)
ポッツモデルハミルトニアンを使用した大きな画像の教師なしセグメンテーションは、セグメンテーションが小さなクラスターに対する感度をスケーリングする解像度パラメーターによって支配されるという点でユニークです。ここでは、入力画像はまずグラフとしてモデル化され、グラフと各セグメントで定義されたハミルトニアンコスト関数を最小化することによってセグメント化されます。ただし、この最適化の閉じた形式の解決策は存在せず、以前の反復アルゴリズムの解決手法を使用すると、問題はInputLengthで二次的にスケーリングします。したがって、ポッツモデルのセグメンテーションは正確なセグメンテーションを提供しますが、教師なし学習手法としては十分に活用されていません。それぞれの色の特徴に基づいた入力画像ピクセルの高速な統計的ダウンサンプリングと、ピクセルとセグメントの関係を考慮したポッツモデルのエネルギーを最小化する新しい反復法を提案します。この方法は一般化可能で、画像ピクセルテクスチャ機能と空間機能に拡張できます。この新しい方法は非常に効率的であり、ポッツモデルベースの画像セグメンテーションの既存の方法よりも優れていることを実証します。医療顕微鏡画像のセグメンテーション;特に、腎病理学における腎糸球体微小環境のセグメンテーションにおける私たちの方法の応用を示しています。私たちの方法は、画像のセグメンテーションに限定されず、離散的な特徴を持つ任意のデータセットの任意の画像/データセグメンテーション/クラスタリングタスクに拡張できます。

Privacy-Preserving Image Sharing via Sparsifying Layers on Convolutional Groups

畳み込みグループのスパース化レイヤーを介したプライバシー保護画像共有

著者:Sohrab Ferdowsi, Behrooz Razeghi, Taras Holotyak, Flavio P. Calmon, Slava Voloshynovskiy
URL:http://arxiv.org/abs/2002.01469v1

この論文の概要(機械翻訳による和訳)
大規模なセットアップにおけるプライバシーを意識した画像共有の問題に対処する実用的なフレームワークを提案します。コンパクト性は常に大規模に望まれますが、プライバシーに敏感なコンテンツをさらに保護しようとする場合、この必要性はより深刻になると主張します。そのため、攻撃者が組み合わせて高価な推測メカニズムを使用できない限り、プライバシー保護の莫大なコストを支払うことなく、一方が表現をパブリックドメインに格納するように画像をエンコードしますが、曖昧であり、画像から識別可能なコンテンツを漏らしません。一方、承認されたユーザーには、簡単に安全に保管できる非常にコンパクトなキーが提供されます。これを使用して、対応するアクセス許可画像の明確化と再構築を行うことができます。機能マップがスパース化変換を介して独立して渡され、それぞれが画像の異なる属性を再構成する複数のコンパクトなコードを提供する、設計の畳み込みオートエンコーダでこれを実現します。フレームワークは、公開実装が利用可能な画像の大規模データベースでテストされています。

Visual Concept-Metaconcept Learning

視覚的概念-メタコンセプト学習

著者:Chi Han, Jiayuan Mao, Chuang Gan, Joshua B. Tenenbaum, Jiajun Wu
URL:http://arxiv.org/abs/2002.01464v1

この論文の概要(機械翻訳による和訳)
人間は概念とメタコンセプトで推論します。視覚入力から赤と緑を認識します。また、オブジェクトの同じプロパティ(つまり、色)を記述することも理解しています。この論文では、画像と関連する質問と回答のペアから概念とメタコンセプトを共同学習するためのvisualconcept-metaconcept学習器(VCML)を提案します。重要なのは、視覚概念とメタ概念の間の双方向の接続を活用することです。視覚表現は、目に見えない概念のペア間の関係を予測するための基礎的な手がかりを提供します。赤と緑がオブジェクトの同じプロパティを記述することを知っているので、キューブと球体はオブジェクトの形状を分類するので、キューブと球体もオブジェクトの同じプロパティを記述するという事実に一般化します。偏ったデータも。紫色の立方体のほんのいくつかの例から、立方体の形ではなく立方体の色相に似た新しい色の紫色を理解できます。合成データセットと実世界データセットの両方の評価により、当社の主張が検証されます。

Measuring the Utilization of Public Open Spaces by Deep Learning: a Benchmark Study at the Detroit Riverfront

ディープラーニングによるパブリックオープンスペースの利用の測定:デトロイトリバーフロントでのベンチマーク研究

著者:Peng Sun, Rui Hou, Jerome Lynch
URL:http://arxiv.org/abs/2002.01461v1

この論文の概要(機械翻訳による和訳)
身体活動と社会的相互作用は、健康的なライフスタイルを保証する不可欠な活動です。公園、広場、緑道などの公共広場(POS)は、これらの活動を促進する重要な環境です。 aPOSを評価するには、人間がその中の施設をどのように使用するかを研究する必要があります。しかし、POSの使用を研究する従来のアプローチは手作業であるため、時間と労力がかかります。また、定性的な洞察のみを提供する場合もあります。監視カメラを利用し、コンピュータービジョンを通じてユーザー関連情報を抽出することは魅力的です。この論文では、POSで人間の活動を定量的に測定するための概念実証のディープラーニングコンピュータービジョンフレームワークを提案し、デトロイトリバーフロントコンサーバンシー(DRFC)監視カメラネットワークを使用して提案されたフレームワークのケーススタディを示します。フレームワークをトレーニングするためのカスタム画像データセットが提示されます。データセットには、さまざまな照明条件下でDRFCパークスペースの18台のカメラから収集された完全に注釈付きの画像が含まれています。データセット分析も提供され、1ステップのユーザーローカリゼーションとアクティビティ認識のベースラインモデルも提供されます。 mAPの結果は、{ it pedestrian}検出では77.5 %、{ it cyclist}検出では81.6 %です。行動マップは、さまざまなPOSユーザーを見つけるためにフレームワークによって自律的に生成され、行動定位の平均誤差は10 cm以内です。

Action Graphs: Weakly-supervised Action Localization with Graph Convolution Networks

アクショングラフ:グラフコンボリューションネットワークを使用した弱教師付きアクションローカリゼーション

著者:Maheen Rashid, Hedvig Kjellström, Yong Jae Lee
URL:http://arxiv.org/abs/2002.01449v1

この論文の概要(機械翻訳による和訳)
グラフ畳み込みに基づいた弱教師付きアクションローカリゼーションの方法を提示します。関連するアクションクラスに対応するビデオタイムセグメントを見つけて分類するには、システムは各ビデオの差別的なタイムセグメントを識別し、各アクションの完全な範囲を識別できる必要があります。弱いビデオレベルラベルでこれを実現するには、システムがトレーニングデータ内のビデオ間の瞬間間の類似性と非類似性を使用して、アクションがどのように表示されるか、アクションの全範囲を含むサブアクションの両方を理解する必要があります。ただし、現在の方法では、ビデオモーメント間の類似性を明示的に使用して、ローカリゼーションと分類の予測を通知しません。グラフ畳み込みを使用して、ビデオモーメント間の類似性を明示的にモデル化する新しい方法を紹介します。私たちの方法は、外観と動きをエンコードする類似性グラフを利用し、THUMOS ’14、ActivityNet 1.2、およびCharadesの最新技術を駆使して、弱く監視されたアクションのローカライズを行います。

Combining 3D Model Contour Energy and Keypoints for Object Tracking

3Dモデルの輪郭エネルギーとキーポイントを組み合わせてオブジェクトを追跡する

著者:Bogdan Bugaev, Anton Kryshchenko, Roman Belov
URL:http://arxiv.org/abs/2002.01379v1

この論文の概要(機械翻訳による和訳)
単眼モデルベースの3D追跡のための新しい組み合わせアプローチを提示します。四肢の物体の姿勢は、キーポイントベースの手法を使用して推定されます。次に、輪郭エネルギー関数を最適化することにより、ポーズが洗練されます。エネルギーは、モデル投影の輪郭と画像のエッジの間の一致の度合いを決定します。これは、未処理の画像勾配の強度と方向の両方に基づいて計算されます。最適化のために、局所的な最適化を克服し、キーポイントベースのポーズ推定を通じて取得した情報を考慮に入れることを可能にする手法と検索領域の制約を提案します。その結合された性質により、この方法は、キーポイントベースおよびエッジベースのアプローチの多くの問題を排除します。さまざまな照明条件、動きのパターン、速度を含む動画を含む公開ベンチマークデータセットで最先端の手法と比較することで、手法の効率を実証します。

Introduction to quasi-open set semi-supervised learning for big data analytics

ビッグデータ分析のための準オープンセットの半教師あり学習の概要

著者:Emile R. Engelbrecht, Johan A. du Preez
URL:http://arxiv.org/abs/2002.01368v1

この論文の概要(機械翻訳による和訳)
最先端のパフォーマンスと低いシステムの複雑さにより、ディープラーニングは、ビッグデータ分析のためのますます魅力的なソリューションになりました。ただし、エンドツーエンドの学習体制の前提を制限すると、大規模なアプリケーショングレードのデータセットでのニューラルネットワークの使用が妨げられます。この作業は、出力クラスラベルがドメイン内のすべてのクラスに対して定義されるという仮定に対処します。現代のセンサーによって収集されるデータの量は、潜在的なクラスの理解できない範囲に及びます。したがって、我々は、すべてではないが一部のクラスのトレーニングデータのみが分類システムに関係する新しい学習体制を提案します。ビッグデータの半教師あり学習シナリオでは、ラベル付きトレーニングデータとラベルなしトレーニングデータの間の部分的なクラスの不一致の仮定が必要です。ラベルのないサンプルで示される新規クラスを分離しながら、ラベルの付いたサンプルで示されるソースクラスを分類するために必要な分類システムでは、オープンセットの場合(ソースクラスのみのクローズドセット)になります。ただし、新しいクラスのサンプルをトレーニングセットに導入すると、よりリラックスしたオープンセットのケースが示されます。そのため、 textit {準オープンセット半教師あり学習}の提案されたレジームが導入されています。 Wassersteinの生成的敵対ネットワーク(WGAN)を利用する準オープンセットの半教師あり学習の下でトレーニングする適切な方法を提案します。識別器(または批評家)ネットワーク内の訓練された分類の確実性推定を使用して、分類器の拒否オプションを有効にします。この確実性の推定にしきい値を設定することにより、拒否オプションはソースクラスの分類を受け入れ、新規クラスを拒否します。ビッグデータのエンドツーエンドのトレーニングは、入力サンプルが必ずしも出力ラベルに属しているとは限らないことを認識するモデルを開発することにより促進されます。これはビッグデータ分析に不可欠であり、準オープンセットの半教師あり学習の下でより多くの作業を促すものです。

A Two-Stream Symmetric Network with Bidirectional Ensemble for Aerial Image Matching

空中画像マッチングのための双方向アンサンブルを備えた2ストリーム対称ネットワーク

著者:Jae-Hyun Park, Woo-Jeoung Nam, Seong-Whan Lee
URL:http://arxiv.org/abs/2002.01325v1

この論文の概要(機械翻訳による和訳)
本論文では、異なる環境で2ストリームのディープネットワークを介して取得した2つの空中画像を正確に一致させる新しい方法を提案します。ターゲット画像を内部的に拡張することにより、ネットワークは3つの入力画像を持つ2つのストリームを考慮し、追加の拡張ペアをトレーニングに反映します。その結果、ディープネットワークのトレーニングプロセスが正規化され、ネットワークは空中画像の変動に対して堅牢になります。さらに、双方向ネットワークに基づくアンサンブル法を導入します。これは、幾何学的変換の同型性に動機付けられています。追加のネットワークまたはパラメーターを使用せずに2つのグローバル変換パラメーターを取得します。これにより、非対称マッチングの結果が緩和され、2つの結果を融合することでパフォーマンスが大幅に向上します。この実験では、Google Earthおよび国際写真測量法およびリモートセンシング(ISPRS)の航空写真を採用しています。結果を定量的に評価するために、一致度を測定する正しいキーポイントの確率(PCK)メトリックを適用します。定性的および定量的な結果は、空中画像を一致させるための従来の方法と比較して、かなりのパフォーマンスのギャップを示しています。すべてのコードとトレーニング済みモデル、およびデータセットはオンラインで利用できます。

Obstruction level detection of sewer videos using convolutional neural networks

畳み込みニューラルネットワークを使用した下水道ビデオの閉塞レベル検出

著者:Mario A. Gutierrez-Mondragon, Dario Garcia-Gasulla, Sergio Alvarez-Napagao, Jaume Brossa-Ordoñez, Rafael Gimenez-Esteban
URL:http://arxiv.org/abs/2002.01284v1

この論文の概要(機械翻訳による和訳)
世界的に、下水道ネットワークは、排水を集中処理プラントに輸送して処理し、環境に戻すように設計されています。このプロセスは現在の社会にとって重要であり、水媒介性疾患の予防、安全な飲料水の提供、および一般的な衛生の向上をもたらします。下水道ネットワークを完全に機能させるには、障害物を特定するためにサンプリング検査が常に実行されます。通常、クローズドサーキットテレビシステムは、パイプの内部を記録し、閉塞レベルを報告するために使用されます。現在、閉塞レベルの評価は手動で行われていますが、これには時間がかかり、一貫性がありません。この作業では、パイプ内の障害物のレベルを識別するための畳み込みニューラルネットワークを訓練する方法論を設計します。これにより、このような頻繁で反復的な作業に必要な人間の努力を軽減します。有用なフレームを生成してモデルにフィードするために調査および調整されたビデオのデータベースを収集しました。結果の分類子は、展開準備ができたパフォーマンスを取得します。アプローチの一貫性とその産業上の利用可能性を検証するために、層ごとの関連性伝搬説明可能性手法を統合し、このタスクのニューラルネットワークの動作をさらに理解できるようにします。最終的に、提案されたシステムは、下水道検査のプロセスにおいて、より高速、正確、一貫性を提供できます。また、分析では、データ収集方法の品質をさらに向上させる方法に関するガイドラインも明らかにしています。

Pixel-wise Conditioned Generative Adversarial Networks for Image Synthesis and Completion

画像合成と完成のためのピクセル単位の条件付き生成的敵対ネットワーク

著者:Cyprien Ruffino, Romain Hérault, Eric Laloy, Gilles Gasso
URL:http://arxiv.org/abs/2002.01281v1

この論文の概要(機械翻訳による和訳)
生成的敵対ネットワーク(GAN)は、教師なし画像生成で成功していることが証明されています。いくつかの作品は、再構築する画像の部分で世代を調整することにより、GANを画像修復に拡張しました。それらの成功にもかかわらず、これらの方法には、画像ピクセルの小さなサブセットのみが事前に知られている設定に制限があります。このホワイトペーパーでは、提供されるピクセル値が非常に少ない場合のGANの調整の有効性を調査します。ピクセル単位の調整を実施するために、GAN目的関数に明示的なコスト項を追加するモデリングフレームワークを提案します。生成された画像の品質と与えられたピクセル制約の充足に対するこの正則化項の影響を調査します。最新のPacGANテクニックを使用して、生成されたサンプルの多様性を確保します。 FashionMNISTで行った実験では、生成された画像の品質とコンディショニングの間のトレードオフが、正則化用語によって効果的に制御されることが示されています。 CIFAR-10データセットとCelebAデータセットの実験的評価は、ピクセルコンディショニングを適用しながら、Fr ‘echet InceptionDistanceに関して視覚的および定量的に正確な結果を得ることができることを証明しています。また、完全畳み込みネットワークを使用したテクスチャ画像生成タスクでの方法を評価します。最後の貢献として、この方法を古典的な地質シミュレーションアプリケーションに適用します。

GTC: Guided Training of CTC Towards Efficient and Accurate Scene Text Recognition

GTC:効率的で正確なシーンテキスト認識に向けたCTCのガイド付きトレーニング

著者:Wenyang Hu, Xiaocong Cai, Jun Hou, Shuai Yi, Zhiping Lin
URL:http://arxiv.org/abs/2002.01276v1

この論文の概要(機械翻訳による和訳)
コネクショニストの時間分類(CTC)とアテンションメカニズムは、最近のシーンテキスト認識作業で使用される2つの主なアプローチです。注意ベースの方法と比較して、CTCデコーダの推論時間ははるかに短くなりますが、精度は低下します。効率的で効果的なモデルを設計するために、CTCのガイド付きトレーニング(GTC)を提案します。CTCモデルは、より強力な注意ガイダンスから、より良いアライメントと機能表現を学習します。ガイド付きトレーニングの利点により、CTCモデルは、高速の推論速度を維持しながら、定期的および不規則なシーンテキストの両方に対して堅牢で正確な予測を実現します。さらに、CTCデコーダーの可能性をさらに活用するために、抽出された特徴の局所相関を学習するためのグラフ畳み込みネットワーク(GCN)が提案されています。標準ベンチマークでの広範な実験により、エンドツーエンドモデルが定期的および不規則なシーンテキスト認識の最新技術を実現し、注意ベースの方法よりも6倍短い推論時間を必要とすることが実証されています。

Determination of the relative inclination and the viewing angle of an interacting pair of galaxies using convolutional neural networks

畳み込みニューラルネットワークを使用した相互作用する銀河ペアの相対的な傾きと視野角の決定

著者:Prem Prakash, Arunima Banerjee, Pavan Kumar Perepu
URL:http://arxiv.org/abs/2002.01238v1

この論文の概要(機械翻訳による和訳)
観測された構造と運動学によって制約される相互作用する銀河のペアの動的モデルの構築は、銀河面間の相対的な傾き($ i $)の値と視野角($ theta $)の正しい選択に決定的に依存します視線と軌道運動の平面の法線との間。 DeepConvolutional Neural Network(DCNN)モデルを構築して、GALMERからのN体$ + $ Smoothed Particle Hydrodynamics(SPH)シミュレーションデータを使用して、相互作用する銀河ペアの相対傾斜角($ i $)および視野角($ theta $)を決定します同じトレーニング用のデータベース。 $ i $値のみに基づいて銀河のペアを分類するには、まず(a)2クラス($ i $ = 0 $ ^ { circ} $、45 $ ^ { circ} $)のDCNNモデルを構築しますおよび(b)3クラス($ i = 0 ^ { circ}、45 ^ { circ} text {および} 90 ^ { circ} $)分類、99%および98%の$ F_1 $スコアを取得それぞれ。さらに、$ i $と$ theta $ valuesの両方に基づく分類のために、9クラスの分類($(i、 theta) sim(0 ^ { circ}、15 ^ { circ})、(0 ^ { circ}、45 ^ { circ})、(0 ^ { circ}、90 ^ { circ})、(45 ^ { circ}、15 ^ { circ })、(45 ^ { circ}、45 ^ { circ})、(45 ^ { circ}、90 ^ { circ})、(90 ^ { circ}、15 ^ { circ}) 、(90 ^ { circ}、45 ^ { circ})、(90 ^ { circ}、90 ^ { circ})$)、および$ F_1 $スコアは97 $ %$でした。最後に、Sloan Digital Sky Survey(SDSS)DR15の相互作用する銀河ペアの実データで2クラスモデルをテストし、78%の$ F_1 $スコアを達成しました。 DCNNモデルをさらに拡張して、相互作用する銀河ペアのダイナミクスをモデル化するために必要な追加パラメーターを決定することができます。これは現在試行錯誤の方法で達成されています。

Fast reconstruction of atomic-scale STEM-EELS images from sparse sampling

スパースサンプリングからの原子スケールのSTEM-EELS画像の高速再構成

著者:Etienne Monier, Thomas Oberlin, Nathalie Brun, Xiaoyan Li, Marcel Tencé, Nicolas Dobigeon
URL:http://arxiv.org/abs/2002.01225v1

この論文の概要(機械翻訳による和訳)
この論文では、部分的にサンプリングされたスペクトル画像の再構成について説明し、走査透過電子顕微鏡(STEM)の取得を加速します。画像再構成の問題は、多くのイメージングモダリティの文献で広く検討されてきましたが、STEM電子エネルギー損失分光法(EELS)によって取得されたスペクトル画像などの3Dデータを処理する試みはわずかでした。その上、顕微鏡の文献で提案されている方法の中には、高速であるが不正確な方法もあれば、正確な再構成を提供するが、計算負荷が高いという方法もあります。したがって、提案された再構成方法はどれも、精度と計算の複雑さの点で私たちの期待を満たしていない。本論文では、原子スケールのEELSに適した高速かつ正確な再構成法を提案します。この方法は、STEM-EELS画像で初めて使用されるベータプロセス因子分析(BPFA)などの一般的なソリューションと比較されます。実際の合成データに基づいた実験が実施されます。

Deep-Geometric 6 DoF Localization from a Single Image in Topo-metric Maps

トポメトリックマップの単一画像からの深幾何6 DoFローカリゼーション

著者:Tom Roussel, Punarjay Chakravarty, Gaurav Pandey, Tinne Tuytelaars, Luc Van Eycken
URL:http://arxiv.org/abs/2002.01210v1

この論文の概要(機械翻訳による和訳)
以前にマップされた環境で単一の画像からカメラの完全な6Degree of Freedom(DoF)グローバルポーズを推定できるDeep-Geometric Localizerについて説明します。このマップは、6つのDoFポーズが知られている離散トポロジノードを備えたトポメトリックマップです。マップ内の各トポノードも一連のポイントで構成され、その2Dフィーチャと3Dロケーションはマッピングプロセスの一部として保存されます。マッピングフェーズでは、ステレオカメラと通常のステレオビジュアルSLAMパイプラインを使用します。ローカライズ段階では、単一のカメラ画像を取得し、DeepLearningを使用してトポロジノードにローカライズし、一致した2Dフィーチャ(およびトポマップ内の3D位置)で幾何アルゴリズム(PnP)を使用して、完全な6 DoFグローバルに一貫したポーズを決定しますカメラの。私たちの方法は、マッピングとローカリゼーションアルゴリズムとセンサー(ステレオとモノ)を離し、単一のカメラを使用して、以前にマップされた環境で正確な6DoF姿勢推定を可能にします。携帯電話やドローンなどの単一のカメラデバイスの潜在的なVR / ARおよびローカリゼーションアプリケーションでは、当社のハイブリッドアルゴリズムは、シミュレートされた環境と実際の環境で単一の画像からポーズを回帰する完全なディープラーニングベースのポーズネットと好意的に比較されます。

Selective Convolutional Network: An Efficient Object Detector with Ignoring Background

選択的畳み込みネットワーク:背景を無視した効率的なオブジェクト検出器

著者:Hefei Ling, Yangyang Qin, Li Zhang, Yuxuan Shi, Ping Li
URL:http://arxiv.org/abs/2002.01205v1

この論文の概要(機械翻訳による和訳)
注意メカニズムがオブジェクト検出器を含む多くのCNNのパフォーマンスを効果的に改善できることはよく知られています。機能マップを広く改良する代わりに、注意を払う新しい試みにより、法外な計算の複雑さを軽減します。したがって、選択的畳み込みネットワーク(SCN)と呼ばれる効率的なオブジェクト検出器を導入します。これは、意味のある情報を含む場所のみを選択的に計算します。基本的な考え方は、重要でない背景領域を除外することです。これにより、特に機能抽出中の計算コストが効果的に削減されます。それを解決するために、ネットワークを次の場所に導くために、オーバーヘッドをほとんど持たない精巧な構造を設計します。エンドツーエンドのトレーニングが可能で、簡単に埋め込むことができます。追加のセグメンテーションデータセットなしで、直接監視と間接監視を含む2つの異なる列車戦略を検討します。広範な実験により、PASCAL VOC2007およびMS COCO検出データセットのパフォーマンスが評価されます。結果は、SSDとPeleeがメソッドに統合されていることで、わずかに精度が低下しても平均で1/5と1/3の範囲で計算が減少し、SCNの実現可能性を示していることを示しています。

Unsupervised Multiple Person Tracking using AutoEncoder-Based Lifted Multicuts

AutoEncoderベースのリフトマルチカットを使用した監視なしの複数人の追跡

著者:Kalun Ho, Janis Keuper, Margret Keuper
URL:http://arxiv.org/abs/2002.01192v1

この論文の概要(機械翻訳による和訳)
複数オブジェクト追跡(MOT)は、コンピュータービジョンの長年の課題です。検出パラダイムによる追跡に基づく現在のアプローチでは、データを追跡に正しく関連付けるために、何らかのドメイン知識または監督が必要です。この作業では、視覚的特徴と最小コストのマルチカットに基づいた、監視なしの複数オブジェクトトラッキング手法を紹介します。私たちの方法は、監督なしに画像シーケンス内の隣接フレームから抽出できる単純な時空間キューに基づいています。これらのキューに基づいたクラスタリングにより、手元の追跡タスクに必要な外観の不変性を学習し、適切な潜在表現を生成するようにオートエンコーダーをトレーニングできます。したがって、結果として得られる潜在的な表現は、追跡可能な時空間的特徴が抽出される可能性のある大きな時間的距離でさえ追跡するためのロバストな外観キューとして機能することができます。提供された注釈を使用せずに訓練されたにもかかわらず、我々のモデルは歩行者追跡のための挑戦的なMOTベンチマークで競争力のある結果を提供することを示します。

Robust Generative Restricted Kernel Machines using Weighted Conjugate Feature Duality

重み付き共役機能の双対性を使用した堅牢な生成制限付きカーネルマシン

著者:Arun Pandey, Joachim Schreurs, Johan A. K. Suykens
URL:http://arxiv.org/abs/2002.01180v1

この論文の概要(機械翻訳による和訳)
過去10年間で、生成モデルへの関心が非常に高まっていますが、トレーニングのパフォーマンスは汚染によって大きく影響を受ける可能性があり、外れ値はモデルの表現にエンコードされます。これにより、ノイズの多いデータが生成されます。この論文では、制限付きカーネルマシン(RKM)のフレームワークに、重み付き共役機能の双対性を導入します。この定式化は、最小共分散決定要因に基づく重み関数を使用して生成RKMの潜在空間を微調整するために使用されます。実験により、トレーニングデータに汚染が存在する場合、重み付けされたRKMがきれいな画像を生成できることが示されています。さらに、堅牢な方法は、標準データセットの定性的および定量的実験を通じて、相関のない特徴学習も維持することを示しています。

Lane Detection in Low-light Conditions Using an Efficient Data Enhancement : Light Conditions Style Transfer

効率的なデータ強化を使用した低照度条件での車線検出:照度条件スタイル転送

著者:Tong Liu, Zhaowei Chen, Yi Yang, Zehao Wu, Haowei Li
URL:http://arxiv.org/abs/2002.01177v1

この論文の概要(機械翻訳による和訳)
現在、ディープラーニング技術は車線検出に広く使用されていますが、低照度条件での適用は今日まで課題となっています。それぞれ推論計算。本論文では、ジェネラルアドバーサリアルネットワーク(GAN)を使用して低照度条件下で画像を生成し、車線検出器の環境適応性を向上させるスタイル転送ベースのデータ拡張手法を提案します。 -CycleGAN、lightconditionsスタイルの転送ネットワークおよびレーン検出ネットワーク。追加の手動注釈や追加の推論計算は必要ありません。 ERFNetを使用してレーン検出ベンチマークCULaneでメソッドを検証しました。経験的に、このメソッドを使用してトレーニングされたレーン検出モデルは、低照度条件での適応性と複雑なシナリオでの堅牢性を実証しました。この論文のコードは一般公開されます。

Vanishing Point Detection with Direct and Transposed Fast Hough Transform inside the neural network

ニューラルネットワーク内での直接および転置高速ハフ変換による消失点検出

著者:A. Sheshkus, A. Chirvonaya, D. Nikolaev, V. L. Arlazarov
URL:http://arxiv.org/abs/2002.01176v1

この論文の概要(機械翻訳による和訳)
この論文では、画像内の消失点検出のための新しいニューラルネットワークアーキテクチャを提案します。重要な要素は、活性化機能を備えた畳み込み層ブロックによって分離された直接および転置された高速ハフ変換の使用です。これにより、ネットワークの出力で入力画像の座標で答えを得ることができるため、最大値を選択するだけで消失点の座標を計算できます。積分演算子の使用により、ニューラルネットワークは画像内のグローバルな直線的な特徴に依存することができるため、消失点の検出に最適です。提案されたアーキテクチャの有効性を実証するために、aDVRの画像セットを使用し、既存の方法に対するその優位性を示します。さらに、提案されたニューラルネットワークアーキテクチャは、たとえばコンピュータ断層撮影で使用される直接投影および逆投影のプロセスを本質的に繰り返すことに注意してください。

Simultaneous Enhancement and Super-Resolution of Underwater Imagery for Improved Visual Perception

視覚の改善のための水中画像の同時強化と超解像

著者:Md Jahidul Islam, Peigen Luo, Junaed Sattar
URL:http://arxiv.org/abs/2002.01155v1

この論文の概要(機械翻訳による和訳)
このペーパーでは、水中ロボットビジョンの同時エンハンスメントと超解像(SESR)問題を紹介し、それに取り組み、ほぼリアルタイムのアプリケーションに効率的なソリューションを提供します。 2x、3x、または4x高い空間解像度で知覚的な画像品質を復元することを学習できる、残余ネットワークベースの生成モデルであるDeep SESRを紹介します。クロミナンス固有の水中色の劣化、画像の鮮明さの欠如、および高レベルの特徴表現の損失に対処するマルチモーダル目的関数を定式化することにより、そのトレーニングを監督します。また、画像内の顕著な前景領域を学習することも監視されており、これにより、ネットワークがグローバルなコントラスト強調を学習するように導きます。エンドツーエンドのトレーニングパイプラインを設計して、共有された階層的な特徴空間で顕著性予測とSESRを共同で学習し、高速な推論を実現します。さらに、大規模なSESR学習を促進する最初のデータセットであるUFO-120を提示します。 1500以上のトレーニングサンプルと120サンプルのベンチマークテストセットが含まれています。 UFO-120およびその他の標準データセットの徹底的な実験評価により、Deep SESRが水中画像の強化と超解像の既存のソリューションよりも優れていることを実証します。また、さまざまなスペクトルおよび空間劣化レベルの水中画像や、目に見えない自然物のある地上画像を含むいくつかのテストケースで、その一般化パフォーマンスを検証します。最後に、シングルボード展開の計算上の実行可能性を分析し、視覚誘導水中ロボットの運用上の利点を示します。モデルとデータセットの情報は、https://github.com/xahidbuffon/Deep-SESRで入手できます。

Texture Classification using Block Intensity and Gradient Difference (BIGD) Descriptor

ブロック強度と勾配差(BIGD)記述子を使用したテクスチャ分類

著者:Yuting Hu, Zhen Wang, Ghassan AlRegib
URL:http://arxiv.org/abs/2002.01154v1

この論文の概要(機械翻訳による和訳)
この論文では、効率的で特徴的なローカル記述子、すなわちブロック強度と勾配差(BIGD)を提示します。画像パッチでは、マルチスケールブロックペアをランダムにサンプリングし、ペアワイズブロックの強度と勾配の差を利用してローカルBIGD記述子を構築します。ランダムサンプリング戦略とマルチスケールフレームワークは、BIGD記述子が異なる方向と空間粒度レベルでパッチの特徴的なパターンをキャプチャするのに役立ちます。ローカルに集約された記述子(VLAD)または改良されたフィッシャーベクトル(IFV)のベクトルを使用して、ローカルBIGD記述子を完全な画像記述子にエンコードし、テクスチャ分類のために線形サポートベクトルマシン(SVM)分類器に送ります。 Brodatz、CUReT、KTH-TIPS、KTH-TIPS-2aおよび-2bを含む5つのパブリックテクスチャデータセットでそれらの分類性能を評価することにより、提案された記述子を典型的かつ最先端の記述子と比較します。実験結果は、より強い識別力を備えた提案されたBIGD記述子は、最新のテクスチャ記述子であるdensemicroblock difference(DMD)よりも0.12%〜6.43%高い分類精度をもたらすことを示しています。

Adversarially Robust Frame Sampling with Bounded Irregularities

境界のある不規則性を持つ敵対的に堅牢なフレームサンプリング

著者:Hanhan Li, Pin Wang
URL:http://arxiv.org/abs/2002.01147v1

この論文の概要(機械翻訳による和訳)
近年、ビデオから意味のある情報を自動的に抽出するビデオ分析ツールが広く研究され、展開されています。計算コストが高いthemuseディープニューラルネットワークのほとんどは、そのようなアルゴリズムにビデオフレームのサブセットのみを供給することが望ましいためです。固定レートでフレームをサンプリングすることは、その単純さ、代表性、および解釈可能性のために常に魅力的です。たとえば、人気のあるクラウドビデオAPIは、ビデオの1秒ごとの最初のフレームのみを処理してビデオとショットラベルを生成しましたが、サンプリングされた場所に選択したフレームを配置することで、このような戦略を簡単に攻撃できます。この論文では、このサンプリング問題に対するエレガントなソリューションを提示します。このソリューションは、敵対攻撃に対して確実にロバストであり、境界のある不規則性も導入します。

Classification of Hyperspectral and LiDAR Data Using Coupled CNNs

結合CNNを使用したハイパースペクトルおよびLiDARデータの分類

著者:Renlong Hang, Zhu Li, Pedram Ghamisi, Danfeng Hong, Guiyu Xia, Qingshan Liu
URL:http://arxiv.org/abs/2002.01144v1

この論文の概要(機械翻訳による和訳)
この論文では、2つの結合畳み込みニューラルネットワーク(CNN)を使用して、ハイパースペクトルおよび光検出と測距(LiDAR)データを融合するための効率的かつ効果的なフレームワークを提案します。 1つのCNNはハイパースペクトルデータからスペクトル空間特徴を学習するように設計され、もう1つはLiDARデータから標高情報をキャプチャするために使用されます。どちらも3つの畳み込み層で構成され、最後の2つの畳み込み層はパラメーター共有戦略を介して結合されます。融合フェーズでは、機能レベルと意思決定レベルの融合方法を同時に使用して、これらの異種機能を十分に統合します。機能レベルの融合では、連結戦略、最大化戦略、および加算戦略を含む3つの異なる融合戦略が評価されます。決定レベルの融合では、重み付き加算戦略が採用され、重みは各出力の分類精度によって決定されます。提案されたモデルは、米国のヒューストンで取得した都市データセットと、イタリアのトレントで取得した田舎のデータセットで評価されます。ヒューストンのデータでは、このモデルは全体の精度が96.03%という新しい記録を達成しています。トレントデータでは、99.12%の全体的な精度を達成しています。これらの結果は、提案されたモデルの有効性を十分に証明しています。

3D ResNet with Ranking Loss Function for Abnormal Activity Detection in Videos

動画の異常なアクティビティを検出するためのランキング損失機能を備えた3D ResNet

著者:Shikha Dubey, Abhijeet Boragule, Moongu Jeon
URL:http://arxiv.org/abs/2002.01132v1

この論文の概要(機械翻訳による和訳)
異常なアクティビティの検出は、コンピュータビジョンの分野で最も困難なタスクの1つです。この研究は、データにビデオレベルの情報を提供することにより、複数インスタンスの学習の助けを借りて異常を学習する異常ビデオと正常ビデオの両方を利用する、最近の最先端の異常活動検出の研究に動機付けられています。時間注釈が存在しない場合、このようなモデルは異常を検出する際に誤警報を発する傾向があります。このため、本書では、異常アクティビティ検出タスクを実行しながら誤警報率を最小化するタスクに焦点を当てます。これらの誤報の軽減と、ビデオアクション認識タスクにおける3Dディープニューラルネットワークの最近の進歩により、提案された方法で3DResNetを活用する動機付けが得られ、ビデオから時空間的特徴を抽出するのに役立ちます。その後、これらの機能と、提案されたランキング損失とともに深い複数インスタンスの学習を使用して、モデルはビデオセグメントレベルで異常スコアを予測することを学習します。したがって、提案されたメソッドResDNet(MILR)による3Ddeep Multiple Instance Learningと新しい提案されたランキング損失関数は、他の最先端のメソッドと比較して、UCF-Crimeベンチマークデータセットで最高のパフォーマンスを実現します。提案された方法の有効性は、UCF-Crimeデータセットで実証されています。

Selective Segmentation Networks Using Top-Down Attention

トップダウンアテンションを使用した選択的セグメンテーションネットワーク

著者:Mahdi Biparva, John Tsotsos
URL:http://arxiv.org/abs/2002.01125v1

この論文の概要(機械翻訳による和訳)
畳み込みニューラルネットワークは、ネットワーク階層の下部にある入力感覚データから視覚階層の上部にある意味情報への変換をモデル化します。一部のオブジェクト認識タスクには、フィードフォワード処理で十分です。ボトムアップフィードフォワードパスに加えて、トップダウン選択が必要になる可能性があります。部分的に、階層機能ピラミッドによって課される位置情報の損失の欠点に対処できます。ボトムアップ convnetsをトップダウン選択ネットワークで補強する、オブジェクトセグメンテーション用の統合された2パスフレームワークを提案します。トップダウン選択ゲーティングアクティビティを使用して、セグメンテーション予測のためのボトムアップの非表示アクティビティを変調します。ネットワークの両端でタスク要件を満たす損失条件を持つエンドツーエンドのマルチタスクフレームワークを開発します。セマンティックセグメンテーションのベンチマークデータセットで提案されたネットワークを評価し、トップダウン選択機能を備えたネットワークがベースラインモデルよりも優れていることを示します。さらに、新しいセグメンテーションパラダイムの優れた側面に光を当て、純粋にパラメトリックスキップ接続に依存するベースラインモデルよりも新しいフレームワークの効率を定性的および定量的にサポートします。

Acoustic anomaly detection via latent regularized gaussian mixture generative adversarial networks

潜在的な正則化ガウス混合生成的敵対ネットワークを介した音響異常検出

著者:Chengwei Chen, Pan Chen, Lingyu Yang, Jinyuan Mo, Haichuan Song, Yuan Xie, Lizhuang Ma
URL:http://arxiv.org/abs/2002.01107v2

この論文の概要(機械翻訳による和訳)
音響異常検出は、異常な音響信号と正常な音響信号を区別することを目的としています。クラスの不均衡の問題と、異常なインスタンスの欠如に苦しんでいます。さらに、トレーニング目的であらゆる種類の異常または未知のサンプルを収集することは非現実的で時間がかかります。本論文では、半教師付き学習フレームワークの下で新規ガウス混合生成敵対ネットワーク(GMGAN)を提案します。このフレームワークでは、トレーニングデータの基本構造がスペクトログラム再構成空間でキャプチャされるだけでなく、判別式の潜在表現の空間でさらに制限することもできます。マナー。実験は、我々のモデルが以前の方法よりも明らかに優れていることを示しており、DCASEdatasetで最先端の結果を達成しています。

To-sequence:Multi-label Relation Modeling in Facial Action Units Detection

To-sequence:顔面行動単位検出におけるマルチラベル関係モデリング

著者:Xianpeng Ji, Yu Ding, Lincheng Li, Yu Chen, Changjie Fan
URL:http://arxiv.org/abs/2002.01105v1

この論文の概要(機械翻訳による和訳)
Facial Action Coding System(FACS)に基づく顔の表情測定の主要なアプローチの1つであるFacial Action Units Detection(FAUD)は、微少な表情の認識、表情の生成など、さまざまなアプリケーションで人間の感情の微妙さを利用可能にします。したがって、FAUDは最近人気のある研究分野になりました。最近の高度なインテキストマルチラベル分類タスクに触発されて、マルチラベルテキスト分類のシーケンスからシーケンスへの方法を適応させます。マルチラベル分類タスクをシーケンスモデリングタスクに。コンペティションFG-2020 Competition:Affective Behavior Analysisin-the-wild(ABAW)によってリリースされたデータセットに上記のアルゴリズムを実装します。

TPPO: A Novel Trajectory Predictor with Pseudo Oracle

TPPO:疑似Oracleを使用した新しい軌道予測

著者:Biao Yang, Guocheng Yan, Pin Wang, Ching-yao Chan, Xiaofeng Liu, Yang Chen
URL:http://arxiv.org/abs/2002.01852v1

この論文の概要(機械翻訳による和訳)
動的なシーンで歩行者の軌跡を予測することは、自動運転や社会的に認識されたロボットなど、さまざまなアプリケーションの重要な問題のままです。このような予測は、人間と人間および物体との相互作用、および人間のランダム性に起因する将来の不確実性のために困難です。ただし、潜在変数の生成を慎重に検討した以前の研究はほとんどありません。本研究では、生成モデルベースの軌道予測器である擬似Oracle(TPPO)を備えた軌道予測器を提案します。社会的注意モジュールは、歩行者の移動方向と将来の軌跡との相関関係に基づいて、隣人の相互作用を集約するために使用されます。この相関関係は、歩行者の未来の軌道が前の歩行者の影響を受けることが多いという事実に触発されています。観測変数と地上真実の軌道から潜在変数分布を推定するために、潜在変数予測子が提案されています。さらに、これらの2つの分布間のギャップは、トレーニング中に最小化されます。したがって、潜在変数予測器は、観測された軌道から潜在変数を推定して、地上真実の軌道から推定されたものに近似することができる。 TPPOのパフォーマンスをいくつかのパブリックデータセットの関連メソッドと比較します。結果は、TPPOが、平均変位誤差と最終変位誤差が低く、最先端の方法よりも優れていることを実証しています。加えて、アブレーション研究は、テスト中にサンプリング時間が減少しても予測性能が劇的に低下しないことを示しています。

Improved dual channel pulse coupled neural network and its application to multi-focus image fusion

改良されたデュアルチャンネルパルス結合ニューラルネットワークとその多焦点画像融合への応用

著者:Huai-Shui Tong, Xiao-Jun Wu, Hui Li
URL:http://arxiv.org/abs/2002.01102v1

この論文の概要(機械翻訳による和訳)
この論文は、画像融合のための改良されたデュアルチャネルパルス結合ニューラルネットワーク(IDC-PCNN)モデルを提示します。モデルは、標準のPCNNモデルのいくつかの欠陥を克服できます。この融合スキームでは、デュアルチャネルPCNN(DC-PCNN)モデルの情報融合プールの乗算規則が加算規則に置き換えられます。一方、修正ラプラシアン(SML)メジャーの合計が採用されます。これは、他のフォーカスメジャーよりも優れています。この方法は、標準のPCNNモデルの優れた特性を継承するだけでなく、計算効率と融合の品質を向上させます。提案手法の性能は、平均クロスエントロピー、二乗平均平方根誤差、ピーク値の信号対雑音比、構造類似性指数を含む4つの基準を使用して評価されます。

Aesthetic Quality Assessment for Group photograph

集合写真の美的品質評価

著者:Yaoting Wang, Yongzhen Ke, Kai Wang, Cuijiao Zhang, Fan Qin
URL:http://arxiv.org/abs/2002.01096v1

この論文の概要(機械翻訳による和訳)
画像の美的品質評価は、近年多くの注目を集めていますが、特定のジャンルの写真であるGroupphotographについては多くの研究が行われていません。この作業では、グループ写真の経験と原則に基づいて、開いた目、視線、笑顔、隠された顔、顔の向き、顔のぼかし、キャラクターセンターの一連の高レベルの機能を設計しました。次に、それらと83の一般的な美的機能を組み合わせて、2つの美的評価モデルを構築しました。また、美的スコアで注釈付けされたグループ写真-GPD-の大規模なデータセットを構築しました。実験結果は、私たちの機能がプロの写真とスナップショットを分類し、同じシーンの下の多様な人間の状態の複数のグループ写真の区別を予測するためにうまく機能することを示しています。

Object Instance Mining for Weakly Supervised Object Detection

弱監視オブジェクト検出のためのオブジェクトインスタンスマイニング

著者:Chenhao Lin, Siwen Wang, Dongqi Xu, Yu Lu, Wayne Zhang
URL:http://arxiv.org/abs/2002.01087v1

この論文の概要(機械翻訳による和訳)
画像レベルのアノテーションシャのみを使用した弱監視オブジェクト検出(WSOD)が、ここ数年で注目を集めています。複数のインスタンス学習を使用する既存のアプローチは、ローカルオプティマに容易に分類されます。そのようなメカニズムは、各カテゴリの画像内の最も識別的なオブジェクトから学習する傾向があるためです。したがって、これらのメソッドには、WSODのパフォーマンスを低下させるオブジェクトインスタンスがありません。この問題に対処するために、このペーパーでは、弱監視オブジェクト検出のためのエンドツーエンドのオブジェクトインスタンスマイニング(OIM)フレームワークを紹介します。 OIMは、追加の注釈なしで空間および外観グラフに情報伝播を導入することにより、各画像に存在する可能性のあるすべてのオブジェクトインスタンスを検出しようとします。反復学習プロセス中に、同じクラスの識別性の低いオブジェクトインスタンスを徐々に検出し、トレーニングに利用できます。さらに、オブジェクトインスタンスの再加重損失を設計して、各オブジェクトインスタンスの大部分を学習し、パフォーマンスをさらに向上させます。 2つの公開データベースVOC 2007および2012の実験結果は、提案されたアプローチの有効性を示しています。

Multistage Model for Robust Face Alignment Using Deep Neural Networks

ディープニューラルネットワークを使用したロバストな顔アライメントの多段階モデル

著者:Huabin Wang, Rui Cheng, Jian Zhou, Liang Tao, Hon Keung Kwan
URL:http://arxiv.org/abs/2002.01075v1

この論文の概要(機械翻訳による和訳)
重度のオクルージョンや大きなポーズバリエーションなどの制約のない条件を一般化する機能は、顔のアライメントで達成するための挑戦的な目標のままです。この論文では、空間変換ネットワーク、砂時計ネットワーク、および標本ベースの形状制約を活用する、ディープニューラルネットワークに基づく多段階モデル​​を提案します。まず、空間トランスフォーマー-畳み込み層と残留ユニットで構成される生成的敵対ネットワークを使用して、回転やスケールの変動などの顔検出器によって引き起こされる初期化の問題を解決し、顔の位置合わせのための改善された顔境界ボックスを取得します。次に、積み上げられた砂時計ネットワークを使用して、ランドマークの予備の位置と対応するスコアを取得します。さらに、標本ベースの形状辞書は、高スコアのランドマークに基づいて低スコアのランドマークを決定するように設計されています。顔の形状の制約を組み込むことにより、オクルージョンまたは乱雑な背景によって引き起こされるランドマークの位置合わせが大幅​​に改善されます。困難なベンチマークデータセットに基づいた広範な実験を実施して、他の最先端の方法よりも提案された方法の優れた性能を実証します。

分野/キーワード:

論文ナビに登録すると・・・
①最新情報をメールでお届け!
  • 話題のニュース一覧
  • 注目のプレスリリース
  • 論文解説・最近のイベント
②論文解説記事の投稿
  • ご自身の論文の解説
  • 読んだ論文のメモ
  • 研究に関する情報のシェア
③セミナー情報の宣伝
  • ご自身が主催するイベント情報を投稿してシェア
  • ユーザーで作るセミナー日程まとめに参加
【併せて読みたい関連記事】
X
- Enter Your Location -
- or -
パスワード再発行
お気に入り
  • Total (0)
0