rnavi

2020-01-31

画像認識分野論文まとめ【2020年01月31日arXiv公開】

アブストまとめ

画像認識

View数：2,243

Like0

お気に入り

2020年01月31日に発表された画像認識分野の論文42本のAbstractをまとめて和訳しました。

この記事の見出し

1 Semi-Automatic Generation of Tight Binary Masks and Non-Convex Isosurfaces for Quantitative Analysis of 3D Biological Samples
2 ERA: A Dataset and Deep Learning Benchmark for Event Recognition in Aerial Videos
3 Black-Box Saliency Map Generation Using Bayesian Optimisation
4 A Deeper Look into Hybrid Images
5 The Ladder Algorithm: Finding Repetitive Structures in Medical Images by Induction
6 An Implicit Attention Mechanism for Deep Learning Pedestrian Re-identification Frameworks
7 Weakly Supervised Segmentation of Cracks on Solar Cells using Normalized Lp Norm
8 Fast Video Object Segmentation using the Global Context Module
9 Weakly Supervised Instance Segmentation by Deep Multi-Task Community Learning
10 Image Embedded Segmentation: Combining Supervised and Unsupervised Objectives through Generative Adversarial Networks
11 A CNN With Multi-scale Convolution for Hyperspectral Image Classification using Target-Pixel-Orientation scheme
12 The Direction-Aware, Learnable, Additive Kernels and the Adversarial Network for Deep Floor Plan Recognition
13 Automatic marker-free registration of tree point-cloud data based on rotating projection
14 2018 Robotic Scene Segmentation Challenge
15 Multiple Object Tracking by Flowing and Fusing
16 Unsupervised Pixel-level Road Defect Detection via Adversarial Image-to-Frequency Transform
17 Adversarial Incremental Learning
18 Adversarial Attacks on Convolutional Neural Networks in Facial Recognition Domain
19 Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in Untrimmed Sequences
20 Gun Source and Muzzle Head Detection
21 Urban2Vec: Incorporating Street View Imagery and POIs for Multi-Modal Urban Neighborhood Embedding
22 stream-learn — open-source Python library for difficult data stream batch analysis
23 3D Aggregated Faster R-CNN for General Lesion Detection
24 Just Noticeable Difference for Machines to Generate Adversarial Images
25 Semantic Adversarial Perturbations using Learnt Representations
26 Developing a gender classification approach in human face images using modified local binary patterns and tani-moto based nearest neighbor algorithm
27 Examining the Benefits of Capsule Neural Networks
28 On Learning Vehicle Detection in Satellite Video
29 Unsupervised Anomaly Detection for X-Ray Images
30 Evaluating the Progress of Deep Learning for Visual Relational Concepts
31 H-OWAN: Multi-distorted Image Restoration with Tensor 1×1 Convolution
32 Under the Radar: Learning to Predict Robust Keypoints for Odometry Estimation and Metric Localisation in Radar
33 Comparison of scanned administrative document images
34 Virtual KITTI 2
35 Patient Specific Biomechanics Are Clinically Significant In Accurate Computer Aided Surgical Image Guidance
36 The Tensor Brain: Semantic Decoding for Perception and Memory
37 Pre-defined Sparsity for Low-Complexity Convolutional Neural Networks
38 Depth Based Semantic Scene Completion with Position Importance Aware Loss
39 Early-detection and classification of live bacteria using time-lapse coherent imaging and deep learning
40 ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes
41 PulseSatellite: A tool using human-AI feedback loops for satellite image analysis in humanitarian contexts
42 Assistive Relative Pose Estimation for On-orbit Assembly using Convolutional Neural Networks

Semi-Automatic Generation of Tight Binary Masks and Non-Convex Isosurfaces for Quantitative Analysis of 3D Biological Samples

3D生体サンプルの定量分析のためのタイトなバイナリマスクと非凸等値面の半自動生成

著者：Sourabh Bhide, Ralf Mikut, Maria Leptin, Johannes Stegmaier
URL：http://arxiv.org/abs/2001.11469v1

この論文の概要（機械翻訳による和訳）
現在の生体内顕微鏡検査により、完全な生物の詳細な時空間イメージング（3D + t）が可能になり、細胞レベルでのそれらの発達に関する洞察が得られます。イメージングの速度と品質は着実に向上していますが、完全に自動化されたセグメンテーションと分析方法は、しばしば十分に不正確です。これは、大きなサンプル（100um -1mm）および標本の奥深くでのイメージング中に特に当てはまります。発生パラダイムとして広く使用されているショウジョウバエの胚形成は、特に細胞の輪郭を画像化する必要がある場合-他のシステムでも一般的な課題-そのような課題の例を示しています。ショウジョウバエの胚の3D +トライトシート顕微鏡画像を定量的に分析する際の現在のボトルネックに対処するために、半自動オープンソースツールのコレクションを開発しました。提示された方法には、半自動マスキング手順、非凸3Disosurfacesの2D表現への自動投影、およびセルのセグメンテーションと追跡が含まれます。

ERA: A Dataset and Deep Learning Benchmark for Event Recognition in Aerial Videos

ERA：空撮ビデオのイベント認識のためのデータセットとディープラーニングベンチマーク

著者：Lichao Mou, Yuansheng Hua, Pu Jin, Xiao Xiang Zhu
URL：http://arxiv.org/abs/2001.11394v1

この論文の概要（機械翻訳による和訳）
無人航空機（UAV）の使用の増加に伴い、大量の航空ビデオが制作されています。このようなビッグデータを選別し、その内容を理解することは人間にとって非現実的です。したがって、UAVビデオの自動理解に関する方法論的研究は非常に重要です。このペーパーでは、リモートセンシングコミュニティでの制約のない空中ビデオでのイベント認識の新しい問題を紹介し、ERA（Aerialvideosでのイベント認識）という名前の大規模な人間注釈付きデータセットを提示します。 5秒間のイベントの展開に対応するさまざまなクラス。 ERAデータセットは、クラス内の重要なバリエーションとクラス間の類似性を持つように設計されており、さまざまな状況で劇的にさまざまな規模で動的イベントをキャプチャします。さらに、このタスクのベンチマークを提供するために、既存のディープネットワークを広範囲に検証します。 ERAデータセットは、自動空撮ビデオの理解をさらに促進するものと期待しています。ウェブサイトはhttps://lcmou.github.io/ERA_Dataset/です

Black-Box Saliency Map Generation Using Bayesian Optimisation

ベイジアン最適化を使用したブラックボックス顕著性マップの生成

著者：Mamuku Mokuwe, Michael Burke, Anna Sergeevna Bosman
URL：http://arxiv.org/abs/2001.11366v1

この論文の概要（機械翻訳による和訳）
顕著性マップは、特定の予測を生成するためにモデルが使用した入力領域の直感的な解釈を提供するために、コンピュータービジョンでよく使用されます。顕著性マップの生成には多くのアプローチが利用できますが、ほとんどはモデルパラメーターへのアクセスを必要とします。この作業では、ベイジアン最適化サンプリング法を使用して、モデルパラメーターへのアクセスが利用できないブラックボックスモデルの顕著性マップ生成のアプローチを提案します。このアプローチは、特定の（ブラックボックス）モデルの予測に関与するグローバルな顕著な画像領域を見つけることを目的としています。これは、画像の顕著な領域をブラックボックスモデルにローカライズしようとする摂動をモデル化するサンプリングベースのアプローチによって実現されます。結果は、顕著性マップ生成への提案されたアプローチがグリッドベースの摂動アプローチよりも優れており、モデルパラメータへのアクセスを必要とする勾配ベースのアプローチと同様に実行することを示しています。

A Deeper Look into Hybrid Images

ハイブリッドイメージの詳細

著者：Jimut Bahan Pal
URL：http://arxiv.org/abs/2001.11302v1

この論文の概要（機械翻訳による和訳）
$ Hybrid $ $ images $はOlivia et al。によって最初に導入されました。これは、視距離に応じて画像が変化するように2つの解釈を持つ静的画像を生成しました。ハイブリッド画像は、マルチスケール画像の人間の処理を研究することによって構築され、視覚のマスキング研究によって動機付けられています。ハイブリッド画像の最初の導入は、2つの画像が、画像を遠くから見ると、ハイパスフィルターが消え、ローパスフィルターが目立つようになります。ここでの主な目的は、特定のパラメータを変更および調整して、生成されたブレンド画像の品質にどのように影響するかを確認することにより、元の論文を調査およびレビューすることです。さまざまな画像とフィルタのセットを徹底的に使用して、それらがどのように機能するか、これをリアルタイムシステムで使用できるかどうかを確認しました。

The Ladder Algorithm: Finding Repetitive Structures in Medical Images by Induction

ラダーアルゴリズム：誘導による医用画像の反復構造の検出

著者：Rhydian Windsor, Amir Jamaludin
URL：http://arxiv.org/abs/2001.11284v1

この論文の概要（機械翻訳による和訳）
このペーパーでは、ラダーアルゴリズムを紹介します。小さなトレーニングデータを使用して、高精度で自然な画像の繰り返し構造を検出する新しい反復アルゴリズム。次に、トレーニングデータの腰部MRスキャンのみで脊椎全体の磁気共鳴スキャンから椎骨を抽出するタスクのアルゴリズムを示します。 99.8％の精度と再現性で高い性能を達成し、T1およびT2加重スキャンでの腰椎検出の現在の最先端のアプローチを超えることが示されています。また、精度の低下を最小限に抑えて脊椎画像全体に再トレーニングすることなく一般化し、99.4％の検出率を達成します。

An Implicit Attention Mechanism for Deep Learning Pedestrian Re-identification Frameworks

深層学習歩行者再識別フレームワークのための暗黙的注意メカニズム

著者：Ehsan Yaghoubi, Diana Borza, Pendar Alirezazadeh, Aruna Kumar, Hugo Proença
URL：http://arxiv.org/abs/2001.11267v1

この論文の概要（機械翻訳による和訳）
注意は、物理的環境における特定の側面の精神的な選択に対する準備として定義されます。コンピュータビジョンドメインでは、特定の決定を得るために重要な画像/ビデオのセグメントを定義するのに役立つため、このメカニズムは最も興味深いものです。このペーパーでは、ディープラーニングフレームワークの「暗黙の」注意メカニズムを1つ紹介します。 2）推論段階の前景に焦点を合わせたサンプル。主なアイデアは、元の学習セットからインターリーブされたセグメントで構成される合成データを生成し、特定のセグメントからのみクラス情報を使用することです。学習段階では、新たに生成されたサンプルがネットワークに供給され、それらのラベルが関心領域が切り取られた場所のアイデンティティと排他的に一貫性を保ちます。したがって、モデルが一貫性のない不要な領域を持つ各アイデンティティの画像を受け取ると、ラベル一貫性のある一貫した領域に自然に最も注意を払いますが、これは効果的な受容野を学習するのと同等であることがわかりました。テスト段階では、マスクなしでサンプルが提供されます、ネットワークは自然に有害な情報を無視します。これは、パフォーマンスの観察された改善の洞察です。概念実証として、歩行者の再識別の困難な問題を検討し、このソリューションの有効性を、よく知られているRichly Annotated Pedestrian（RAP）データセットの最新技術と比較します。コードはhttps://github.com/Ehsan-Yaghoubi/reid-strong-baselineで入手できます。

Weakly Supervised Segmentation of Cracks on Solar Cells using Normalized Lp Norm

正規化Lpノルムを使用した太陽電池のクラックの弱監視セグメンテーション

著者：Martin Mayr, Mathis Hoffmann, Andreas Maier, Vincent Christlein
URL：http://arxiv.org/abs/2001.11248v1

この論文の概要（機械翻訳による和訳）
太陽光発電は、世界的に着実に増加するエネルギー消費に対処するための最も重要な再生可能エネルギー源の1つです。これにより、生産および運用中の高速でスケーラブルな自動品質管理の需要が高まります。ただし、単結晶または多結晶の太陽電池モジュールのエレクトロルミネッセンス（EL）画像のクラックの検出とセグメンテーションは、困難な作業です。この作業では、画像レベルの注釈のみを使用して、太陽電池のEL画像の亀裂をセグメント化できる方法を取得する、弱く監督された学習戦略を提案します。 modifiedResNet-50を使用して、ネットワークアクティベーションマップからセグメンテーションを導き出します。ネットワークをトレーニングするための代理タスクとして欠陥分類を使用します。このため、正規化Lp正規化を適用して、活性化マップを分類用の単一のスコアに集約します。さらに、正規化されたLpレイヤーのさまざまなパラメーター化がセグメンテーションパフォーマンスにどのように影響するかを調査します。このアプローチは、指定されたタスクの有望な結果を示しています。ただし、この方法には、他の弱く監視されたセグメンテーション問題も解決できる可能性があると考えています。

Fast Video Object Segmentation using the Global Context Module

グローバルコンテキストモジュールを使用した高速ビデオオブジェクトセグメンテーション

著者：Yu Li, Zhuoran Shen, Ying Shan
URL：http://arxiv.org/abs/2001.11243v1

この論文の概要（機械翻訳による和訳）
半教師付きビデオセグメンテーションのためのリアルタイムで高品質のビデオオブジェクトセグメンテーションアルゴリズムを開発しました。そのパフォーマンスは、最も正確で時間のかかるオンライン学習モデルに匹敵しますが、その速度は、次善の精度を備えた最速のテンプレートマッチング方法に似ています。これを実現するコアインは、ビデオ全体で情報を確実に要約および伝播する新しいグローバルコンテキストモジュールです。現在のフレームのセグメンテーションをガイドするために最初のフレーム、最後のフレーム、または選択したいくつかのフレームのみを使用する以前のアプローチと比較して、グローバルコンテキストモジュールでは、過去のすべてのフレームを使用して処理をガイドできます。各時空間位置でメモリをキャッシュする最新の時空間メモリネットワークとは異なり、グローバルコンテキストモジュールは、処理されるフレームが増えてもメモリを使用しない固定サイズの表現です。実装が簡単で、時空間メモリモジュールよりもメモリと計算コストが低いグローバルコンテキストモジュールを搭載したこの方法は、DAVIS 2016で最高の精度を達成し、DAVIS 2017でほぼ最新の結果を実際に達成しました-timespeed。

Weakly Supervised Instance Segmentation by Deep Multi-Task Community Learning

ディープマルチタスクコミュニティ学習による弱監視インスタンスのセグメンテーション

著者：Seohyun Kim, Jaedong Hwang, Jeany Son, Bohyung Han
URL：http://arxiv.org/abs/2001.11207v1

この論文の概要（機械翻訳による和訳）
画像レベルのクラスラベルのみの監視下で、複数のタスクのコミュニティ学習に基づいたオブジェクトセグメンテーションアルゴリズムを提示します。同じクラスの個々のインスタンスが個別に識別され、セグメント化されます。境界ボックス回帰、インスタンスマスク生成、インスタンスセグメンテーション、および特徴抽出を使用したオブジェクト検出の正のフィードバックループを持つ、統一されたディープニューラルネットワークアーキテクチャを設計することで対処します。ネットワークの各コンポーネントは他のコンポーネントと積極的に相互作用して精度を向上させ、モデルのエンドツーエンドのトレーナビリティにより、結果の再現性が向上します。提案されたアルゴリズムは、標準ベンチマークデータセットのFast R-CNNやMask R-CNNなどの外部コンポーネントを使用せずに、弱監視環境で競争力のある精度を実現します。

Image Embedded Segmentation: Combining Supervised and Unsupervised Objectives through Generative Adversarial Networks

画像埋め込みセグメンテーション：生成的敵対ネットワークを介した教師ありおよび教師なし目標の結合

著者：C. T. Sari, G. N. Gunesli, C. Sokmensuer, C. Gunduz-Demir
URL：http://arxiv.org/abs/2001.11202v1

この論文の概要（機械翻訳による和訳）
この論文は、組織病理学的画像における意味的組織セグメンテーションのための完全畳み込みネットワークを訓練するための新しい正則化方法を提示します。この方法は、ネットワークトレーニングのために、画像再構築という形での教師なし学習の恩恵に依存しています。この目的のために、セマンティックセグメンテーションの主な教師付きタスクと画像再構成の補助的な教師なしタスクを単一のタスクに結合できる新しい埋め込みを定義するというアイデアを提唱し、単一の生成モデルによってこの結合タスクを学習することを提案します。この埋め込みは、セグメンテーションマップに元の入力画像を重ね合わせることにより、マルチチャネル出力画像を生成します。次に、この方法は、画像から画像への変換に非常に効果的であることが知られている条件付き生成的敵対ネットワークを使用して、入力画像をこの埋め込み出力画像に変換することを学習します。この提案は、同じ正則化の目的で画像再構成を使用する既存のアプローチとは異なります。既存のアプローチでは、セグメンテーションと画像再構成をマルチタスクネットワークの2つの個別のタスクと見なし、それらの損失を個別に定義し、これらの損失を結合損失関数で結合しますが、このような関数の定義には、監視対象の適切な貢献量を外部で決定する必要がありますそして、セグメンテーションと画像再構成タスクの間でバランスの取れた学習をもたらす、教師なし損失。提案されたアプローチは、これら2つのタスクを単一のタスクに統合することにより、この困難を解消します。病理組織学的画像セグメンテーションをショーケースアプリケーションとして使用して、我々の実験は、この提案されたアプローチがより良いセグメンテーション結果につながることを示しています。

A CNN With Multi-scale Convolution for Hyperspectral Image Classification using Target-Pixel-Orientation scheme

ターゲットピクセル方向スキームを使用したハイパースペクトル画像分類のためのマルチスケール畳み込みを備えたCNN

著者：Jayasree Saha, Yuvraj Khanna, Jayanta Mukherjee
URL：http://arxiv.org/abs/2001.11198v1

この論文の概要（機械翻訳による和訳）
最近、CNNはハイパースペクトル画像分類の課題を処理するための一般的な選択肢です。ハイパースペクトルイメージ（HSI）にこのような大きなスペクトル情報があるにもかかわらず、次元の呪いを作り出します。また、スペクトルシグネチャの空間的変動が大きいと、分類問題がさらに困難になります。さらに、CNNを不足したトレーニング例でエンドツーエンドの方法でトレーニングすることは、もう1つの挑戦的で興味深い問題です。また、3D-CNNと2D-CNNベースのネットワークアーキテクチャのハイブリッドを導入して、それぞれ帯域削減と特徴抽出方法を実装しています。実験結果は、我々の方法が既存の最先端の方法で報告された精度よりも優れていることを示しています。

The Direction-Aware, Learnable, Additive Kernels and the Adversarial Network for Deep Floor Plan Recognition

深いフロアプラン認識のための方向認識、学習可能、追加カーネルおよび敵対的ネットワーク

著者：Yuli Zhang, Yeyang He, Shaowen Zhu, Xinhan Di
URL：http://arxiv.org/abs/2001.11194v1

この論文の概要（機械翻訳による和訳）
このホワイトペーパーでは、フロアプランレイアウトの要素を認識するための新しいアプローチを紹介します。一般的な形状の要素に加えて、円形の部屋や傾斜した壁などの不規則な形状の要素を認識することを目指しています。この目的のために、コンテキストモジュールと一般的な畳み込みブロックの両方のアプリケーションで、方向を認識し、学習可能な加算カーネルを提案します。一般的な形状と不規則な形状の両方の要素の高性能にそれらを適用します。さらに、要素の精度をさらに向上させ、セマンティックセグメンテーションのノイズを削減するために、2つの弁別子を持つ敵対的ネットワークが提案されています。実験結果は、最先端の方法に対する提案されたネットワークの優位性と有効性を示しています。

Automatic marker-free registration of tree point-cloud data based on rotating projection

回転投影に基づくツリーポイントクラウドデータのマーカーなしの自動登録

著者：Xiuxian Xu, Pei Wang, Xiaozheng Gan, Yaxin Li, Li Zhang, Qing Zhang, Mei Zhou, Yinghui Zhao, Xinwei Li
URL：http://arxiv.org/abs/2001.11192v1

この論文の概要（機械翻訳による和訳）
地上レーザースキャナー（TLS）を使用して取得したポイントクラウドデータは、デジタル林業研究において重要な役割を果たします。通常、オクルージョンの影響を克服し、完全なツリー構造情報を取得するために複数のスキャンが使用されますが、マーカーベースの登録のために複雑な地形を持つフォレストに人工反射板を配置するのは時間がかかり、登録の自動化と効率を低下させるプロセスです。本研究では、単一のツリーの複数のスキャンからのポイントクラウドデータの登録のための自動粗密法を提案します。粗い位置合わせでは、各スキャンによって生成された点群が球面に投影されて、一連の2次元（2D）画像が生成され、複数のスキャンの初期位置を推定するために使用されます。次に、これらの一連の2D画像から対応する特徴点のペアを抽出します。精密な登録では、ポイントクラウドデータのスライシングおよびフィッティング方法を使用して、対応する中央のステムおよびブランチセンターを抽出し、タイポイントとして使用して、精密な変換パラメーターを計算します。登録結果の精度を評価するために、隣接するスキャンの対応するブランチから中心点間の距離を計算することにより、エラー評価のモデルを提案します。正確な評価のために、2つのシミュレートされたツリーと1つの実世界のツリーで実験を実施しました。提案された方法の平均登録誤差は、シミュレートされたツリーポイントクラウドで約0.26m、実世界のツリーポイントクラウドで約0.05mでした。

2018 Robotic Scene Segmentation Challenge

2018ロボットシーンセグメンテーションチャレンジ

著者：Max Allan, Satoshi Kondo, Sebastian Bodenstedt, Stefan Leger, Rahim Kadkhodamohammadi, Imanol Luengo, Felix Fuentes, Evangello Flouty, Ahmed Mohammed, Marius Pedersen, Avinash Kori, Varghese Alex, Ganapathy Krishnamurthi, David Rauber, Robert Mendel, Christoph Palm, Sophia Bano, Guinther Saibro, Chi-Sheng Shih, Hsun-An Chiang, Juntang Zhuang, Junlin Yang, Vladimir Iglovikov, Anton Dobrenkii, Madhu Reddiboina, Anubhav Reddy, Xingtong Liu, Cong Gao, Mathias Unberath, Mahdi Azizian, Danail Stoyanov, Lena Maier-Hein, Stefanie Speidel
URL：http://arxiv.org/abs/2001.11190v1

この論文の概要（機械翻訳による和訳）
2015年に、ミュンヘンのMICCAIで開催されたEndoVisワークショップで、ロボットの運動学と計器CADモデルから自動的に生成された注釈付きの生体外組織の内視鏡画像を使用したサブチャレンジを開始しました。ただし、限られた背景変動と単純な動きにより、実際の手術でのセグメンテーションに適したテクニックを学習する際に、データセットが情報に欠けたものになりました。 2017年、ケベック州の同じワークショップで、10のチームが参加しているロボット楽器セグメンテーションデータセットを導入し、ダヴィンチ楽器のバイナリ、アーティキュレートパーツ、およびタイプセグメンテーションを実行しました。この課題には、現実的な器具の動きと背景としてのより複雑なブタ組織が含まれており、U-Netおよびその他の一般的なCNNアーキテクチャの修正により広く対処されました。 2018年には、解剖学的オブジェクトと医療機器のセットをセグメント化されたクラスに導入することにより、複雑さが増しました。過酷な挑戦を避けるために、多くの臓器を塞ぐ脂肪組織がないために人間の組織よりも劇的に単純なブタのデータを使用し続けました。

Multiple Object Tracking by Flowing and Fusing

フローとフュージングによる複数オブジェクトの追跡

著者：Jimuyang Zhang, Sanping Zhou, Xin Chang, Fangbin Wan, Jinjun Wang, Yang Wu, Dong Huang
URL：http://arxiv.org/abs/2001.11180v1

この論文の概要（機械翻訳による和訳）
複数オブジェクト追跡（MOT）アプローチのほとんどは、2つのサブタスク（ターゲットごとの動きの推定とペアごとの再識別（Re-ID）の実行）の個々のターゲット機能を計算します。ビデオフレーム間のターゲットの数は不明確であるため、両方のサブタスクは、エンドツーエンドのディープニューラルネットワーク（DNN）で効率的に拡張することは非常に困難です。このホワイトペーパーでは、エンドツーエンドのDNN追跡アプローチであるFlow-Fuse-Tracker（FFT）を設計します。これは、ターゲットフローとターゲットフュージングという2つの効率的な手法で上記の問題に対処します。具体的には、ターゲットフローでは、FlowTracker DNNモジュールがピクセルレベルのオプティカルフローからターゲットごとの不特定数の動きを共同で学習します。ターゲットフュージングでは、FuseTracker DNNモジュールが、2つの不正確なターゲットプロポーザルのソースのいずれかを信頼する代わりに、FlowTrackerおよびフレーム単位のオブジェクト検出によって提案されたターゲットを洗練および融合します。 FlowTrackerは複雑なターゲットごとのモーションパターンを探索でき、FuseTrackerはFlowTrackerと検出器からターゲットを調整および融合できるため、このアプローチは複数のMOTベンチマークで最先端の結果を達成できます。オンラインMOTアプローチとして、FFTは2DMOT15で46.3、MOT16で56.5、MOT17トラッキングベンチマークで56.5のトップMOTAを作成し、既存の出版物のすべてのオンラインおよびオフラインメソッドを上回りました。

Unsupervised Pixel-level Road Defect Detection via Adversarial Image-to-Frequency Transform

敵対的画像から周波数への変換による教師なしピクセルレベルの道路欠陥検出

著者：Jongmin Yu, Duyong Kim, Younkwon Lee, Moongu Jeon
URL：http://arxiv.org/abs/2001.11175v1

この論文の概要（機械翻訳による和訳）
過去数年間で、コンピュータビジョンとディープラーニングに関するさまざまな研究の進歩により、道路の欠陥検出のパフォーマンスが著しく向上しました。大規模で十分に注釈が付けられたデータセットは、道路舗装の欠陥を検出するパフォーマンスをある程度向上させますが、実際には、さまざまな道路条件を考慮したデータセットを構築することは困難であり、欠陥パターン。これを終了するには、AdversarialImage-to-Frequency Transform（AIFT）を使用して、道路の欠陥を検出するための教師なしアプローチを提案します。 AIFTは、欠陥検出モデルの導出に教師なしの方法と敵対的学習を採用しているため、AIFTは道路舗装欠陥の注釈を必要としません。 GAPs384データセット、Cracktree200データセット、CRACK500データセット、およびCFDデータセットを使用してAIFTの効率を評価します。実験結果は、提案されたアプローチがさまざまな道路検出を検出し、既存の最先端のアプローチよりも優れていることを示しています。

Adversarial Incremental Learning

敵対的増分学習

著者：Ankur Singh
URL：http://arxiv.org/abs/2001.11152v1

この論文の概要（機械翻訳による和訳）
ディープラーニングはさまざまなタスクで非常に優れたパフォーマンスを発揮しますが、それでも壊滅的な忘却に悩まされています-ニューラルネットワークは、以前のデータが利用できない新しいタスクを学習するときに以前に学習した情報を忘れる傾向があります。増分学習の以前の方法は、古いデータセットの一部を使用するか、標本を生成するか、メモリネットワークを使用することにより、この問題に対処します。しかし、これらの方法は良い結果を示していますが、見本を使用したり生成したりすると、メモリと計算の要件が増加します。これらの問題を解決するために、新しいタスクのトレーニング中に古いデータをまったく使用しない、敵対的差別に基づく方法を提案します。特に、データがクラスベースのシーケンシャルな方法で提供される画像分類のクラスインクリメンタルラーニングの問題に取り組んでいます。この問題に対して、ネットワークは、従来のクロスエントロピー損失とともに敵対的損失を使用してトレーニングされます。クロスエントロピー損失は、ネットワークが新しいクラスを段階的に学習するのに役立ちますが、敵対的損失は既存のクラスに関する情報を保存するのに役立ちます。このアプローチを使用すると、CIFAR-100、SVHN、およびMNISTdatasetsで他の最先端の方法を実行できます。

Adversarial Attacks on Convolutional Neural Networks in Facial Recognition Domain

顔認識ドメインにおける畳み込みニューラルネットワークに対する敵対攻撃

著者：Yigit Alparslan, Jeremy Keim-Shenk, Shweta Khade, Rachel Greenstadt
URL：http://arxiv.org/abs/2001.11137v1

この論文の概要（機械翻訳による和訳）
多数の最近の研究により、攻撃者が元のサンプルに摂動を追加し、分類器がサンプルを誤分類する敵対的な例によって、Deep Neural Network（DNN）分類器がだまされる方法が示されています。 DNNを実生活で脆弱にする敵対的な攻撃は、自律走行車、マルウェアフィルター、または生体認証システムが正しく機能しない結果として、深刻な脅威となります。この論文では、Fast Gradient Sign Methodを適用して、顔の画像データセットに摂動を導入し、自分で訓練した別の分類器で出力をテストして、この方法の伝達性を分析します。次に、顔認識データセットでさまざまな攻撃アルゴリズムを作成し、ターゲットを特定しないブラックボックスアプローチを開発して、最小限の敵対的知識を想定し、顔認識領域のDNNの堅牢性をさらに評価します。単一の最適なピクセルを大量に変更するか、すべてのピクセルを少量変更するか、これら2つの攻撃手法を組み合わせて検討します。単一ピクセル攻撃では、実際のクラスの分類子の信頼レベルが平均で約15％低下しましたが、全ピクセル攻撃はより成功し、最大84％の不確実性の低下と、誤分類率81.6％を達成しました最高レベルの摂動でテストした攻撃のこれらの高レベルの摂動があったとしても、顔画像は人間にとってかなり明確に識別可能なままでした。私たちの研究が、特に顔認識ドメインにおいて、DNNに対する敵対的攻撃とそれらに対抗するための防御メカニズムの研究を促進するのに役立つことを願っています。

Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in Untrimmed Sequences

トリミングされていないシーケンスのアクションの教師なし学習のための視覚と時間の同時埋め込み

著者：Rosaura G. VidalMata, Walter J. Scheirer, Hilde Kuehne
URL：http://arxiv.org/abs/2001.11122v1

この論文の概要（機械翻訳による和訳）
ビデオの複雑なアクティビティの構造を理解することは、アクション認識方法が直面する多くの課題の1つです。この課題を克服するには、メソッドが基礎となる機能の視覚的構造に関する確かな知識を必要とするだけでなく、それらがどのように時間を変更できるかについての良い解釈も必要とします。したがって、アクションセグメンテーションタスクでは、個々のフレームからの視覚的な合図だけでなく、機能の時間的シーケンスとしての特性も考慮する必要があります。この作業では、監視なしのアクションセグメンテーションパイプラインに視覚的学習と時間的学習の両方を組み込むことの影響に関する調査結果を示します。ラベリング情報なしで複雑なアクション内のサブアクティビティの時間的局在化のために、トリミングされていないシーケンスから関連する視覚的および時間的特徴を抽出する新しいアプローチを紹介します。 2つのベンチマークデータセット（Breakfast ActionsおよびYouTubeInstructions）の広範な実験を通じて、提案されたアプローチが、連続したビデオフレームからの視覚的キューから意味のある視覚的および時間的埋め込みを提供できること、および実際に時間的セグメンテーションに役立つことを示します。

Gun Source and Muzzle Head Detection

銃源と銃口の検出

著者：Zhong Zhou, Isak Czeresnia Etinger, Florian Metze, Alexander Hauptmann, Alexander Waibel
URL：http://arxiv.org/abs/2001.11120v1

この論文の概要（機械翻訳による和訳）
銃による暴力からの保護は世界中で急増しています。銃による暴力を抑制しようとする研究で困難と判断された3つの主要な領域があります。私たちの仕事は、銃源の検出と銃口の検出です。銃口は銃の発射端の丸い開口部です。ビデオの銃の銃口を視覚的に特定し、誰が発射したかを特定したいと思います。私たちの定式化では、銃口頭部の検出の問題を、人間の物体の検出と銃の煙の検出の2つの副問題に変えます。私たちの仮定では、銃口は通常、ショットと射手の銃の煙の間にあります。射手の境界と銃の煙の検出の両方に興味深い結果があります。私たちの実験では、銃の煙とシューターを検出することで、銃口のヘッドの検出に成功しています。

Urban2Vec: Incorporating Street View Imagery and POIs for Multi-Modal Urban Neighborhood Embedding

Urban2Vec：マルチモーダル都市近隣埋め込みのためのストリートビュー画像とPOIの組み込み

著者：Zhecheng Wang, Haoyuan Li, Ram Rajagopal
URL：http://arxiv.org/abs/2001.11101v1

この論文の概要（機械翻訳による和訳）
本質的なパターンを理解し、都市の時空間特性を予測するには、都市の周辺地域の包括的な表現が必要です。既存の作業は、地域間または地域内の接続性に依存して近隣表現を生成しましたが、近隣内の有益でありながら異種のデータを完全に活用することはできませんでした。この作業では、Urban2Vecを提案します。これは、ストリートビュー画像と興味のある（POI）データの両方を学習埋め込みに組み込む、教師なしマルチモーダルフレームワークです。具体的には、畳み込みニューラルネットワークを使用して、地理空間類似性を維持しながらストリートビュー画像から視覚的特徴を抽出します。さらに、各POIを、そのカテゴリ、評価、およびレビュー情報を含む単語の袋としてモデル化します。自然言語処理の埋め込みを文書化するために、近傍（「文書」）とベクトル空間内の周囲のPOIからの単語との意味的類似性を確立します。 Urban2Vecは、視覚、テキスト、地理空間情報を隣接する表現に共同でエンコードすることにより、ベースラインモデルよりも優れたパフォーマンスを実現し、ダウンストリーム予測タスクの完全に監視された方法に匹敵します。米国の3つの大都市圏での広範な実験も、モデルの解釈可能性、一般化機能、および近隣の類似性分析におけるその価値を実証しています。

stream-learn — open-source Python library for difficult data stream batch analysis

stream-learn-困難なデータストリームバッチ分析用のオープンソースPythonライブラリ

著者：Paweł Ksieniewicz, Paweł Zyblewski
URL：http://arxiv.org/abs/2001.11077v1

この論文の概要（機械翻訳による和訳）
stream-learnは、scikit-learnと互換性のあるPythonパッケージであり、ドリフトおよび不均衡なデータストリーム分析用に開発されています。その主なコンポーネントはストリームジェネレーターであり、3つの主要なコンセプトドリフトタイプ（つまり、突然、漸進的、漸進的ドリフト）のそれぞれを繰り返しバージョンまたは非繰り返しバージョンに組み込むことができる合成データストリームを生成できます。このパッケージを使用すると、確立された評価方法論に従ってテストを実施することができます（つまり、Test-Then-TrainおよびPrequential）。さらに、単純な分類子と、最新のチャンクベースおよびオンライン分類子の両方を含む、データストリーム分類に適応した推定器が実装されています。計算効率を改善するために、パッケージは、不均衡なバイナリ分類タスクの予測メトリックの独自の実装を利用します。

3D Aggregated Faster R-CNN for General Lesion Detection

一般的な病変検出のための3D集約高速R-CNN

著者：Ning Zhang, Yu Cao, Benyuan Liu, Yan Luo
URL：http://arxiv.org/abs/2001.11071v1

この論文の概要（機械翻訳による和訳）
病変は、人体の組織の損傷および異常です。それらの多くは、後に癌などの致命的な病気に変わる可能性があります。病変の検出は、早期診断とタイムリーな治療にとって非常に重要です。このため、コンピューター断層撮影（CT）スキャンはしばしばスクリーニングツールとして機能し、最新のオブジェクト検出技術を活用して病変を検出できますが、CTスキャンの病変は多くの場合小さくてまばらです。病変の局所領域は非常に混乱しやすく、Faster R-CNNの領域ベースの分類子ブランチは簡単に失敗します。したがって、既存の最先端のソリューションのほとんどは、候補生成とFalse Positive Reduction（FPR）の目的のために、2種類の異種ネットワーク（マルチフェーズ）を個別にトレーニングします。 RPNのバックボーンに「集約分類子ブランチ」をスタックすることによる3D集約高速R-CNNソリューション。この分類子ブランチには、分類子ブランチを強化するために、Feature AggregationおよびLocal MagnificationLayersが装備されています。モデルがLUNA16とDeepLesionの両方のデータセットで最先端のパフォーマンスを達成できることを示します。特に、LUNA16で最高の単一モデルFROCパフォーマンスを達成し、処理時間は推定スキャン時間4.2秒です。

Just Noticeable Difference for Machines to Generate Adversarial Images

敵の画像を生成するためのマシンの顕著な違い

著者：Adil Kaan Akan, Mehmet Ali Genc, Fatos T. Yarman Vural
URL：http://arxiv.org/abs/2001.11064v1

この論文の概要（機械翻訳による和訳）
堅牢な機械学習アルゴリズムを設計する1つの方法は、可能な限りアルゴリズムをtrickすことができる本物の敵対画像を生成することです。本研究では、真の画像に非常に類似した敵対画像を生成する新しい方法を提案しますが、これらの画像は元の画像と区別され、モデルによって別のカテゴリに割り当てられます。提案された方法は、Just Noticeable Differenceと呼ばれる実験心理学の一般的な概念に基づいています。私たちは機械学習モデルに対してJust Noticeable Differenceを定義し、モデルをだます可能性のある敵対的な画像に対して最も知覚しにくい差異を生成します。提案されたモデルは、機械学習アルゴリズムが誤ったラベルを出力するまで、勾配降下法によって真の画像を繰り返し歪ませます。ディープニューラルネットワークは、オブジェクト検出および分類タスク向けにトレーニングされています。コスト関数には、モデルによって検出できる著しく異なる敵対画像を生成する正則化条件が含まれます。この研究で生成された敵対画像は、最先端の敵対画像生成器の出力と比較してより自然に見えます。

Semantic Adversarial Perturbations using Learnt Representations

学習表現を使用した意味論的敵対摂動

著者：Isaac Dunn, Tom Melham, Daniel Kroening
URL：http://arxiv.org/abs/2001.11055v1

この論文の概要（機械翻訳による和訳）
画像分類子の敵対的な例は、通常、画像のピクセルに対する適切なノルム制約摂動を検索することによって作成されます。規範に制約されたピクセル摂動だけに対する堅牢性は不十分です。意味のある敵対的な例の豊富な新しいクラスの構築のための新しい方法を紹介します。生成モデルによって学習された階層的特徴表現を活用して、我々の手順は、セマンティック粒度の異なるレベルで敵対的ではあるが現実的な変更を行います。従来の作業とは異なり、これはセマンティックプロパティの固定カテゴリを対象としたアドホックアルゴリズムではありません。たとえば、私たちのアプローチは、これらの概念を手動でエンコードすることなく、画像内のオブジェクトのポーズ、位置、サイズ、形状、色、およびテクスチャを乱します。 MNISTおよびImageNetデータセットの最先端の分類子をだますセマンティック敵対例を作成することにより、この新しい攻撃を示します。

Developing a gender classification approach in human face images using modified local binary patterns and tani-moto based nearest neighbor algorithm

修正されたローカルバイナリパターンとタニモトベースの最近傍アルゴリズムを使用した人間の顔画像における性別分類アプローチの開発

著者：Shervan Fekri-Ershad
URL：http://arxiv.org/abs/2001.10966v1

この論文の概要（機械翻訳による和訳）
人間の識別は、コンピュータービジョンにおいて非常に注目される問題です。性別分類は、前処理ステップとして人間の識別に重要な役割を果たします。これまで、この問題を解決するためのさまざまな方法が提案されてきました。絶対に、分類精度は、研究者の性別分類の主な課題です。ただし、スマートフォンの画像キャプチャでは、回転、グレースケールの変動、ポーズ、照明の変化などのいくつかの課題が発生する場合があります。この点で、改善されたローカルバイナリパターン（MLBP）に基づいて人間の顔の画像の性別を分類するために、この論文では多段階アプローチが提案されています。 LBPは、ローカルコントラストおよびローカル空間構造情報を抽出するテクスチャ記述子です。ノイズ感度、回転感度、低識別機能などのいくつかの問題は、基本的なLBPの欠点と見なすことができます。 MLBPは、基本的なLBPの抽出されたバイナリパターンを分類するための新しい理論を使用して、欠点を処理します。提案されたアプローチには2つのステージが含まれます。まず、MLBPに基づいて人間の顔画像の特徴ベクトルを抽出します。次に、非線形分類子を使用して性別を分類できます。この論文では、Tani-Motoメトリック距離測定に基づいて最近傍分類子が評価されます。結果部分では、自己収集データベースとICPRデータベースが人間の顔データベースとして使用されます。結果は、精度の観点から提案されたアプローチの高品質を示すこの文献のいくつかの最新のアルゴリズムによって比較されます。提案されたアプローチの他の主な利点のいくつかは、回転不変、低ノイズ感度、サイズ不変、低計算複雑度です。提案されたアプローチは、データベース比較の数を減らすため、スマートフォンアプリケーションの計算の複雑さを軽減します。また、メモリとCPUの使用量が削減されるため、スマーフォンの同期アプリケーションのパフォーマンスも向上します。

Examining the Benefits of Capsule Neural Networks

Capsule Neural Networksの利点を調べる

著者：Arjun Punjabi, Jonas Schmid, Aggelos K. Katsaggelos
URL：http://arxiv.org/abs/2001.10964v1

この論文の概要（機械翻訳による和訳）
Capsuleネットワークは、最近開発されたニューラルネットワークのクラスであり、従来の畳み込みニューラルネットワークのいくつかの欠陥に対処する可能性があります。標準のスカラーアクティベーションをベクトルに置き換え、人工ニューロンを新しい方法で接続することにより、カプセルネットワークはコンピュータービジョンアプリケーションの次の素晴らしい開発を目指しています。ただし、これらのネットワークが従来のネットワークと実際に異なる動作をするかどうかを判断するには、カプセル機能の違いを調べる必要があります。この目的のために、カプセル機能を解明し、それらが最初の出版物に記載されているように機能するかどうかを判断する目的で、いくつかの分析を実行します。まず、カプセル機能と畳み込みニューラルネットワーク機能を視覚的に比較するために、詳細な視覚化分析を実行します。次に、カプセル機能がベクトルコンポーネント全体で情報をエンコードし、カプセルアーキテクチャのどのような変更が最も利点を提供するかを検討します。最後に、カプセル機能が視覚的変換を介してクラスオブジェクトのインスタンス化パラメーターをどの程度うまくエンコードできるかを調べます。

On Learning Vehicle Detection in Satellite Video

衛星ビデオにおける学習車両検出について

著者：Roman Pflugfelder, Axel Weissenfeld, Julian Wagner
URL：http://arxiv.org/abs/2001.10900v1

この論文の概要（機械翻訳による和訳）
航空画像や衛星画像での車両検出は、リモートセンシング画像の全体サイズと比較してピクセルの外観が小さいため、依然として困難です。このシナリオでは、リッチなテクスチャ、画像サイズとオブジェクトサイズの小さな中程度の比率などの暗黙の仮定に違反するため、従来のオブジェクト検出方法は非常に頻繁に失敗します。衛星ビデオは、誘導バイアスとして一時的な一貫性をもたらす非常に新しいモダリティです。衛星ビデオでの車両検出のアプローチは、バックグラウンド減算、フレーム差分、または中程度のパフォーマンス（0.26-0.82 $ F_1 $スコア）を示すサブスペースメソッドを使用します。この作業では、衛星ビデオの広域モーションイメージ（WAMI）に最近の深層学習を適用することを提案しています。最初のアプローチで、PlanetのSkySat-1LasVegasビデオで比較可能な結果（0.84 $ F_1 $）を示し、さらに改善の余地があります。

Unsupervised Anomaly Detection for X-Ray Images

X線画像の教師なし異常検出

著者：Diana Davletshina, Valentyn Melnychuk, Viet Tran, Hitansh Singla, Max Berrendorf, Evgeniy Faerman, Michael Fromm, Matthias Schubert
URL：http://arxiv.org/abs/2001.10883v1

この論文の概要（機械翻訳による和訳）
医療（画像）データのラベルを取得するには、希少で高価な専門家が必要です。さらに、あいまいな症状のために、病状を正しく診断するのに単一の画像で十分なことはめったにありません。代わりに、患者の病歴や検査結果などの追加の背景情報を考慮する必要があることがよくあります。したがって、エンドツーエンドの方法で不確実な最終診断を提供する解釈不能なブラックボックスシステムに焦点を当てる代わりに、異常のない画像で訓練された教師なしの方法を使用して医師が手のX線画像を評価するのに役立つ方法を調査します。この方法により、診断の効率が向上し、重要な領域が欠落するリスクが減少します。したがって、教師なし学習に最先端のアプローチを採用して異常を検出し、これらの方法の出力をどのように説明できるかを示します。異常の原因となることが多いノイズの影響を減らすために、強力な前処理パイプラインを導入します。さまざまなアプローチの広範な評価を提供し、ラベルがなくても手のX線画像の実世界のデータセットで満足のいく結果を達成できることを経験的に実証します。また、前処理の重要性を評価します。主な結果の1つは、前処理なしでは、ほとんどのアプローチがランダムよりも優れていることです。再現性を高め、研究を促進するために、https：//github.com/Valentyn1997/xrayでコードを公開します

Evaluating the Progress of Deep Learning for Visual Relational Concepts

視覚関係概念の深層学習の進捗状況の評価

著者：Sebastian Stabinger, Justus Piater, Antonio Rodríguez-Sánchez
URL：http://arxiv.org/abs/2001.10857v1

この論文の概要（機械翻訳による和訳）
畳み込みニューラルネットワーク（CNN）は、過去7年間で画像分類の最先端の方法になりましたが、多くの分類データセットで超人的なパフォーマンスを達成しているという事実にもかかわらず、ほとんど完全に失敗し、人間よりもはるかに性能が悪い既知のデータセットがあります。これらの問題は、概念学習の分野で定義されている関係概念に対応することを示します。したがって、視覚関係概念に関する現在のディープラーニング研究を紹介します。現在の文献を分析し、入力の反復処理と反復間の注意の移動が、現実の世界の概念学習を効率的かつ確実に解決するために必要であると仮定します。さらに、多くの現在のデータセットは、事前に事前に登録された形式でデータを提供することにより、テスト済みシステムのパフォーマンスを過大評価していると結論付けます。

H-OWAN: Multi-distorted Image Restoration with Tensor 1×1 Convolution

H-OWAN：Tensor 1×1畳み込みによるマルチディストーション画像復元

著者：Zihao Huang, Chao Li, Feng Duan, Qibin Zhao
URL：http://arxiv.org/abs/2001.10853v1

この論文の概要（機械翻訳による和訳）
変形を組み合わせた変形から画像を復元することは、困難な作業です。既存の作品では、有望な戦略は、さまざまな種類の歪みを処理するために並列の「操作」を適用することです。ただし、機能融合フェーズでは、異なる操作による機能の不均一性のため、少数の操作が復元結果を支配します。この目的のために、高次テンソル（外）積を課すことにより、テンソル1×1畳み込み層を導入します。これにより、異種の特徴を調和させるだけでなく、追加の非線形性も考慮します。テンソル積に起因する許容できないカーネルサイズを回避するために、次元の指数関数的成長を線形成長に変換できるカーネルウィテンソルネットワーク分解を構築します。新しいレイヤーで武装し、マルチディストーション画像復元のための高次OWANを提案します。数値実験では、提案されたネットは以前の最先端技術よりも優れており、より困難なタスクでも有望なパフォーマンスを示しています。

Under the Radar: Learning to Predict Robust Keypoints for Odometry Estimation and Metric Localisation in Radar

レーダーの下で：レーダーでの走行距離推定とメトリック位置確認のためのロバストなキーポイントを予測する学習

著者：Dan Barnes, Ingmar Posner
URL：http://arxiv.org/abs/2001.10789v1

この論文の概要（機械翻訳による和訳）
このホワイトペーパーでは、レーダーでの走行距離推定とメトリック定位のロバストキーポイントの検出を学習するための自己監視型フレームワークを示します。アーキテクチャ内に微分可能なポイントベースのモーション推定器を組み込むことにより、ローカリゼーションエラーのみからキーポイントの位置、スコア、および記述子を学習します。このアプローチは、堅牢なキーポイントを作るものに仮定を課すことを避け、それらをアプリケーションに最適化することを決定的に可能にします。さらに、このアーキテクチャはセンサーに依存せず、ほとんどのモダリティに適用できます。オックスフォードレーダーRobotCarデータセットからの280 kmの実世界走行で実験を実行し、最先端のインポイントベースのレーダーオドメトリを改善し、エラーを最大45％削減しながら、桁違いに高速に実行し、同時にメトリックループクロージャを解決しますこれらの出力を組み合わせて、都市環境でレーダーを使用した完全なマッピングとローカリゼーションが可能なフレームワークを提供します。

Comparison of scanned administrative document images

スキャンされた行政文書画像の比較

著者：Elena Andreeva, Vladimir V. Arlazarov, Oleg Slavin, Aleksey Mishev
URL：http://arxiv.org/abs/2001.10785v1

この論文の概要（機械翻訳による和訳）
この作業では、管理文書のデジタル化されたコピーの比較方法が検討されました。この問題は、たとえば、紙の形式の契約の終わりに銀行部門で、一方の当事者によって行われた可能性のある変更を見つけるために、2つの当事者によって署名された文書の2つのコピーを比較するときに発生します。文書画像比較の提案された方法は、テキスト特徴点の記述子である単語の画像比較のいくつかの方法の組み合わせに基づいている。テストは、公開PayslipDataset（フランス語）で実施されました。結果は、同じドキュメントのバージョンである2つの画像の違いを見つけることの高品質と信頼性を示しました。

Virtual KITTI 2

バーチャルKITTI 2

著者：Yohann Cabon, Naila Murray, Martin Humenberger
URL：http://arxiv.org/abs/2001.10773v1

この論文の概要（機械翻訳による和訳）
このホワイトペーパーでは、KITTIトラッキングベンチマークの5つのシーケンスクローンで構成される、よく知られたVirtual KITTIdatasetの更新バージョンを紹介します。さらに、データセットは、気象条件（霧、雨など）やカメラ構成の変更など、これらのシーケンスのさまざまなバリエーションを提供します（例：15度回転）。各シーケンスに対して、RGB、深度、クラスセグメンテーション、インスタンスセグメンテーション、フロー、およびシーンフローデータを含む複数の画像セットを提供します。カメラのパラメーターとポーズ、および車両の位置も利用できます。データセットの機能の一部を紹介するために、自動運転の分野の最先端のアルゴリズムを使用して、関連する複数の実験を実行しました。データセットは、https：//europe.naverlabs.com/Research/Computer-Vision/Proxy-Virtual-Worldsからダウンロードできます。

Patient Specific Biomechanics Are Clinically Significant In Accurate Computer Aided Surgical Image Guidance

患者固有の生体力学は、正確なコンピューター支援手術画像ガイダンスにおいて臨床的に重要です

著者：Michael Barrow, Alice Chao, Qizhi He, Sonia Ramamoorthy, Claude Sirlin, Ryan Kastner
URL：http://arxiv.org/abs/2001.10717v1

この論文の概要（機械翻訳による和訳）
拡張現実は、手術前の画像からビデオオーバーレイに手術のランドマークを融合するために、画像誘導手術（AR IG）で使用されます。物理シミュレーションは、手術の進行中にランドマークの正確な位置を維持し、血管などへの偶発的な損傷を回避して患者の安全を確保するために不可欠です。肝臓の手技では、AR IGシミュレーションの精度は、患者の疾患に特有の硬直変動をモデル化できないために妨げられます。磁気共鳴エラストグラフィ（MRE）データに基づいて患者固有の剛性変動を説明するための新しい方法を紹介します。私たちの知る限り、AR IGlandmarkの配置に生体内生体力学的データを使用することを初めて実証しました。この初期の作業では、MREdata駆動シミュレーションと従来の方法の比較評価により、ランドマーク配置中の精度の臨床的に有意な違いが示され、さらなる動物モデル試験の動機付けが行われました。

The Tensor Brain: Semantic Decoding for Perception and Memory

テンソル脳：知覚と記憶のための意味解読

著者：Volker Tresp, Sahand Sharifzadeh, Dario Konopatzki, Yunpu Ma
URL：http://arxiv.org/abs/2001.11027v1

この論文の概要（機械翻訳による和訳）
ナレッジグラフとテンソルの数学モデルを使用して知覚と記憶を分析し、人間の心の対応する機能の洞察を獲得します。私たちの議論は、基本的な事実を表現するための textit {subject-predicate-object}（SPO）トリプルからなる命題文の概念に基づいています。 SPOセンテンスはほとんどの自然言語の基礎ですが、脳内コミュニケーションや議論と推論の能力だけでなく、明確な知覚と宣言的記憶にも重要な場合があります。 SPO文のセットは知識グラフとして記述でき、隣接テンソルに変換できます。テンソルモデルを導入します。ここで、概念はインデックスおよび関連する埋め込みとして二重表現を持ち、脳内の暗黙的および明示的な知覚と記憶の理解に不可欠であると考えられる2つの構成要素です。私たちは、知覚と記憶の生物学的実現が情報処理に制約を課していると主張します。特に、明示的な知覚と宣言的記憶には、単純な実現では、4つの層に基づくセマンティックデコーダーが必要であることを提案します。情報をブロードキャストするためのメモリレスの表現層、第4に、処理センターおよびデータバッファとしてのワーキングメモリ層。ベイジアン脳の解釈では、意味的記憶はトリプルステートメントの事前定義を定義します。私たちは、進化と開発中に、意味記憶、エピソード記憶、自然言語が、感覚情報のより深い理解を得るために、エージェントのプロセスの創発的特性として進化したことを提案します。具体的なモデルの実現を提示し、最新のパフォーマンスを実証するベンチマークデータで提案モデルのいくつかの側面を検証します。

Pre-defined Sparsity for Low-Complexity Convolutional Neural Networks

低複雑度の畳み込みニューラルネットワークの定義済みのスパース性

著者：Souvik Kundu, Mahdi Nazemi, Massoud Pedram, Keith M. Chugg, Peter A. Beerel
URL：http://arxiv.org/abs/2001.10710v1

この論文の概要（機械翻訳による和訳）
深い畳み込みニューラルネットワークを処理するための高いエネルギーコストは、組み込みシステムやIoTデバイスなどのエネルギーに制約のあるプラットフォームでのユビキタスな展開を妨げます。この作業では、フィルター内およびフィルター間で定期的に繰り返されるサポートセットを備えた、事前定義されたスパース2Dカーネルを持つ畳み込み層を導入します。定期的なスパースカーネルの効率的な保存により、パラメーターの節約は、DRAMアクセスの減少によるエネルギー効率の大幅な改善につながる可能性があり、エネルギー消費とトレーニングと推論の両方の精度のトレードオフの大幅な改善が見込まれます。このアプローチを評価するために、ResNet18およびVGG16アーキテクチャのスパースバリアントで広く受け入れられている2つのデータセット、CIFAR-10およびTiny ImageNetを使用して実験を行いました。提案されたスパースバリアントは、ベースラインモデルと比較して、CIFAR-10上のResNet18の精度がわずかに失われるが、FLOPが5.6倍少なく、モデルパラメーターが最大82％少なくなります。TinyImageNetでトレーニングされたVGG16では、FLOPが5.8倍少なく、モデルパラメーターが83.3％減少し、トップ5（トップ1）の精度がわずか1.2％（2.1％）低下しています。また、提案されたアーキテクチャのパフォーマンスをShuffleNetおよびMobileNetV2のパフォーマンスと比較しました。類似のハイパーパラメーターとFLOPを使用すると、ResNet18バリアントは平均精度が2.8％向上します。

Depth Based Semantic Scene Completion with Position Importance Aware Loss

位置重要性を意識した損失を伴う深度ベースのセマンティックシーンの完成

著者：Yu Liu, Jie Li, Xia Yuan, Chunxia Zhao, Roland Siegwart, Ian Reid, Cesar Cadena
URL：http://arxiv.org/abs/2001.10709v1

この論文の概要（機械翻訳による和訳）
セマンティックシーンコンプリーション（SSC）は、シーンの3Dセマンティックセグメンテーションを推測し、同時に3D形状を完成させるタスクを指します。単一深度に基づくSSCの新しいハイブリッドネットワークであるPALNetを提案します。 PALNetは、2ストリームネットワークを利用して、きめの細かい深度情報を使用してマルチステージから2Dおよび3Dの両方の機能を抽出し、コンテキストとシーンの幾何学的な手がかりを効率的にキャプチャします。 SSCの現在の方法は、シーンのすべての部分を等しく処理し、オブジェクトの内部に不必要な注意を向けます。この問題に対処するために、ネットワークのトレーニング中に位置の重要性を認識するPosition AwareLoss（PA-Loss）を提案します。具体的には、PA-LossはLocal Geometric Anisotropyを考慮してシーン内の異なる位置の重要性を判断します。オブジェクトの境界やシーンのコーナーなどの重要な詳細を回復するのに役立ちます。 2つのベンチマークデータセットに関する包括的な実験により、提案された方法の有効性とその優れたパフォーマンスが実証されました。モデルとビデオのデモは、https：//github.com/UniLauX/PALNetにあります。

Early-detection and classification of live bacteria using time-lapse coherent imaging and deep learning

タイムラプスコヒーレントイメージングとディープラーニングを使用した生きた細菌の早期検出と分類

著者：Hongda Wang, Hatice Ceylan Koydemir, Yunzhe Qiu, Bijie Bai, Yibo Zhang, Yiyin Jin, Sabiha Tok, Enis Cagatay Yilmaz, Esin Gumustekin, Yair Rivenson, Aydogan Ozcan
URL：http://arxiv.org/abs/2001.10695v1

この論文の概要（機械翻訳による和訳）
直径60 mmの寒天プレート内の細菌増殖のコヒーレントな顕微鏡画像を定期的にキャプチャし、細菌増殖の迅速な検出と対応する種の分類のために、ディープニューラルネットワークを使用してこれらのタイムラプスホログラムを分析する計算ライブ細菌検出システムを提示します。私たちのシステムの性能は、水サンプル中の大腸菌と大腸菌群（すなわち、クレブシエラエアロゲネスと肺炎s菌）の迅速な検出によって実証されました。これらの結果は、環境保護庁（EPA）が承認した分析方法と比較して、細菌増殖の検出時間を12時間以上短縮する、ゴールドスタンダードの培養ベースの結果に対して確認されました。私たちの実験はさらに、この方法が99.2-100％の精度で7-10時間以内（および12時間以内に> 95％）の細菌コロニーの90％を首尾よく検出し、7.6-12時間で80％の精度でそれらの種を正しく識別することをさらに確認しました。サンプルの内殖培地のプレインキュベーションを使用して、システムは合計テスト時間の9時間以内に〜1コロニー形成単位（CFU）/ Lの検出限界（LOD）を達成しました。この計算細菌検出および分類プラットフォームは、非常に費用効果が高く（試験あたり約0.6ドル）、プレート表面全体でスキャン速度24 cm2 / minの高スループットであり、細菌検出に現在使用されている既存の分析方法との統合に非常に適しています寒天プレート上。ディープラーニングを搭載したこの自動化された費用対効果の高い生菌検出プラットフォームは、検出時間を大幅に短縮し、ラベル付けや専門家を必要とせずにコロニーの識別を自動化することにより、微生物学の幅広いアプリケーションに変革をもたらします。

ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes

ImVoteNet：画像投票による点群での3Dオブジェクト検出の強化

著者：Charles R. Qi, Xinlei Chen, Or Litany, Leonidas J. Guibas
URL：http://arxiv.org/abs/2001.10692v1

この論文の概要（機械翻訳による和訳）
3Dオブジェクト検出は、ポイントクラウドでの深層学習の進歩により、急速に進歩しています。最近のいくつかの作品では、ポイントクラウド入力のみで最先端のパフォーマンスを示しています（例：VoteNet）。ただし、ポイントクラウドデータには固有の制限があります。それらはまばらで、色情報が不足しており、センサーのノイズに悩まされることがよくあります。一方、画像は高解像度で豊かな質感を持っています。したがって、点群によって提供される3Dジオメトリを補完できます。それでも、画像情報を効果的に使用してポイントクラウドベースの検出を支援する方法は、未解決の問題です。この作業では、VoteNetの上に構築し、RGB-Dシーンに特化したImVoteNetと呼ばれる3D検出アーキテクチャを提案します。 ImVoteNetは、画像の2D票と点群の3D票の融合に基づいています。マルチモーダル検出に関する以前の作業と比較して、2D画像から幾何学的特徴と意味的特徴の両方を明示的に抽出します。カメラのパラメーターを活用して、これらの機能を3Dに引き上げます。 2D-3D機能の融合の相乗効果を向上させるために、マルチタワートレーニングスキームも提案します。挑戦的なSUN RGB-Dデータセットでモデルを検証し、5.7 mAPで最先端の結果を進めます。また、豊富なアブレーション研究を提供して、各設計選択の貢献度を分析しています。

PulseSatellite: A tool using human-AI feedback loops for satellite image analysis in humanitarian contexts

PulseSatellite：人道的文脈での衛星画像解析のために人間AIフィードバックループを使用するツール

著者：Tomaz Logar, Joseph Bullock, Edoardo Nemni, Lars Bromley, John A. Quinn, Miguel Luengo-Oroz
URL：http://arxiv.org/abs/2001.10685v1

この論文の概要（機械翻訳による和訳）
自然災害や紛争に対する人道的対応は、衛星画像分析により支援できます。人道的な文脈では、非常に具体的な衛星画像分析タスクは、運用サポートを提供するために正確かつタイムリーに実行する必要があります。 PulseSatelliteは、オンザフライで再訓練し、特定の人道的状況と地理に適応できるニューラルネットワークモデルを活用する共同衛星画像解析ツールです。 PulseSatelliteの機能を示す、避難所と洪水をそれぞれマッピングする2つの事例研究を紹介します。

Assistive Relative Pose Estimation for On-orbit Assembly using Convolutional Neural Networks

畳み込みニューラルネットワークを使用した軌道上アセンブリのための支援相対姿勢推定

著者：Shubham Sonawani, Ryan Alimo, Renaud Detry, Daniel Jeong, Andrew Hess, Heni Ben Amor
URL：http://arxiv.org/abs/2001.10673v1

この論文の概要（機械翻訳による和訳）
宇宙船または宇宙空間にある物体の正確なリアルタイムポーズ推定は、軌道上での宇宙船の整備および組立作業に必要な重要な機能です。宇宙の物体の位置推定は、電力と質量の制約に加えて、広範に変化する照明条件、高コントラスト、低解像度を含む宇宙画像のため、地球上の物体よりも困難です。この論文では、畳み込みニューラルネットワークを活用して、カメラに対する対象オブジェクトの移動と回転を一意に決定します。十分。アセンブリタスク用に設計されたシミュレーションフレームワークを使用して、変更されたCNNモデルをトレーニングするためのデータセットを生成し、さまざまなモデルの結果を、モデルがどの程度正確に姿勢を予測しているかを測定します。宇宙船や宇宙の姿勢推定におけるオブジェクトに対する多くの現在のアプローチとは異なり、このモデルは、このモデルをより堅牢で他のタイプの宇宙船に適用しやすくする手作りのオブジェクト固有の機能に依存しません。モデルは現在の機能選択方法と同等の性能を発揮するため、これらの方法と組み合わせて使用してより信頼性の高い推定値を提供できることが示されています。