rnavi

2020-01-25

画像認識分野論文まとめ【2020年01月25日arXiv公開】

アブストまとめ

画像認識

View数：5,267

Like0

お気に入り

2020年01月25日に発表された画像認識分野の論文31本のAbstractをまとめて和訳しました。

この記事の見出し

1 Towards naturalistic human neuroscience and neuroengineering: behavior mining in long-term video and neural recordings
2 Continual Local Replacement for Few-shot Image Recognition
3 Adaptation of a deep learning malignancy model from full-field digital mammography to digital breast tomosynthesis
4 A Hypersensitive Breast Cancer Detector
5 A multi-site study of a breast density deep learning model for full-field digital mammography and digital breast tomosynthesis exams
6 Semi-DerainGAN: A New Semi-supervised Single Image Deraining Network
7 A One-Shot Learning Framework for Assessment of Fibrillar Collagen from Second Harmonic Generation Images of an Infarcted Myocardium
8 Fast, Compact and Highly Scalable Visual Place Recognition through Sequence-based Matching of Overloaded Representations
9 Ada-LISTA: Learned Solvers Adaptive to Varying Models
10 Segmentation of Retinal Low-Cost Optical Coherence Tomography Images using Deep Learning
11 Learning Object Placements For Relational Instructions by Hallucinating Scene Representations
12 A Large Scale Event-based Detection Dataset for Automotive
13 Filter Sketch for Network Pruning
14 DCT-Conv: Coding filters in convolutional networks with Discrete Cosine Transform
15 Information Compensation for Deep Conditional Generative Networks
16 Channel Pruning via Automatic Structure Search
17 Observer variation-aware medical image segmentation by combining deep learning and surrogate-assisted genetic algorithms
18 Detecting Deficient Coverage in Colonoscopies
19 Weakly-Supervised Lesion Segmentation on CT Scans using Co-Segmentation
20 CNN-CASS: CNN for Classification of Coronary Artery Stenosis Score in MPR Images
21 Deformation-aware Unpaired Image Translation for Pose Estimation on Laboratory Animals
22 Structured Compression and Sharing of Representational Space for Continual Learning
23 Tensor-Based Grading: A Novel Patch-Based Grading Approach for the Analysis of Deformation Fields in Huntington’s Disease
24 Disassembling the Dataset: A Camera Alignment Mechanism for Multiple Tasks in Person Re-identification
25 MRI Banding Removal via Adversarial Training
26 Lipreading using Temporal Convolutional Networks
27 Ternary Feature Masks: continual learning without any forgetting
28 Interpretable End-to-end Urban Autonomous Driving with Latent Deep Reinforcement Learning
29 Robust Explanations for Visual Question Answering
30 Cross-Domain Few-Shot Classification via Learned Feature-Wise Transformation
31 Audiovisual SlowFast Networks for Video Recognition

Towards naturalistic human neuroscience and neuroengineering: behavior mining in long-term video and neural recordings

自然な人間の神経科学と神経工学に向けて：長期ビデオおよび神経記録における行動マイニング

著者：Satpreet H. Singh, Steven M. Peterson, Rajesh P. N. Rao, Bingni W. Brunton
URL：http://arxiv.org/abs/2001.08349v1

この論文の概要（機械翻訳による和訳）
脳記録技術と人工知能の最近の進歩は、従来の制御された実験を超えた神経科学の新しいパラダイムを推進しています。自然主義的な神経科学は、制約のない設定で実行される自発的行動に関連する神経計算を研究します。先験的な実験計画を欠くそのような非構造化データを分析することは、特にデータがマルチモーダルで長期にわたる場合、大きな課題のままです。ここでは、12人の被験者について同時に記録された人間の皮質脳波記録（ECoG）と自然な行動のビデオデータの大きな（$ approx $ 250 GB /被験者）データセットを分析するための自動化されたアプローチについて説明します。私たちのパイプラインは、コンピュータービジョン、離散潜在変数モデリング、および文字列パターンマッチングの組み合わせを使用して、長期（7-9日）の自然な行動データの人間の上肢運動イベントの数千のインスタンスを発見し、注釈を付けます。脳データは、従来の制御された実験からの以前の発見を裏付ける運動の神経的特徴を明らかにします。また、運動開始検出タスク用のデコーダーのプロトタイプを作成して、脳とコンピューターのインターフェースアプリケーションのトレーニングデータのソースとしてのパイプラインの有効性を実証します。キュレーションされたデータセットを公開する予定です。これは、以前は利用できなかった規模で自然な神経および行動の変動をキャプチャします。このデータは、このような自然な変動性を取り入れ、実世界の設定でより堅牢に機能する神経機能と復号化のモデルに関するさらなる研究を可能にするものと考えています。

Continual Local Replacement for Few-shot Image Recognition

少数ショット画像認識のための継続的なローカル置換

著者：Canyu Le, Zhonggui Chen, Xihan Wei, Biao Wang, Lei Zhang
URL：http://arxiv.org/abs/2001.08366v1

この論文の概要（機械翻訳による和訳）
数発学習の目標は、1つまたは少数のトレーニングデータに基づいて、新規クラスを認識できるモデルを学習することです。主に次の2つの側面により課題があります。（1）新規クラスの優れた特徴表現が不足している。（2）いくつかのラベル付きデータは、真のデータ分布を正確に表すことができませんでした。この作業では、高度なネットワークアーキテクチャを使用して、より優れた機能表現を学習し、2番目の問題に焦点を当てます。データ不足の問題に対処するために、新しい継続的なローカル交換戦略が提案されています。ラベルのない画像のコンテンツを利用して、ラベルの付いた画像を継続的に強化します。具体的には、擬似ラベリング戦略が採用され、その場でセマンティック類似画像を常に選択します。元のラベル付き画像は、次のエポックトレーニング用に選択した画像にローカルで置き換えられます。このようにして、モデルはラベルのない画像から新しいセマンティック情報を直接学習でき、埋め込みスペース内の監視信号の容量を大幅に拡大できます。これにより、モデルは一般化を改善し、分類のより良い決定境界を学習できます。広範な実験により、当社のアプローチがさまざまな少数ショット画像認識ベンチマークで既存の方法よりも非常に競争力のある結果を達成できることが実証されています。

Adaptation of a deep learning malignancy model from full-field digital mammography to digital breast tomosynthesis

フルフィールドデジタルマンモグラフィからデジタル乳房トモシンセシスへの深層学習悪性腫瘍モデルの適応

著者：Sadanand Singh, Thomas Paul Matthews, Meet Shah, Brent Mombourquette, Trevor Tsue, Aaron Long, Ranya Almohsen, Stefano Pedemonte, Jason Su
URL：http://arxiv.org/abs/2001.08381v1

この論文の概要（機械翻訳による和訳）
マンモグラフィに基づくスクリーニングは、乳がんの死亡率を低下させるのに役立ちましたが、特異性が低く、不必要な検査や手順、低感度につながる可能性のある有害性にも関連しています。デジタル乳房トモシンセシス（DBT）は、感度と特異性の両方を高めることで従来のマンモグラフィを改善し、臨床現場で一般的になっていますが、ディープラーニング（DL）モデルは、主に従来の2Dフルフィールドデジタルマンモグラフィ（FFDM）またはスキャンされたフィルム画像で開発されました。注釈付きの大きなDBTデータセットが不足しているため、DBTのモデルをゼロからトレーニングすることは困難です。この作業では、FFDMimagesでトレーニングされたモデルをDBTイメージに一般化する方法を示します。特に、平均ヒストグラムマッチング（HM）およびDL微調整手法を使用して、FFDMモデルをDBT画像の2D最大強度投影（MIP）に一般化します。提案されたアプローチでは、FFDMとDBTドメインの違いはHMによって縮小され、その後、豊富なFFDMイメージでトレーニングされたベースモデルが微調整されます。特定された調査結果の周りに抽出されたオンイメージパッチを評価する場合、RODM AUCと比較して、FFDMでは$ sim 0.9 $、MIP画像では$ sim 0.85 $のレシーバー動作特性曲線（ROC AUC）の下で同様の領域を達成できますMIPイメージで直接テストした場合、$ sim 0.75 $。

A Hypersensitive Breast Cancer Detector

過敏性乳がん検出器

著者：Stefano Pedemonte, Brent Mombourquette, Alexis Goh, Trevor Tsue, Aaron Long, Sadanand Singh, Thomas Paul Matthews, Meet Shah, Jason Su
URL：http://arxiv.org/abs/2001.08382v1

この論文の概要（機械翻訳による和訳）
マンモグラフィのスクリーニングによる乳がんの早期発見により、生存率が20〜35％増加します。しかし、マンモグラフィのスクリーニングを求めている女性の人口の増加に対応するのに十分な放射線科医はいません。市販のコンピューター支援検出（CADe）ソフトウェアは何十年も放射線科医に利用されてきましたが、調査結果の範囲に対する感度が低いため、フルフィールドデジタルマンモグラフィ（FFDM）画像の解釈を改善することに失敗しました。この作業では、マンモグラフィ上重要な所見のゆるい境界ボックスを備えた多数のFFDM画像を活用して、極端な感度でディープラーニング検出器をトレーニングします。 Hourglassアーキテクチャからの作業に基づいて、地上空間ボックスを中心とした2Dガウスブロブを生成することを目的として、高空間解像度でセグメンテーションのような画像を生成するモデルをトレーニングします。ピクセル単位の$ L_2 $ノルムを、高感度を達成するために設計された弱監視損失に置き換え、誤検出と誤検出を非対称的にペナルティ化する一方で、不整合な予測の許容範囲を許可することにより、緩やかな境界ボックスのノイズを和らげます。結果として得られるシステムは、悪性の所見に対して0.99の感度を達成し、画像ごとに4.8の偽陽性マーカーしかありません。 CADeシステムで使用すると、このモデルは、放射線科医がモデルによって提案された場所のみに信頼を持って注意を集中し、解釈プロセスを促進し、そうでなければ見逃される可能性のある発見に注意を向けることができる新しいワークフローを可能にすることができます。ほぼ完全な感度のため、提案されている検出器は、2段階検出システムの高性能提案ジェネレーターとしても使用できます。

A multi-site study of a breast density deep learning model for full-field digital mammography and digital breast tomosynthesis exams

フルフィールドデジタルマンモグラフィおよびデジタル乳房トモシンセシス試験のための乳房密度深層学習モデルのマルチサイト研究

著者：Thomas P. Matthews, Sadanand Singh, Brent Mombourquette, Jason Su, Meet P. Shah, Stefano Pedemonte, Aaron Long, David Maffit, Jenny Gurney, Rodrigo Morales Hoil, Nikita Ghare, Douglas Smith, Stephen M. Moore, Susan C. Marks, Richard L. Wahl
URL：http://arxiv.org/abs/2001.08383v1

この論文の概要（機械翻訳による和訳）
$ textbf {目的：} $ FFDM画像とlimitedSMデータを使用した3D DBT試験から派生した合成2Dマンモグラフィ（SM）画像のマルチサイト設定で乳房画像レポートおよびデータシステム（BI-RADS）乳房密度DLモデルを開発する。 $ textbf {Materials and Methods：} $このレトロスペクティブ研究では、2008年から2017年に取得したFFDM画像（サイト1：57492患者、187627試験、750752画像）を使用してBIモデルのBI密度を予測するDLモデルをトレーニングしました。 FFDMモデルは、2つの機関のSMデータセットを使用して評価されました（サイト1：3842患者、3866試験、2016年から2017年に取得した14472画像、サイト2：7557患者、16283試験、63973画像、2015年から2019）。 SMデータセットのパフォーマンスを改善するために適応方法が調査され、各適応方法に対するデータセットサイズの影響が考慮されます。統計的有意性は、ブートストラップによって推定された信頼区間（CI）を使用して評価されました。 $ textbf {結果：} $適応なしで、モデルは3つのデータセットすべてについて元の放射線科医との密接な一致を示しました（Site1 FFDM：線形加重$ kappa_w $ = 0.75、95 ％CI：[0.74、0.76];サイト1 SM：$ kappa_w $ = 0.71、CI：[0.64、0.78];サイト2 SM：$ kappa_w $ = 0.72、CI：[0.70,0.75]）。適応により、サイト2（サイト1：$ kappa_w $ = 0.72、CI：[0.66、0.79]、サイト2：$ kappa_w $ = 0.79、CI：[0.76、0.81]）のSMイメージを500個のみ使用してパフォーマンスが向上しました。各サイト。 $ textbf {結論：} $ BI-RADS乳房密度DLモデルは、SMimagesのトレーニングなしで2つの機関からのFFDMおよびSM画像で強力なパフォーマンスを示し、SM画像をほとんど使用せずに改善しました。

Semi-DerainGAN: A New Semi-supervised Single Image Deraining Network

Semi-DerainGAN：新しい半教師付き単一画像排水ネットワーク

著者：Yanyan Wei, Zhao Zhang, Haijun Zhang, Jie Qin, Mingbo Zhao
URL：http://arxiv.org/abs/2001.08388v1

この論文の概要（機械翻訳による和訳）
合成データセット内の雨縞の形状と方向は実際の画像とは非常に異なるため、単一の画像から雨縞を除去することは依然として困難な作業です。監視下の深い排水ネットワークは合成データセットで印象的な結果を得ましたが、雨除去能力の一般化が弱いため、実際の画像では満足のいく結果を得ることができません。過剰に排水された/不足した結果に。この論文では、Semi-DerainGANと呼ばれる新しい半教師付きGANベースの排水ネットワークを提案します。これは、2つの監視付きおよび教師なしプロセスを使用して、均一ネットワークで合成雨画像と実際の雨画像の両方を使用できます。具体的には、両方のプロセスの同じパラメータを共有するSSRMLと呼ばれる半教師付きレインストリーク学習器が導出され、実際の画像がより多くのストリーク情報に寄与するようになります。より良いドレイン結果を提供するために、実際のペアと偽のペアを区別するためのペア識別器を設計します。また、新しい実世界の雨の画像データセットReal200を提供して、合成と実画像のドメイン間の差異を軽減します。公開データセットに関する広範な結果は、我々のモデルが特に実際の画像で競争力のあるパフォーマンスを得ることができることを示しています。

A One-Shot Learning Framework for Assessment of Fibrillar Collagen from Second Harmonic Generation Images of an Infarcted Myocardium

梗塞心筋の第二高調波発生画像からの線維性コラーゲンの評価のためのワンショット学習フレームワーク

著者：Qun Liu, Supratik Mukhopadhyay, Maria Ximena Bastidas Rodriguez, Xing Fu, Sushant Sahu, David Burk, Manas Gartia
URL：http://arxiv.org/abs/2001.08395v1

この論文の概要（機械翻訳による和訳）
心筋梗塞（MI）は、心臓発作を指す科学用語です。この研究では、梗塞マウスの心臓における2光子励起細胞自家蛍光とともに高度に非中心対称のアセンブリを示すコラーゲン繊維から、関連性の高い第2高調波発生（SHG）キューを推測します特にMI後の初期段階を対象とする線維症をプローブします。MI後のスペクトル特異性と感度を備えた心臓組織の構造的配置とともに、高空間分解能でコラーゲンの2Dアセンブリの決定を可能にする堅牢なワンショット機械学習アルゴリズムを提供します。初期段階での線維症の程度の検出、評価、および正確な定量化は、さらなる進行を防ぎ、患者の生存のための心臓移植の必要性を判断する治療法の開発を導くでしょう。

Fast, Compact and Highly Scalable Visual Place Recognition through Sequence-based Matching of Overloaded Representations

オーバーロードされた表現のシーケンスベースのマッチングによる、高速でコンパクトで拡張性の高い視覚的な場所認識

著者：Sourav Garg, Michael Milford
URL：http://arxiv.org/abs/2001.08434v1

この論文の概要（機械翻訳による和訳）
視覚的な場所認識アルゴリズムは、ストレージフットプリント、計算要件、および結果として生じるパフォーマンスの3つの重要な特性をトレードオフします。これらはしばしばリコール率で表されます。重要な先行研究では、非常にコンパクトな場所表現、準線形計算スケーリング、および準線形ストレージスケーリング技術が調査されましたが、これらの点の1つ以上で常に重大な妥協が行われ、比較的小さなデータセットでのみ実証されています。この論文では、超コンパクトな場所表現、準線形ストレージのスケーリング、および非常に軽量な計算要件の組み合わせを初めて可能にする、新しい場所認識システムを紹介します。私たちのアプローチは、ロボティクスドメインの多くの空間データの本質的にシーケンシャルな性質を活用し、より多くの衝突につながるが、シーケンスベースのマッチングによって解決される意図的に粗いスカラー量子化ベースのハッシングを通じて、典型的なターゲット基準を逆にします。初めて、非常に大きな新しい1,000万個の場所のデータセットで効果的な場所認識率を達成できることを示します。場所ごとに8バイトのストレージと37Kの単一操作が必要で、100フレームのシーケンスと一致する50％以上のリコールを実現します。従来の最先端のアプローチは、1300倍の計算を消費し、破局的に失敗します。さまざまなサイズの量子化ベクトル長の下でのハッシュオーバーロードアプローチの有効性を調査する分析を提示し、ニアミスマッチと実際のマッチ選択との比較を行い、量子化に対するデータの分散再スケーリングの影響を特徴付けます。

Ada-LISTA: Learned Solvers Adaptive to Varying Models

Ada-LISTA：さまざまなモデルに適応する学習済みソルバー

著者：Aviad Aberdam, Alona Golts, Michael Elad
URL：http://arxiv.org/abs/2001.08456v1

この論文の概要（機械翻訳による和訳）
LISTA（学習反復ソフトしきい値アルゴリズム）などの反復ソルバーの展開に基づくニューラルネットワークは、パフォーマンスが向上するため広く使用されています。それにもかかわらず、非学習ソルバーとは対照的に、これらのネットワークは特定の辞書でトレーニングされるため、さまざまなモデルシナリオには適用できません。この作業では、Ada-LISTAと呼ばれる適応学習ソルバーを紹介します。Ada-LISTAは、信号のペアとそれに対応する辞書を入力として受け取り、すべてに役立つユニバーサルアーキテクチャを学習します。このスキームは、辞書の摂動や置換を含むさまざまなモデルの線形レートでのスパースコーディングを解決することが保証されていることを証明します。また、その実用的な適応能力を示す広範な数値研究も提供しています。最後に、Ada-LISTAをnaturalimage inpaintingに展開します。パッチマスクは空間的に変化するため、そのような適応が必要です。

Segmentation of Retinal Low-Cost Optical Coherence Tomography Images using Deep Learning

深層学習を用いた網膜低コスト光干渉断層法画像のセグメンテーション

著者：Timo Kepp, Helge Sudkamp, Claus von der Burchard, Hendrik Schenke, Peter Koch, Gereon Hüttmann, Johann Roider, Mattias P. Heinrich, Heinz Handels
URL：http://arxiv.org/abs/2001.08480v1

この論文の概要（機械翻訳による和訳）
加齢性黄斑変性症（AMD）の治療には、光干渉断層法（OCT）を使用した連続眼球検査が必要です。治療の必要性は、疾患固有のOCTベースのバイオマーカーの存在または変化によって決定されます。したがって、モニタリング頻度はAMD治療の成功に重要な影響を及ぼします。しかし、現在の治療計画のモニタリング頻度は患者に個別に適応しておらず、そのためしばしば不十分です。家庭用監視OCTシステムの重要な要件の1つは、特定のOCTベースのバイオマーカーを使用して病理学的変化を自動的に検出および定量化するコンピューター支援診断です。この論文では、初めて、深層学習ベースのアプローチを使用して、新規自己検査低コスト全視野OCT（SELF-OCT）の網膜スキャンをセグメント化します。畳み込みニューラルネットワーク（CNN）は、網膜全体と色素上皮剥離（PED）をセグメント化するために使用されます。 CNNベースのアプローチは網膜を高精度でセグメント化できるのに対し、PEDのセグメンテーションは困難であることが証明されています。さらに、畳み込みノイズ除去オートエンコーダー（CDAE）は、以前に網膜形状情報を学習したCNN予測を改良します。 CDAEの改良により、OCT画像のアーチファクトに起因するセグメンテーションエラーを修正できることが示されています。

Learning Object Placements For Relational Instructions by Hallucinating Scene Representations

シーン表現を幻覚化することによるリレーショナル指導のためのオブジェクト配置の学習

著者：Oier Mees, Alp Emek, Johan Vertens, Wolfram Burgard
URL：http://arxiv.org/abs/2001.08481v1

この論文の概要（機械翻訳による和訳）
環境内で人間と共存し、彼らのためにサービスを実行するロボットには、それらと対話する能力が必要です。このようなロボットの特定の要件の1つは、空間関係を理解し、ユーザーが表現した空間関係に従ってオブジェクトを配置できることです。この作業では、単一入力画像からの空間関係のセットのピクセル単位のオブジェクト配置確率を推定するための畳み込みニューラルネットワークを提示します。トレーニング中、ネットワークは、幻覚の高レベルシーン表現を補助タスクとして分類することで学習信号を受信します。以前のアプローチとは異なり、この方法は、ピクセルワイズ関係確率またはオブジェクトの3Dモデルのグラウンドトゥルースデータを必要としないため、実用性が大幅に向上します。アプリケーション。現実世界のデータと人間とロボットの実験を使用して得られた結果は、空間関係を再現するためにオブジェクトを配置する最適な方法についての推論における本方法の有効性を示しています。

A Large Scale Event-based Detection Dataset for Automotive

自動車用の大規模なイベントベースの検出データセット

著者：Pierre de Tournemire. Davide Nitti, Etienne Perot, Davide Migliore, Amos Sironi
URL：http://arxiv.org/abs/2001.08499v1

この論文の概要（機械翻訳による和訳）
イベントカメラ用の最初の非常に大きな検出データセットを紹介します。データセットは、304×240 ATISセンサーで取得された39時間を超える自動車録画で構成されています。都市、高速道路、郊外、田舎の風景から、さまざまな天候や照明条件に至るまで、オープンロードと非常に多様な運転シナリオが含まれています。記録に含まれる車と歩行者の手動境界ボックス注釈も1〜4Hzの周波数で提供され、合計で255,000を超えるラベルが生成されます。このサイズのラベル付きデータセットの可用性は、オブジェクト検出や分類などのイベントベースのビジョンタスクの大きな進歩に貢献すると考えています。また、オプティカルフロー、運動からの構造、追跡など、他のタスクにもメリットが期待されます。たとえば、自己監視型学習方法によって大量のデータを活用できます。

Filter Sketch for Network Pruning

ネットワークプルーニングのフィルタースケッチ

著者：Mingbao Lin, Rongrong Ji, Shaojie Li, Qixiang Ye, Yonghong Tian, Jianzhuang Liu, Qi Tian
URL：http://arxiv.org/abs/2001.08514v1

この論文の概要（機械翻訳による和訳）
本論文では、事前に訓練されたネットワークの重み（フィルタ）の情報を保存することにより、新しいネットワークの枝刈りアプローチを提案します。 FilterSketchと呼ばれる私たちのアプローチは、事前に訓練された重みの2次情報をエンコードします。これにより、枝刈りされたネットワークをエンドツーエンドで微調整することでモデルのパフォーマンスが回復されます。情報を保存したネットワークのプルーニングは、マトリックススケッチ問題として近似できます。これは、既製の頻度方向法によって効率的に解決されます。これにより、FilterSketchは、ゼロからのトレーニングもデータ駆動型の反復最適化も必要とせず、プルーニングの最適化における時間消費の大きさのオーダー削減につながります。 CIFAR-10の実験は、FilterSketchがFLOPの63.3％を削減し、ResNet-110の精度コストを無視して、ネットワークパラメーターの59.9％を削減することを示しています。 ILSVRC-2012では、45.5％のフロップの削減を達成し、ResNet-50の0.69％のわずかなトップ5精度低下のみでパラメーターの43.0％を削除します。提案されたFilterSketchのソースコードは、https：//github.com/lmbxmu/FilterSketchで入手できます。

DCT-Conv: Coding filters in convolutional networks with Discrete Cosine Transform

DCT-Conv：離散コサイン変換を使用した畳み込みネットワークのフィルターのコーディング

著者：Karol Chęciński, Paweł Wawrzyński
URL：http://arxiv.org/abs/2001.08517v1

この論文の概要（機械翻訳による和訳）
たたみ込みニューラルネットワークは、膨大な数の訓練された重みに基づいています。畳み込みニューラルレイヤーのフィルターが少数の訓練されたパラメーターに基づいて決定される研究のラインに従います。本論文では、訓練されたパラメーターは、逆離散コサイン変換（IDCT JPEGからの解凍にも同じことが適用されます）。スペクトルの選択されたコンポーネントのスイッチをオフにすることにより、ネットワークの訓練された重みの数を減らすことが、そのパフォーマンスにどのように影響するかを分析します。私たちの実験は、訓練されたDCTパラメータでフィルタをコーディングすると、従来の畳み込みよりも改善されることを示しています。また、この方法で変更されたネットワークのパフォーマンスは、これらのパラメーターをオフに切り替える範囲が拡大するにつれて非常にゆっくりと低下します。一部の実験では、これらのパラメーターの99.9％をオフにしたときに、良好なパフォーマンスが観察されます。

Information Compensation for Deep Conditional Generative Networks

深い条件付き生成ネットワークの情報補償

著者：Zehao Wang, Kaili Wang, Tinne Tuytelaars, Jose Oramas
URL：http://arxiv.org/abs/2001.08559v1

この論文の概要（機械翻訳による和訳）
近年、監視なし/弱監視の条件付き生成的敵対ネットワーク（GAN）は、データのモデル化と生成のタスクで多くの成功を収めています。しかし、それらの弱点の1つは、潜在空間にエンコードされた表現を特徴付けるさまざまな要因を分離または解きほぐす能力の低さにあります。この問題に対処するために、新しい情報補償接続（IC接続）を使用した監視なしの条件付きGANの新しい構造を提案します。提案されたIC接続により、GANはデコンボリューション操作中に発生した情報損失を補償できます。さらに、離散および連続潜在変数のもつれの程度を定量化するために、新しい評価手順を設計します。私たちの経験的な結果は、我々の方法が無条件の世代設定での最新のGANと比較してより良いもつれを解くことを示唆します。

Channel Pruning via Automatic Structure Search

自動構造検索によるチャネルプルーニング

著者：Mingbao Lin, Rongrong Ji, Yuxin Zhang, Baochang Zhang, Yongjian Wu, Yonghong Tian
URL：http://arxiv.org/abs/2001.08565v1

この論文の概要（機械翻訳による和訳）
チャンネルプルーニングは、ディープニューラルネットワークを圧縮する主要なアプローチの1つです。この目的のために、ほとんどの既存のプルーニング方法は、重要度/最適化、または準最適なプルーニングに欠陥がある経験則設計に基づく正則化によるチャネル（フィルター）の選択に焦点を当てています。本稿では、ABCPrunerと呼ばれる人工蜂コロニーアルゴリズム（ABC）に基づく新しいチャネル枝刈り方法を提案します。した。深いネットワークの剪定された構造の非常に巨大な組み合わせを解決するために、保存されたチャネルが特定のスペースに制限される組み合わせを縮小することを最初に提案します。したがって、剪定された構造の組み合わせを大幅に削減できます。そして、最適な枝刈り構造の探索を最適化問題として定式化し、ABCアルゴリズムを統合して自動的に解決し、人間の干渉を軽減します。 ABCPrunerはより効果的であることが実証されており、これにより、エンドツーエンドの方法で効率的に微調整を行うこともできます。 CIFAR-10の実験では、ABCPrunerがFLGの73.68 ％とパラメーターの88.68 ％を削減し、VGGNet-16の精度が0.06 ％向上していることを示しています。 ILSVRC-2012では、62.87 ％FLOPsの削減を達成し、ResNet-152の精度コストを無視してパラメーターの60.01 ％を削除します。ソースコードはhttps://github.com/lmbxmu/ABCPrunerで入手できます。

Observer variation-aware medical image segmentation by combining deep learning and surrogate-assisted genetic algorithms

深層学習と代理支援の遺伝的アルゴリズムを組み合わせたオブザーバーバリエーション認識医療画像セグメンテーション

著者：Arkadiy Dushatskiy, Adriënne M. Mendrik, Peter A. N. Bosman, Tanja Alderliesten
URL：http://arxiv.org/abs/2001.08552v1

この論文の概要（機械翻訳による和訳）
最近、深層学習アルゴリズムを使用した医療画像の自動セグメンテーションに大きな進歩がありました。ほとんどの作品では、オブザーバーの変動はトレーニングデータを異質にするため問題であると認められていますが、この変動を明示的に捕捉する試みはこれまでのところ行われていません。ここでは、さまざまなスタイルのセグメンテーションを模倣できるアプローチを提案します。これにより、潜在的に自動セグメンテーション手法の品質と臨床的受容性を向上させることができます。この作業では、利用可能なすべてのデータで1つのニューラルネットワークをトレーニングする代わりに、異なるセグメンテーションバリエーションに属するデータのサブグループでいくつかのニューラルネットワークを個別にトレーニングします。先験的には、データにどのセグメンテーションのスタイルが存在するのかが不明確である可能性があり、異なるスタイルは必ずしも一対一の異なるオブザーバーにマッピングされるとは限らないため、サブグループは自動的に決定される必要があります。これを実現するには、遺伝的アルゴリズムを使用して最適なデータパーティションを検索します。したがって、各ネットワークは、グループ化されたトレーニングデータから特定のセグメンテーションスタイルを学習できます。観察者の変動をシミュレートしたオープンソースの前立腺セグメンテーションMRIデータの原理結果の証明を提供します。このアプローチでは、すべてのデータでトレーニングされた1つのネットワークと比較して、サイコロと表面のダイス係数の面で最大23％（シミュレートされた変動に応じて）向上します。

Detecting Deficient Coverage in Colonoscopies

大腸内視鏡検査での不十分なカバレッジの検出

著者：Daniel Freedman, Yochai Blau, Liran Katzir, Amit Aides, Ilan Shimshoni, Danny Veikherman, Tomer Golany, Ariel Gordon, Greg Corrado, Yossi Matias, Ehud Rivlin
URL：http://arxiv.org/abs/2001.08589v1

この論文の概要（機械翻訳による和訳）
結腸直腸癌（CRC）は世界的な健康問題であり、年間90万人が死にます。大腸内視鏡検査は、ポリープが癌になる前にポリープを検出して除去することにより、CRCを予防するための最適なツールです。しかし、大腸内視鏡検査は、内視鏡検査医が定期的にポリープの平均22-28％を逃すという事実によって妨げられています。これらの見落とされたポリープの一部は内視鏡医の視野に現れますが、他のものは単に手順が標準以下であるため見逃されています。つまり、すべての結腸が見られるわけではありません。この論文は、不十分なカバレッジを検出し、それにより内視鏡医に特定の領域を再訪するよう警告することができるC2D2（深さによるコロノスコピーカバレッジ欠損）アルゴリズムの導入を通して、大腸内視鏡検査における標準以下のカバレッジの問題を修正しようとします。より具体的には、C2D2は2つの個別のアルゴリズムで構成されます。最初は通常のRGBビデオストリームが与えられるとコロンの深度推定を行い、2番目はこれらの深度推定が与えられるとカバレッジを計算します。コロン全体のカバレッジを計算するのではなく、アルゴリズムはセグメントごとにカバレッジをローカルに計算します。その後、C2D2は、結腸の特定の領域がカバレッジ不足に陥っているかどうか、そして内視鏡医がその領域に戻ることができるかどうかをリアルタイムで示すことができます。カバレッジアルゴリズムは、大規模な方法で評価される最初のアルゴリズムです。私たちの深さ推定技術は、大腸内視鏡検査に適用される最初のキャリブレーション不要の教師なし方法です。 C2D2アルゴリズムは、カバレッジ不足の検出における最先端の結果を達成します。これは、人間の専門家よりも2.4倍正確です。

Weakly-Supervised Lesion Segmentation on CT Scans using Co-Segmentation

共セグメンテーションを使用したCTスキャンでの弱教師付き病変セグメンテーション

著者：Vatsal Agarwal, Youbao Tang, Jing Xiao, Ronald M. Summers
URL：http://arxiv.org/abs/2001.08590v1

この論文の概要（機械翻訳による和訳）
コンピューター断層撮影（CT）スキャンでの病変セグメンテーションは、病変/腫瘍成長の変化を正確に監視するための重要なステップです。ただし、手動でのセグメンテーションは非常に時間がかかり、高価であり、専門知識が必要なため、このタスクは非常に困難です。現在の診療は、固形腫瘍における反応評価基準（RECIST）と呼ばれる不正確な代替物に依存しています。これらのマーカーには、病変領域に関する詳細な情報はありませんが、病院の画像保管および通信システム（PACS）でよく見られます。したがって、これらのマーカーは、2D病変セグメンテーションの弱い監視の強力なソースとして機能する可能性があります。この問題にアプローチするために、本論文では、最初にRECIST測定から初期病変マスクを生成し、次にコセグメンテーションを利用して病変の類似性を活用し、初期マスクを改良する、畳み込みニューラルネットワーク（CNN）ベースの弱教師付き病変セグメンテーション手法を提案します。 NIH DeepLesionデータセットの実験結果は、提案された共セグメンテーションアプローチが病変セグメンテーションパフォーマンスを大幅に改善することを示しています。たとえば、Diceスコアは約4.0％（85.8％から89.8％）。

CNN-CASS: CNN for Classification of Coronary Artery Stenosis Score in MPR Images

CNN-CASS：MPR画像の冠動脈狭窄スコアの分類のためのCNN

著者：Mariia Dobko, Bohdan Petryshak, Oles Dobosevych
URL：http://arxiv.org/abs/2001.08593v1

この論文の概要（機械翻訳による和訳）
冠動脈疾患の診断のための患者の待ち時間を短縮するために、自動法が適用され、CoronaryComputed Tomography Angiographyスキャンまたは抽出されたMultiplanar Reconstruction（MPR）画像を使用してその重症度を特定し、医師に各症例の優先順位に関する2番目の意見を提供します。以前の研究の主な欠点は、信頼性を保証することができる大量のデータが不足していることです。別の制限は、中心線抽出などの手動の前処理を必要とする手作りの機能の使用です。 ShuffleNet V2ネットワークアーキテクチャに基づいて異なる自動化されたアプローチを適用し、MPRイメージの提案された収集データセットでテストすることにより、両方の制限を克服します。また、中心線の抽出手順を省略し、708人と105人の患者の全体の湾曲MPR画像を使用してモデルをトレーニングおよびテストします。このモデルは、3つのクラスのいずれかを予測します。通常の「狭窄なし」、「重要でない」-検出された狭窄の1〜50％、「重要な」-狭窄の50％以上。ネットワークによって選択された最も重要な機能の視覚化を通じて、モデルの解釈可能性を実証します。狭窄スコアの分類では、この方法は以前の研究と比較して改善されたパフォーマンスを示し、患者レベルで80％の精度を達成しています。私たちのコードは公開されています。

Deformation-aware Unpaired Image Translation for Pose Estimation on Laboratory Animals

実験動物の姿勢推定のための変形を意識した不対画像変換

著者：Siyuan Li, Semih Günel, Mirela Ostrek, Pavan Ramdya, Pascal Fua, Helge Rhodin
URL：http://arxiv.org/abs/2001.08601v1

この論文の概要（機械翻訳による和訳）
私たちの目標は、神経回路がどのように振る舞いを調整するかを研究できるように、手作業による監督を一切使用せずに、神経科学モデル生物の姿勢を捉えることです。人間の姿勢推定は、数百万のフレームで構成される実際のデータセットまたはシミュレートされたデータセットでトレーニングすると、非常に正確になりますが、多くのアプリケーションでは、シミュレートされたモデルは非現実的であり、包括的な注釈付きのリアルトレーニングデータセットは存在しません。新しいsim2realドメイン転送方法でこの問題に対処します。私たちの主な貢献は、unpairedimage翻訳フレームワークでの外観、形状、およびポーズの明示的かつ独立したモデリングです。このモデルでは、ソースドメインから生成されたターゲットイメージにすぐに利用できるボディキーポイントの場所を転送することにより、ターゲットドメインでポーズ推定器をトレーニングできます。アプローチを既存のドメイン転送方法と比較し、ターゲットドメインに手動で注釈を付けずに、市販の単純なものを使用しても、キイロショウジョウバエ（ミバエ）、Caenorhabditis elegans（ワーム）およびDanio rerio（ゼブラフィッシュ）の姿勢推定精度が向上することを実証しますシミュレーション用の動物キャラクター、またはモデルとしての単純な幾何学的形状。将来の神経科学研究をサポートするために、新しいデータセット、コード、およびトレーニング済みモデルが公開されます。

Structured Compression and Sharing of Representational Space for Continual Learning

継続的学習のための表現空間の構造化圧縮と共有

著者：Gobinda Saha, Isha Garg, Aayush Ankit, Kaushik Roy
URL：http://arxiv.org/abs/2001.08650v1

この論文の概要（機械翻訳による和訳）
人間は生涯を通じて適応的かつ効率的に学習することに長けていますが、学習タスクにより、人工ニューラルネットワークは古いタスクについて学習した関連情報を徐々に上書きし、「壊滅的な忘却」をもたらします。この現象を克服するための努力は、古いデータやパラメータの重要度スコアを保存したり、ネットワークアーキテクチャを拡大したりする必要があるなど、さまざまな方法でリソースの利用率が低下します。表現空間を、以前に学習したタスクからの凝縮された情報を含むコア空間と、現在のタスクを学習するためのスクラッチ空間に似た残余空間に分割することにより、ネットワークが継続的かつ効率的に学習できるようにするアルゴリズムを提案します。その後、PrincipalComponent Analysisを使用して残余スペースが圧縮され、コアスペースに追加され、次のタスクのパラメーターが解放されます。 P-MNIST、CIFAR-10、CIFAR-100データセットでアルゴリズムを評価します。壊滅的な忘却の問題を完全に克服しながら、最先端の方法に匹敵する精度を達成します。さらに、結果のアーキテクチャの構造化された性質により、推論中のエネルギー効率が最大4.5倍向上します。

Tensor-Based Grading: A Novel Patch-Based Grading Approach for the Analysis of Deformation Fields in Huntington’s Disease

テンソルベースのグレーディング：ハンチントン病の変形場の分析のための新しいパッチベースのグレーディングアプローチ

著者：Kilian Hett, Hans Johnson, Pierrick Coupé, Jane Paulsen, Jeffrey Long, Ipek Oguz
URL：http://arxiv.org/abs/2001.08651v1

この論文の概要（機械翻訳による和訳）
磁気共鳴画像法の改善により、神経変性疾患によって引き起こされる構造変化をよりよく検出するための多くの技術が開発された。これらのうち、パッチベースのグレーディングフレームワークは、解剖学的変化の局所パターンをモデル化するために提案されています。このアプローチは、計算コストが低く、競争力があるため魅力的です。他の研究は、非常に解釈可能なアプローチであるテンソルベースの形態計測を使用して、脳構造の変形を分析することを提案しています。この作業では、パッチベースのグレーディングフレームワークを、対数ユークリッドメトリックを使用して局所変形のパターンをモデル化できるニューテンソルベースのグレーディングメソッドで拡張することにより、これら2つのアプローチの利点を組み合わせるよう提案します。プレマニフェストハンチントン病患者と健常対照者を分類するための被殻の研究で新しい方法を評価します。私たちの実験は、既存のパッチベースのグレーディング方法と比較して、分類精度の大幅な増加（87.5 $ pm $ 0.5 vs 81.3 $ pm $ 0.6）、および主要なイメージングベースのマーカーである良好な補体タプタメン量を示していますハンチントン病の研究。

Disassembling the Dataset: A Camera Alignment Mechanism for Multiple Tasks in Person Re-identification

データセットの分解：個人の再識別における複数のタスクのためのカメラ調整メカニズム

著者：Zijie Zhuang, Longhui Wei, Lingxi Xie, Hengheng Zhang, Tianyu Zhang, Haozhe Wu, Haizhou Ai, Qi Tian
URL：http://arxiv.org/abs/2001.08680v1

この論文の概要（機械翻訳による和訳）
個人の再識別（ReID）における主な課題の1つは、異なるデータセット間の分布の不一致です。以前の研究者は、完全に監督された学習、直接移籍、領域適応、漸進的学習など、いくつかの個別のトピックを定義しており、それぞれ異なるトレーニングおよびテストシナリオの設定がありました。これらのトピックはデータセットごとに設計されています。つまり、同じデータセットからの画像は、ばらばらのカメラからであっても、同じ分布に従うと推定されます。ただし、このような分布は粗く、トレーニングセット固有であり、そのような方法で学習したReID知識は、対応するシナリオでのみうまく機能します。この問題に対処するために、データセットを分解し、すべてのトレーニングカメラとテストカメラを調整する、粒度の細かい分布調整方式を提案します。上記のすべてのトピックを結び付け、ReIDの知識が常に整合されたディストリビューションで学習、蓄積、検証されることを保証します。実際には、カメラベースのバッチ正規化を考案します。これは、統合が容易で、既存のReIDメソッドではほとんどコストがかかりません。上記の4つのReIDタスクに関する広範な実験は、当社のアプローチの優位性を示しています。コードは公開されます。

MRI Banding Removal via Adversarial Training

敵対訓練によるMRIバンディング除去

著者：Aaron Defazio, Tullie Murrell, Michael P. Recht
URL：http://arxiv.org/abs/2001.08699v1

この論文の概要（機械翻訳による和訳）
ディープラーニング技術を使用してサブサンプリングデータから再構成されたMRI画像は、多くの場合、特徴的なバンディングを示します。これは、再構成画像の低信号対雑音領域で特に強力です。この作業では、人間の注釈を必要とせずにバンディング構造にペナルティを課す敵対的損失の使用を提案します。この手法は、再構築時に追加の計算や後処理を必要とせずに、バンディングの外観を大幅に減らします。私たちのアプローチは統計的に有意な詳細の損失なしにバンディング除去で優れていると評価されている専門の評価者（委員会認定放射線医）のグループによる強力なベースラインに対するブラインド比較の結果を報告します。

Lipreading using Temporal Convolutional Networks

時間的畳み込みネットワークを使用した読唇術

著者：Brais Martinez, Pingchuan Ma, Stavros Petridis, Maja Pantic
URL：http://arxiv.org/abs/2001.08702v1

この論文の概要（機械翻訳による和訳）
読唇術は、深層学習の進歩のおかげで、最近多くの研究の注目を集めています。孤立した単語をインザワイルドで認識するための現在の最先端モデルは、残差ネットワークとBidirectionalGated Recurrent Unit（BGRU）レイヤーで構成されています。この作業では、このモデルの制限に対処し、パフォーマンスをさらに向上させる変更を提案します。まず、BGRUレイヤーがTemporal Convolutional Networks（TCN）に置き換えられます。次に、トレーニング手順を大幅に簡素化します。これにより、モデルを1つのステージでトレーニングできます。第三に、最新の方法論がシーケンス長の変動を一般化しないモデルを生成することを示し、可変長の拡張を提案することでこの問題に対処します。英語とマンダリン、LRWおよびLRW1000での孤立単語認識用の最大の公開データセットの結果をそれぞれ示します。提案されたモデルの結果、これらのデータセットでは、それぞれ最新のパフォーマンスである1.2％と3.2％の絶対的な改善が得られました。

Ternary Feature Masks: continual learning without any forgetting

Ternary Feature Masks：忘れることのない継続的な学習

著者：Marc Masana, Tinne Tuytelaars, Joost van de Weijer
URL：http://arxiv.org/abs/2001.08714v1

この論文の概要（機械翻訳による和訳）
本論文では、タスクラベルが知られているタスク認識体制の学習を継続することを忘れずにアプローチを提案します。それらについては何でも。マスクを使用すると、壊滅的な忘却と逆方向転送の両方が防止されます。私たちは、前者を回避することで後者の欠如をほぼ補うと主張し、実験的に示していますが、後者は実際にはめったに観察されません。以前の作品とは対照的に、マスクは重みではなく各レイヤーの機能（アクティベーション）に適用されます。これにより、新しいタスクごとに追加されるマスクパラメーターの数が大幅に削減されます。ほとんどのネットワークで3桁を超える規模です。 3ビットマスクを2ビット単位の機能にエンコードすると、ネットワークへのオーバーヘッドが非常に少なくなり、スケーラビリティの問題が回避されます。マスクでは、以前のタスクで使用されていた機能を変更することはできません。これは制限が厳しすぎて新しいタスクを学習できないため、タスク固有の機能の正規化を追加します。このように、すでに学習した機能は、以前のタスクのこれらの機能の動作を変更することなく、現在のタスクに適応できます。いくつかの詳細なデータセットとImageNetでの広範な実験により、この方法が現在の最先端技術よりも優れている一方で、重量ベースのアプローチと比較してメモリオーバーヘッドが削減されていることがわかります。

Interpretable End-to-end Urban Autonomous Driving with Latent Deep Reinforcement Learning

潜在的な深層強化学習による解釈可能なエンドツーエンドの都市自動運転

著者：Jianyu Chen, Shengbo Eben Li, Masayoshi Tomizuka
URL：http://arxiv.org/abs/2001.08726v1

この論文の概要（機械翻訳による和訳）
一般的なモジュール化されたフレームワークとは異なり、エンドツーエンドの自動運転は、認識、決定、および制御の問題を統合的な方法で解決しようとするため、新しいシナリオにより適応し、大規模化が容易になります。ただし、既存のエンドツーエンドのアプローチは多くの場合、解釈能力が不足しており、車線維持などの単純な運転タスクのみを処理できます。本論文では、複雑な都市シナリオを処理できる、エンドツーエンドの自動運転のための解釈可能な深層強化学習方法を提案します。シーケンシャルな潜在環境モデルが導入され、強化学習プロセスと共同で学習されます。この潜在モデルを使用して、セマンティックバードアイマスクを生成できます。これは、学習済みポリシーの動作を説明する目的で、今日のモジュール化されたフレームワークの特定の中間プロパティに接続するように強制されます。潜在空間は、強化学習のサンプルの複雑さも大幅に軽減します。 CARLAのシミュレートされた自律走行車との比較テストは、混雑した周辺車両を備えた都市シナリオでの本手法のパフォーマンスが、DQN、DDPG、TD3、SACを含む多くのベースラインを支配していることを示しています。さらに、出力をマスクすることで、学習したポリシーは、自動車が運転環境についてどのように推論するかをより適切に説明することができます。

Robust Explanations for Visual Question Answering

視覚的な質問応答のための堅牢な説明

著者：Badri N. Patro, Shivansh Pate, Vinay P. Namboodiri
URL：http://arxiv.org/abs/2001.08730v1

この論文の概要（機械翻訳による和訳）
本論文では、視覚的質問応答（VQA）の堅牢な説明を得る方法を提案します。私たちのモデルは、視覚的およびテキストによる説明を提供することにより、VQAモデルを通じて得られた回答を説明します。私たちが対処する主な課題は、i）現在の方法によって得られた回答とテキストの説明が十分に相関していないこと、およびii）現在の視覚的説明の方法が回答を説明するための適切な場所に焦点を当てていないことです。ノイズベースの攻撃を訓練しなくても、相関の強化により正しい説明と回答が生成されることを保証する協調相関モジュールを使用して、これらの両方の課題に対処します。さらに、これは生成された視覚的およびテキストによる説明の改善にも役立つことを示しています。相関モジュールの使用は、回答と説明が一貫しているかどうかを検証するための堅牢な方法と考えることができます。 VQA-Xデータセットを使用してこのモデルを評価します。提案された方法は、決定をサポートするより良いテキストと視覚の正当化をもたらすことを観察します。対応する視覚的およびテキストの説明を使用して、ノイズベースの摂動攻撃に対するモデルの堅牢性を示します。詳細な実証分析が示されています。ここで、モデル url {https://github.com/DelTA-Lab-IITK/CCM-WACV}のソースコードリンクを提供します。

Cross-Domain Few-Shot Classification via Learned Feature-Wise Transformation

学習された特徴ごとの変換を介したクロスドメイン少数ショット分類

著者：Hung-Yu Tseng, Hsin-Ying Lee, Jia-Bin Huang, Ming-Hsuan Yang
URL：http://arxiv.org/abs/2001.08735v1

この論文の概要（機械翻訳による和訳）
少数ショット分類は、各クラスでラベル付けされた画像がほとんどない新しいカテゴリを認識することを目的としています。既存のメトリックベースの少数ショット分類アルゴリズムは、学習されたメトリック関数を使用して、クエリ画像の特徴埋め込みといくつかのラベル付き画像（サポート例）の特徴埋め込みを比較することにより、カテゴリを予測します。有望なパフォーマンスが実証されていますが、これらの方法は、ドメイン間の機能分布の大きな不一致により、多くの場合、見えないドメインへの一般化に失敗します。この作業では、メトリックベースのメソッドのドメインシフトの下での数ショット分類の問題に対処します。 Ourcoreのアイデアは、アフィン変換を使用して画像機能を強化するために、機能ごとの変換レイヤーを使用して、トレーニング段階で異なるドメインの下でさまざまな機能分布をシミュレートすることです。異なるドメインの下での特徴分布のバリエーションをキャプチャするために、学習によるアプローチを適用して、特徴ごとの変換レイヤーのハイパーパラメーターを検索します。 5つの少数ショット分類データセット：mini-ImageNet、CUB、Cars、Places、およびPlantaeを使用して、ドメインの一般化設定の下で広範な実験とアブレーション研究を実施します。また、ドメインシフト下での少数ショットの分類パフォーマンスを一貫して改善します。

Audiovisual SlowFast Networks for Video Recognition

ビデオ認識用の視聴覚SlowFastネットワーク

著者：Fanyi Xiao, Yong Jae Lee, Kristen Grauman, Jitendra Malik, Christoph Feichtenhofer
URL：http://arxiv.org/abs/2001.08740v1

この論文の概要（機械翻訳による和訳）
統合された視聴覚認識のためのアーキテクチャである視聴覚SlowFastネットワークを紹介します。 AVSlowFastは、視覚的な対応物と緊密に統合されたFasterAudio経路でSlowFastネットワークを拡張します。オーディオとビジュアル機能を複数のレイヤーで融合し、オーディオが階層的なオーディオビジュアルの概念の形成に貢献できるようにします。オーディオとビジュアルモダリティの異なる学習ダイナミクスから生じるトレーニングの難しさを克服するために、トレーニング中にオーディオパスウェイをランダムにドロップするDropPathwayを採用し、シンプルで効果的な正則化手法として採用しています。神経科学の先行研究に触発され、階層的な視聴覚同期を実行し、より優れた視聴覚機能につながることを示しています。 4つのビデオアクションの分類と検出データセットに関する最新の結果を報告し、詳細なアブレーション研究を実施し、AVSlowFastの自己管理タスクへの一般化を示します。コードはhttps://github.com/facebookresearch/SlowFastで入手できます。