画像認識分野論文まとめ【2020年02月14日arXiv公開】

アブストまとめ
Like0
お気に入り

2020年02月14日に発表された画像認識分野の論文22本のAbstractをまとめて和訳しました。

この記事の見出し

Patternless Adversarial Attacks on Video Recognition Networks

ビデオ認識ネットワークへのパターンレス攻撃

著者:Itay Naeh, Roi Pony, Shie Mannor
URL:http://arxiv.org/abs/2002.05123v1

この論文の概要(機械翻訳による和訳)
画像分類ネットワークと同様に、ビデオの分類のためのディープニューラルネットワークは、敵対的な操作の対象となる場合があります。画像分類器とビデオ分類器の主な違いは、通常、ビデオ内に含まれる時間情報をオプティカルフローの形で、または暗黙的に隣接フレーム間のさまざまな違いによって使用することです。この作業では、人間の観察者によって実質的に気付かれず、主要な画像の敵対パターン検出アルゴリズムによって検出されない空間パターンのない時間摂動を導入することにより、ビデオ分類器をだますための操作スキームを提示します。単一のビデオのアクション分類の操作を実証した後、標的型攻撃と非標的型攻撃の両方で異なるクラス全体で一般化する時間的不変性を持つ敵対パターンを作成する手順を一般化します。

Rembrandts and Robots: Using Neural Networks to Explore Authorship in Painting

レンブラントとロボット:ニューラルネットワークを使用して絵画の原作者を探る

著者:Steven J. Frank, Andrea M. Frank
URL:http://arxiv.org/abs/2002.05107v1

この論文の概要(機械翻訳による和訳)
畳み込みニューラルネットワークを使用して、表象芸術の作品を取り巻く原作者の質問を分析します。調査中のアーティストの作品と他のアーティストの視覚的に比較可能な作品についてトレーニングを受けたシステムは、偽造を識別し、帰属を提供できます。私たちのシステムは、絵画内の分類確率を割り当てることもできます。

Component Analysis for Visual Question Answering Architectures

ビジュアル質問応答アーキテクチャのコンポーネント分析

著者:Camila Kolling, Jônatas Wehrmann, Rodrigo C. Barros
URL:http://arxiv.org/abs/2002.05104v1

この論文の概要(機械翻訳による和訳)
コンピュータービジョンと自然言語処理の最近の研究の進歩により、AIの完全な問題を解決するための道を開く新しいタスクが導入されました。これらのタスクの1つは、視覚的質問応答(VQA)と呼ばれます。 VQAsystemは、画像とその画像に関する自由形式の自由な自然言語の質問を受け取り、出力として自然言語の回答を作成する必要があります。このような課題は科学界から大きな注目を集めており、VQAの予測精度を向上させることを目的とした多数のアプローチが生み出されました。それらのほとんどは、3つの主要なコンポーネントで構成されています。(i)画像と質問の独立した表現学習。 (ii)モデルが両方のソースからの情報を使用して視覚的な質問に答えることができるように、特徴の融合。 (iii)自然言語での正解の生成。非常に多くのアプローチが最近導入されたため、モデルの最終的なパフォーマンスに対する各コンポーネントの実際の貢献が不明確になりました。このホワイトペーパーの主な目的は、VQAモデルの各コンポーネントの影響に関する包括的な分析を提供することです。広範な実験セットは、視覚的要素とテキスト要素の両方、およびこれらの表現の融合と注意メカニズムの組み合わせを対象としています。主な貢献は、予測パフォーマンスを最大化するために、VQAモデルをトレーニングするためのコアコンポーネントを特定することです。

AlignNet: A Unifying Approach to Audio-Visual Alignment

AlignNet:視聴覚アライメントへの統一アプローチ

著者:Jianren Wang, Zhaoyuan Fang, Hang Zhao
URL:http://arxiv.org/abs/2002.05070v1

この論文の概要(機械翻訳による和訳)
不均一で不規則なミスアライメントの下でビデオを参照オーディオと同期させるモデルであるAlignNetを紹介します。 AlignNetは、ビデオとオーディオの各フレーム間のエンドツーエンドの高密度対応を学習します。私たちの方法は、シンプルで十分に確立された原則に従って設計されています:注意、ピラミッド処理、ワーピング、および親和性関数。モデルとともに、トレーニングと評価のためのダンスデータセットDance50をリリースします。ダンスミュージックアライメントとスピーチリップアライメントに関する定性的、定量的、主観的な評価結果は、本手法が最先端の手法よりもはるかに優れていることを示しています。プロジェクトのビデオとコードは、https://jianrenw.github.io/AlignNetで入手できます。

Detect and Correct Bias in Multi-Site Neuroimaging Datasets

マルチサイトニューロイメージングデータセットのバイアスの検出と修正

著者:Christian Wachinger, Anna Rieckmann, Sebastian Pölsterl
URL:http://arxiv.org/abs/2002.05049v1

この論文の概要(機械翻訳による和訳)
複雑な機械学習アルゴリズムを訓練し、関連性研究の統計的能力を高めたいという欲求は、より大きなデータセットを使用するニューロイメージング研究を推進します。サンプルサイズを増やす最も明白な方法は、独立した研究からのスキャンをプールすることです。ただし、選択、測定、および交絡バイアスが偽の相関関係に忍び込んで偽の相関関係を生み出す可能性があるため、単純なプーリングはしばしば推奨されません。この作業では、17の研究の脳の35,320の磁気共鳴画像を組み合わせて、神経画像の偏りを調べます。最初の実験であるName That Datasetでは、71.5%の精度でスキャンをそれぞれのデータセットに正しく割り当てることができることを示すことにより、バイアスの存在に関する経験的証拠を提供します。そのような証拠を与えられて、我々は交絡バイアスを詳しく調べます。それはしばしば、主な欠点の観察研究と見なされます。実際には、潜在的な交絡因子のすべてを知ることも、それらに関するデータを持っているかどうかもわかりません。したがって、交絡因子を未知の潜在変数としてモデル化します。コルモゴロフの複雑度は、交絡因子または因果モデルがグラフィカルモデルの最も単純な因数分解を提供するかどうかを決定するために使用されます。特に、最近導入されたComBatアルゴリズムの拡張を提案し、母集団の成層遺伝学の調整に触発されて、画像特徴全体のグローバルな変動を制御します。我々の結果は、ハーモナイゼーションが画像特徴のセット固有の情報を減らすことができることを示しています。さらに、交絡バイアスを減らすことができ、因果関係にもなります。ただし、関連する主題固有の情報を簡単に削除できるため、調和にも注意が必要です。

Intra-Camera Supervised Person Re-Identification

カメラ内監視対象者の再識別

著者:Xiangping Zhu, Xiatian Zhu, Minxian Li, Pietro Morerio, Vittorio Murino, Shaogang Gong
URL:http://arxiv.org/abs/2002.05046v1

この論文の概要(機械翻訳による和訳)
既存の個人の再識別(re-id)メソッドは、主にトレーニングデータとラベル付けされた多数のクロスカメラIDを利用します。これには、退屈なデータ収集と注釈プロセスが必要であり、実用的なre-idアプリケーションのスケーラビリティが低下します。一方、教師なしのre-idメソッドはIDラベル情報を必要としませんが、通常はモデルのパフォーマンスが非常に劣っており、不十分です。これらの基本的な制限を克服するために、独立したカメラごとのIDアノテーションのアイデアに基づいて、新しい人物再識別パラダイムを提案します。これにより、最も時間のかかる面倒なカメラ間IDラベル付けプロセスが不要になり、人間の注釈作業が大幅に削減されます。その結果、よりスケーラブルで実行可能な設定になります。これは、Intra-Camera Supervised(ICS)person re-idと呼ばれ、Multi-tAskmulTi-labEl(MATE)ディープラーニングメソッドを定式化します。具体的には、MATEは、カメラごとのマルチタスク推論フレームワークでカメラ間のID対応を自己検出するために設計されています。広範な実験により、3つの大規模な個人IDデータセットの代替アプローチに対する本手法の費用対効果の優位性が実証されています。たとえば、MATEは、提案されているICSの個人のre-id設定でMarket-1501でランク1スコア88.7%をもたらし、教師なし学習モデルを大幅に上回り、従来の教師付き学習競合他社に接近します。

Learning light field synthesis with Multi-Plane Images: scene encoding as a recurrent segmentation task

マルチプレーン画像を使用したライトフィールド合成の学習:反復的なセグメンテーションタスクとしてのシーンエンコーディング

著者:Tomas Volker, Guillaume Boisson, Bertrand Chupeau
URL:http://arxiv.org/abs/2002.05028v1

この論文の概要(機械翻訳による和訳)
このペーパーでは、入力ビューのスパースセットをマルチプレーンイメージ(MPI)に変換することにより、大きなベースラインライトフィールドからのビュー合成の問題に対処します。利用可能なデータセットが少ないため、広範なトレーニングを必要としない軽量ネットワークを提案します。最新のアプローチとは異なり、このモデルはRGBレイヤーの推定を学習せず、MPIアルファレイヤー内のシーンジオメトリのみをエンコードします。これはセグメンテーションタスクになります。 LearnedGradient Descent(LGD)フレームワークを使用して、同じ畳み込みネットワークを繰り返し流し、得られた体積表現を改良します。パラメーターの数が少ないため、モデルは小さなライトフィールドビデオデータセットで正常に学習し、視覚的に魅力的な結果を提供します。また、入力ビューの数、MPIの深度平面の数、および洗練の数の両方に関する便利な一般化プロパティも示します。繰り返し。

Real-Time Semantic Background Subtraction

リアルタイムの意味的背景減算

著者:Anthony Cioppa, Marc Van Droogenbroeck, Marc Braham
URL:http://arxiv.org/abs/2002.04993v1

この論文の概要(機械翻訳による和訳)
セマンティックバックグラウンド減算SBSは、セマンティックセグメンテーションネットワークから派生したセマンティック情報と組み合わせることにより、ほとんどのバックグラウンド減算アルゴリズムのパフォーマンスを向上させることが示されています。ただし、SBSでは、すべてのフレームに高品質のセマンティックセグメンテーションマスクが必要であり、計算が遅くなります。さらに、最先端のバックグラウンド減算アルゴリズムのほとんどはリアルタイムではないため、実際のアプリケーションには適していません。本論文では、リアルタイム制約付きアプリケーション向けにSBSを拡張し、同様のパフォーマンスを維持する、リアルタイムセマンティックバックグラウンド減算(RT-SBSと表記)と呼ばれる新しいバックグラウンド減算アルゴリズムを紹介します。 RT-SBSは、リアルタイムのバックグラウンド減算アルゴリズムと高品質のセマンティック情報を効果的に組み合わせて、ピクセルごとに低いペースで提供できます。 RT-SBSとViBeを組み合わせることで、リアルタイムのバックグラウンド減算アルゴリズムの最新技術が設定され、非リアルタイムの最新技術と競合することさえ示されます。 RT-SBSのpython CPUおよびGPU実装はまもなくリリースされることに注意してください。

Hierarchical Auto-Regressive Model for Image Compression Incorporating Object Saliency and a Deep Perceptual Loss

オブジェクトの顕著性と深い知覚的損失を取り入れた画像圧縮のための階層的自己回帰モデル

著者:Yash Patel, Srikar Appalaraju, R. Manmatha
URL:http://arxiv.org/abs/2002.04988v1

この論文の概要(機械翻訳による和訳)
多くの新規コンポーネントを含む、損失のある画像圧縮のための新しいエンドツーエンドのトレーニング可能なモデルを提案します。このアプローチには、1)階層的な自己回帰モデルが組み込まれています。 2)また、画像に顕著性を組み込み、顕著な領域をより良く再構成することに焦点を合わせます。 3)さらに、MS-SSIMやPSNRなどの一般的に使用される評価指標は、人間の知覚的類似性とうまく整合しないため、深層学習画像圧縮技術の性能を判断するには不十分であることを経験的に実証します。したがって、我々は、画像圧縮に特有の知覚的類似性データについて学習される代替のメトリックを提案します。私たちの実験は、この新しい測定基準が、他の手作りの測定基準や学習された測定基準と比較した場合、人間の判断と非常によく一致することを示しています。提案された圧縮モデルは、視覚的に優れた画像を生成するだけでなく、他の設計または学習されたコーデックと比較して、オブジェクト検出やセグメンテーションなどの後続のコンピュータービジョンタスクに対して優れたパフォーマンスを提供します。

Towards Precise Intra-camera Supervised Person Re-identification

正確なカメラ内監視対象者の再識別に向けて

著者:Menglin Wang, Baisheng Lai, Haokun Chen, Jianqiang Huang, Xiaojin Gong, Xian-Sheng Hua
URL:http://arxiv.org/abs/2002.04932v1

この論文の概要(機械翻訳による和訳)
個人の再識別(Re-ID)のカメラ内監視(ICS)は、各カメラビュー内でIDラベルに独立して注釈が付けられ、カメラ間ID関連付けがラベル付けされていないことを前提としています。 desirable-Re-IDのパフォーマンスを維持しながら、注釈の負担を減らすことが最近提案された新しい設定です。ただし、カメラ間ラベルがないため、ICS Re-IDproblemは完全に監視された対応物よりもはるかに困難になります。 ICSの特性を調査することにより、このペーパーでは、カメラ内学習を実行するために、ハイブリッドマイニング5連符の損失とともに、カメラ固有のノンパラメトリック分類器を提案します。次に、グラフベースのID関連付けステップとRe-IDモデル更新ステップで構成されるカメラ間学習モジュールが実行されます。 3つの大規模なRe-IDデータセットに関する広範な実験により、当社のアプローチが既存のすべてのICSの動作を大幅に上回ることが示されています。私たちのアプローチは、2つのデータセットで最先端の完全に監督された方法に匹敵します。

Synaptic Integration of Spatiotemporal Features with a Dynamic Neuromorphic Processor

動的ニューロモーフィックプロセッサと時空間機能のシナプス統合。

著者:Mattias Nilsson, Foteini Liwicki, Fredrik Sandin
URL:http://arxiv.org/abs/2002.04924v1

この論文の概要(機械翻訳による和訳)
スパイクニューロンは、シナプス前スパイクパターンの非線形シナプスおよび樹状突起の統合による時空間特徴検出を実行できます。ここでは、時空間スパイクパターンと、動的なシナプスの動的なシナプスをDYNAP-SEneuromorphicプロセッサのポイントニューロンでシナプス統合することを調査します。以前に提案された興奮性シナプスの抑制ペアを組み合わせて複数の入力を統合する方法を調査し、1つの抑制性シナプスが複数の興奮性シナプスと組み合わされるカゼインにその概念を一般化します。神経形態ニューロン回路の膜電位の測定と分析。デバイスの不一致により、異なるシナプスの組み合わせを選択することで、提案された方法で、ニューロンごとに10ミリ秒の変動性がある生物学的に関連するEPSP遅延を実現できることがわかりました。これらの結果に基づいて、DYNAP-SEの動的シナプスを備えた単一ポイントニューロンは、特定の時空間構造を持つシナプス前スパイクに選択的に応答できることを実証します。これにより、たとえば単一ニューロンの視覚的特徴調整が可能になります。

A Zero-Shot based Fingerprint Presentation Attack Detection System

ゼロショットベースの指紋提示攻撃検出システム

著者:Haozhe Liu, Wentian Zhang, Guojie Liu, Feng Liu
URL:http://arxiv.org/abs/2002.04908v1

この論文の概要(機械翻訳による和訳)
プレゼンテーション攻撃の発生により、自動指紋認識システム(AFRS)はプレゼンテーション攻撃に対して脆弱になります。したがって、AFRSの通常の利用を保証するために、プレゼンテーション攻撃検出(PAD)の多数の方法が提案されています。ただし、大規模なプレゼンテーション攻撃イメージと低レベルの一般化機能の需要は、既存のPADメソッドの実際のパフォーマンスを常に制限します。したがって、PADモデルの一般化を保証するために、新しいゼロショットプレゼンテーション攻撃検出モデルを提案します。生成モデルに基づく提案されたZSPADモデルは、確立プロセスでネガティブサンプルを使用しないため、さまざまなタイプまたは材料ベースのプレゼンテーション攻撃に対する堅牢性が保証されます。他の自動エンコーダベースのモデルとは異なり、Fine-grained Maparchitectureは自動エンコーダネットワークの再構築エラーを改善するために提案され、タスク固有のガウスモデルはクラスタリングの品質を改善するために利用されます。一方、提案されたモデルのパフォーマンスを向上させるために、この記事では9つの信頼スコアについて説明します。実験結果は、ZSPADモデルがZSPADの最新技術であり、MSスコアが最高の信頼性スコアであることを示しました。既存の方法と比較して、提案されたZSPADモデルは機能ベースの方法よりも優れたパフォーマンスを発揮し、マルチショット設定では、提案された方法は学習データをほとんど使用せずに学習ベースの方法よりも優れています。大規模なトレーニングデータが利用可能な場合、結果は同様です。

Bi-Directional Generation for Unsupervised Domain Adaptation

教師なしドメイン適応のための双方向生成

著者:Guanglei Yang, Haifeng Xia, Mingli Ding, Zhengming Ding
URL:http://arxiv.org/abs/2002.04869v1

この論文の概要(機械翻訳による和訳)
監視なしドメイン適応は、確立されたソースドメイン情報に依存するラベルなしターゲットドメインを容易にします。従来の方法では、潜在空間のドメインの不一致を強制的に削減することにより、固有のデータ構造が破壊されます。ドメインギャップの緩和と固有の構造の保存のバランスをとるために、2つの中間ドメインを補間してソースドメインとターゲットドメインを橋渡しする一貫した分類器を備えた双方向指向性ドメイン適応モデルを提案します。もう一方。提案された方法のパフォーマンスは、一貫性のある分類器とクロスドメインアライメント制約によってさらに強化できます。また、ターゲットサンプル予測の一貫性を最大化するために共同で最適化される2つの分類器を設計します。広範な実験により、提案されたモデルが標準のクロスドメインの視覚ベンチマークで最先端の性能をしていることが確認されました。

Analysis Of Multi Field Of View Cnn And Attention Cnn On H&E Stained Whole-slide Images On Hepatocellular Carcinoma

肝細胞癌のH&E染色全スライド画像に関する多視野Cnnおよび注意Cnnの分析

著者:Mehmet Burak Sayıcı, Rikiya Yamashita, Jeanne Shen
URL:http://arxiv.org/abs/2002.04836v1

この論文の概要(機械翻訳による和訳)
肝細胞癌(HCC)は、世界中の癌関連死の主な原因です。ガラススライドをスキャンする方法である全スライドイメージングは​​、HCCの診断に使用されてきた。畳み込みニューラルネットワークアプリケーションでは、高解像度の全スライド画像を使用することはできません。したがって、スライド全体の画像は、分類とセグメンテーションに畳み込みニューラルネットワークを割り当てる一般的な方法です。小さな視野では大きなスケールで情報をキャプチャできず、大きな視野ではセルラースケールで情報をキャプチャできないため、タイルサイズの決定はアルゴリズムのパフォーマンスに影響を与えます。この作業では、分類問題のパフォーマンスに対するタイルサイズの影響を分析します。さらに、MultiField of View CNNはさまざまなタイルサイズによって提供される情報を活用するために割り当てられ、Attention CNNは最も貢献するタイルサイズを投票する機能を与えるために割り当てられます。複数のタイルサイズを使用すると、分類のパフォーマンスが3.97%大幅に向上し、1つのタイルサイズのみを使用するアルゴリズムよりも両方のアルゴリズムが成功することがわかります。

End-to-End Face Parsing via Interlinked Convolutional Neural Networks

相互リンクされた畳み込みニューラルネットワークを介したエンドツーエンドの顔解析

著者:Zi Yin, Valentin Yiu, Xiaolin Hu, Liang Tang
URL:http://arxiv.org/abs/2002.04831v1

この論文の概要(機械翻訳による和訳)
顔の解析は、顔のパーツ(目、鼻、口など)の正確なピクセルセグメンテーションを必要とする重要なコンピュータービジョンタスクであり、さらなる顔の分析、修正、および他のアプリケーションの基礎を提供します。このホワイトペーパーでは、シンプルなエンドツーエンドの顔解析フレームワーク、STN-aidediCNN(STN-iCNN)を紹介します。 STN-iCNNはSTNを使用して、元の2ステージiCNNパイプラインへのトレーニング可能な接続を提供し、エンドツーエンドの共同トレーニングを可能にします。さらに、副産物として、STNはオリジナルのクロップよりも正確なクロップパーツも提供します。 2つの利点により、このアプローチは元のモデルの精度を大幅に向上させます。

Uniform Interpolation Constrained Geodesic Learning on Data Manifold

データ多様体での均一補間制約付き測地線学習

著者:Cong Geng, Jia Wang, Li Chen, Wenbo Bao, Chu Chu, Zhiyong Gao
URL:http://arxiv.org/abs/2002.04829v1

この論文の概要(機械翻訳による和訳)
本論文では、データ多様体内の最小測地線を学習する方法を提案します。学習した測地線に沿って、2つの指定されたデータサンプル間の高品質の補間を生成できます。具体的には、オートエンコーダネットワークを使用してデータサンプルを潜在空間にマッピングし、補間ネットワークを介して補間を実行します。事前の幾何学的情報を追加して、表現の凸面のオートエンコーダを正規化し、特定の補間アプローチに対して、生成された補間がデータ多様体の分布内に残るようにします。測地線を学習する前に、適切なリーマン計量を定義する必要があります。そのため、データ多様体が等尺的に浸漬されているユークリッド空間の正準計量によってリーマン計量を誘導します。マニホールド上。モデルの理論的分析を提供し、画像変換を例として使用して、メソッドの有効性を示します。

Deep-HR: Fast Heart Rate Estimation from Face Video Under Realistic Conditions

Deep-HR:現実的な条件下での顔ビデオからの高速心拍推定

著者:Mohammad Sabokrou, Masoud Pourreza, Xiaobai Li, Mahmood Fathy, Guoying Zhao
URL:http://arxiv.org/abs/2002.04821v1

この論文の概要(機械翻訳による和訳)
この論文は、リモート心拍数(HR)推定のための新しい方法を提示します。最近の研究は、心臓による血液ポンピングが顔のピクセルの濃い色と非常に相関しており、驚くべきことにHR推定に利用できることを証明しています。研究者はこのタスクのためにいくつかの方法を提案することに成功しましたが、現実的な状況でそれを機能させることは、コンピュータビジョンコミュニティでは依然として挑戦的な問題です。さらに、注釈付きのサンプルが非常に限られているデータセットでこのような複雑なタスクを解決することを学ぶのは合理的ではありません。その結果、研究者はこの問題にディープラーニングアプローチを使用することを好みません。この論文では、複雑なタスクから非常に相関性の高い表現からHRへの学習までのHR推定を簡素化することにより、ディープニューラルネットワーク(DNN)の利点を活用するためのシンプルかつ効率的なアプローチを提案します。前の作業に触発されて、フロントエンド(FE)と呼ばれるコンポーネントを学習して、顔ビデオの識別表現を提供します。その後、バックエンド(BE)がFE表現をHRにマッピングするのを学習する際に、ライトディープ回帰オートエンコーダーを学習します。情報表現の回帰タスクは単純で、限られたトレーニングサンプルで効率的に学習できます。これに加えて、より正確で低品質のビデオで適切に動作するために、2つの深いエンコーダ/デコーダネットワークがトレーニングされ、FEの出力が改善されます。また、私たちの方法が現実的な条件で効率的に機能することを示すために、挑戦的なデータセット(HR-D)を紹介します。 HR-DおよびMAHNOBデータセットの実験結果は、本手法がリアルタイム手法として実行でき、最新の手法よりも平均HRをより良く推定できることを確認しています。

A Visual-inertial Navigation Method for High-Speed Unmanned Aerial Vehicles

高速無人航空機のための視覚慣性航法法

著者:Xin-long Luo, Jia-hui Lv, Geng Sun
URL:http://arxiv.org/abs/2002.04791v1

この論文の概要(機械翻訳による和訳)
この論文は、単眼カメラと慣性航法システムを備えた高速高高度無人航空機(UAV)の位置特定問題を調査します。 UAVの水平飛行から生じる特異点を克服するために、視覚および慣性デバイスの相補性を利用するナビゲーション方法を提案しています。さらに、線形部分を非線形部分から分離することにより、局所化問題の数学モデルを修正し、非線形最小二乗問題を線形等式制約付き最適化問題に置き換えます。連続的な制約のない最小化手法(ペナルティ法)の最適点付近の悪条件特性を回避するため、微分代数力学系に基づく信頼領域手法を使用して、線形的に等価に制約された最適化問題を解決する半陰的連続法を構築します。また、有限積分区間の常微分方程式の数値法の従来の収束解析以外の、無限積分区間での半陰的連続法の大域収束特性も解析します。最後に、有望な数値結果も提示されます。

MFFW: A new dataset for multi-focus image fusion

MFFW:マルチフォーカス画像融合のための新しいデータセット

著者:Shuang Xu, Xiaoli Wei, Chunxia Zhang, Junmin Liu, Jiangshe Zhang
URL:http://arxiv.org/abs/2002.04780v1

この論文の概要(機械翻訳による和訳)
マルチフォーカス画像融合(MFF)は、計算写真の分野における基本的なタスクです。現在の方法では、パフォーマンスが大幅に向上しています。現在の方法は、シミュレートされた画像セットまたはLytroデータセットで評価されることがわかります。最近、実世界のマルチフォーカス画像の現象であるデフォーカススプレッド効果に注目する研究者が増えています。それにもかかわらず、デフォーカススプレッド効果は、一般的な方法が非常によく機能する明らかなシミュレーションまたはLytroデータセットではありません。デフォーカススプレッド効果のある画像でのパフォーマンスを比較するために、このペーパーではMFF in the wild(MFFW)と呼ばれる新しいデータセットを構築します。インターネット上で収集された19組のマルチフォーカス画像が含まれています。ソース画像のすべてのペアを登録し、ペアの一部にフォーカスマップと参照画像を提供します。 Lytroデータセットと比較して、MFFWの画像はデフォーカススプレッド効果の影響を大きく受けます。さらに、MFFWのシーンはより複雑です。この実験は、MFFWデータセットに関する最新の方法のほとんどが、満足のいく融合画像を堅牢に生成できないことを実証しています。 MFFWは、MMFアルゴリズムがデフォーカススプレッド効果に対処できるかどうかをテストするための新しいベースラインデータセットになります。

Efficient Training of Deep Convolutional Neural Networks by Augmentation in Embedding Space

埋め込み空間の増強による深畳み込みニューラルネットワークの効率的な訓練

著者:Mohammad Saeed Abrishami, Amir Erfan Eshratifar, David Eigen, Yanzhi Wang, Shahin Nazarian, Massoud Pedram
URL:http://arxiv.org/abs/2002.04776v1

この論文の概要(機械翻訳による和訳)
人工知能の分野における最近の進歩は、ディープニューラルネットワークによって可能になりました。データが不足しているアプリケーションでは、一般的に、深層学習モデルの一般化を改善するために、転送学習とデータ増強の手法が使用されます。ただし、未処理の入力スペースでデータを拡張して転送モデルを微調整すると、拡張された入力ごとにネットワーク全体を実行するための計算コストが高くなります。これは、計算リソースとエネルギーリソースが限られている組み込みデバイスに大きなモデルを実装する場合に特に重要です。この研究では、生の入力空間の増強を、埋め込み空間で純粋に作用する近似的なものに置き換える方法を提案します。私たちの実験結果は、提案された方法が計算を大幅に削減する一方で、モデルの精度がほとんど損なわれないことを示しています。

Machine-Learning-Based Multiple Abnormality Prediction with Large-Scale Chest Computed Tomography Volumes

大規模胸部計算機トモグラフィーボリュームによる機械学習ベースの多重異常予測

著者:Rachel Lea Draelos, David Dov, Maciej A. Mazurowski, Joseph Y. Lo, Ricardo Henao, Geoffrey D. Rubin, Lawrence Carin
URL:http://arxiv.org/abs/2002.04752v1

この論文の概要(機械翻訳による和訳)
放射線医学用の機械学習モデルの開発には、異常のラベルが付いた大規模なイメージングデータセットが必要ですが、データのサイズと複雑さ、およびラベリングのコストのため、プロセスは困難です。 20,201人の患者からの36,316ボリュームの胸部コンピューター断層撮影(CT)データセットをキュレーションおよび分析しました。これは、報告された最大の多重注釈付き胸部CTデータセットです。このデータセットに注釈を付けるために、平均Fスコアが0.976(最小0.941、最大1.0)の放射線科医のフリーテキストレポートから異常ラベルを自動的に抽出するためのルールベースの方法を開発しました。また、ディープCT畳み込みニューラルネットワーク(CNN)を使用する胸部CTボリュームのマルチラベル異常分類のモデルを開発しました。このモデルは、18個の異常に対して0.90を超えるAUROCの分類性能に達し、83個の異常すべてに対して平均0.773のAUROCを持ち、フィルタリングされていない全ボリュームCTデータから学習する可能性を示しています。より多くのラベルでのトレーニングがパフォーマンスを大幅に改善することを示します:9つのラベルのサブセット-結節、不透明度、無気肺、胸水、統合、質量、心膜灌流、心肥大、および気胸-トレーニングラベルの数が10%増加した場合のモデルの平均AUROC 9からall83に増加しました。ボリュームの前処理、自動ラベル抽出、およびボリューム異常予測モデルのすべてのコードが公開されます。 36,316CTのボリュームとラベルも、機関の承認が得られるまで公開されます。

Progressive Object Transfer Detection

プログレッシブオブジェクト転送検出

著者:Hao Chen, Yali Wang, Guoyou Wang, Xiang Bai, Yu Qiao
URL:http://arxiv.org/abs/2002.04741v1

この論文の概要(機械翻訳による和訳)
オブジェクト検出の最近の開発は、大規模なベンチマークを使用したディープラーニングに主に依存しています。ただし、このような完全に注釈付けされたデータを収集することは、実際のアプリケーションでは困難または費用がかかることが多く、実際にはディープニューラルネットワークの能力が制限されます。あるいは、人間はしばしば事前の知識を使用して複雑な注釈付きの例がほとんどない新しいオブジェクトを識別し、その後、野生画像からオブジェクトを活用することでこの能力を一般化するため、人間は注釈の負担が少ない新しいオブジェクトを検出できます。新しいプログレッシブオブジェクト転送検出(POTD)フレームワーク。具体的には、このペーパーでは3つの主要な貢献を行っています。第1に、POTDは、さまざまなドメインのさまざまなオブジェクト監視を効果的に活用して、プログレッシブ検出手順を実現できます。このような人間に似た学習により、少ない注釈でターゲット検出タスクを強化できます。第二に、POTDは2つのデリケートな転送ステージ、すなわち、低ショット転送検出(LSTD)と弱監視転送検出(WSTD)で構成されます。 LSTDでは、ソース検出器の暗黙のオブジェクト知識を抽出して、わずかな注釈でターゲット検出器を強化します。後でWSTDを効果的にウォームアップできます。 WSTDでは、弱いラベル付けされた画像に注釈を付けることを学習するために、繰り返しオブジェクトのラベル付けメカニズムを設計します。さらに重要なことは、LSTDからの信頼できるオブジェクト監視を活用することです。これにより、WSTDステージでのターゲット検出器の堅牢性をさらに高めることができます。最後に、さまざまな設定で多くの困難な検出ベンチマークで広範な実験を実行します。結果は、POTDが最新の最先端のアプローチよりも優れていることを示しています。

分野/キーワード:

論文ナビに登録すると・・・
①最新情報をメールでお届け!
  • 話題のニュース一覧
  • 注目のプレスリリース
  • 論文解説・最近のイベント
②論文解説記事の投稿
  • ご自身の論文の解説
  • 読んだ論文のメモ
  • 研究に関する情報のシェア
③セミナー情報の宣伝
  • ご自身が主催するイベント情報を投稿してシェア
  • ユーザーで作るセミナー日程まとめに参加
【併せて読みたい関連記事】
X
- Enter Your Location -
- or -
パスワード再発行
お気に入り
  • Total (0)
0