画像認識分野論文まとめ【2020年01月28日arXiv公開】

アブストまとめ
Like0
お気に入り

2020年01月28日に発表された画像認識分野の論文30本のAbstractをまとめて和訳しました。

この記事の見出し

Near real-time map building with multi-class image set labelling and classification of road conditions using convolutional neural networks

畳み込みニューラルネットワークを使用したマルチクラス画像セットラベリングと道路状況の分類によるほぼリアルタイムのマップ構築

著者:Sheela Ramanna, Cenker Sengoz, Scott Kehler, Dat Pham
URL:http://arxiv.org/abs/2001.09947v1

この論文の概要(機械翻訳による和訳)
天気は、輸送と交通安全に影響を与える重要な要素です。このホワイトペーパーでは、最先端の畳み込みニューラルネットワークを活用して、北米全域にある道路カメラと高速道路カメラで撮影した画像にラベルを付けます。道路状況によって画像を分類するために、道路カメラのスナップショットが複数の深層学習フレームワークを使用した実験で使用されました。これらの実験のトレーニングデータでは、乾燥、湿潤、雪/氷、貧弱、オフラインのラベルが付いた画像を使用しました。実験では、この問題に対する適合性を評価するために、6つの畳み込みニューラルネットワーク(VGG-16、ResNet50、Xception、InceptionResNetV2、EfficientNet-B0、およびEfficientNet-B4)のさまざまな構成をテストしました。精度、精度、および再現率は、各フレームワーク構成で測定されました。さらに、トレーニングセットは、全体のサイズと個々のクラスのサイズの両方で変化しました。最終的なトレーニングセットには、前述の5つのクラスを使用してラベル付けされた47,000枚の画像が含まれていました。 EfficientNet-B4frameworkはこの問題に最も適していることがわかり、検証精度90.6%を達成しましたが、EfficientNet-B0は実行時間の半分で90.3%の精度を達成しました。転送学習を備えたVGG-16は、このプロジェクト全体で、限られたハードウェアリソースを使用したデータ取得および擬似ラベル付けに非常に役立つことが確認されました。その後、EfficientNet-B4フレームワークは、リアルタイムの実稼働環境に配置され、そこでは画像を継続的にリアルタイムで分類することができました。次に、分類された画像を使用して、北米全域のさまざまなカメラ位置でのリアルタイムの道路状況を示す地図を作成しました。これらのフレームワークの選択と分析では、リアルタイムのマップ構築機能の固有の要件を考慮します。これらのフレームワークを使用した半自動化されたデータセットのラベル付けプロセスの詳細な分析も、このホワイトペーパーで説明します。

Depthwise-STFT based separable Convolutional Neural Networks

深さ方向STFTベースの分離可能な畳み込みニューラルネットワーク

著者:Sudhakar Kumawat, Shanmuganathan Raman
URL:http://arxiv.org/abs/2001.09912v1

この論文の概要(機械翻訳による和訳)
この論文では、標準的な深さ方向に分離可能な畳み込み層の代替として機能することができる、Depthwise-STFTSeparable層と呼ばれる新しい畳み込み層を提案します。提案された層の構築は、フーリエ係数が画像内のエッジなどの重要な特徴を正確に表すことができるという事実に着想を得ています。入力マップの各位置の2Dローカル近傍(3×3など)で(チャネルごとに)計算されたフーリエ係数を使用して、特徴マップを取得します。フーリエ係数は、各位置の2D局所近傍の複数の固定低周波数ポイントで2D短期フーリエ変換(STFT)を使用して計算されます。次に、異なる周波数ポイントでのこれらの特徴マップは、トレーニング可能なポイントワイズ(1×1)コンボリューションを使用して線形結合されます。提案されたレイヤーは、時空の複雑さが軽減されたCIFAR-10およびCIFAR-100画像分類データセットで、標準の深さ方向に分離可能なレイヤーベースのモデルよりも優れていることを示します。

Rotation, Translation, and Cropping for Zero-Shot Generalization

ゼロショット一般化のための回転、変換、およびトリミング

著者:Chang Ye, Ahmed Khalifa, Philip Bontrager, Julian Togelius
URL:http://arxiv.org/abs/2001.09908v1

この論文の概要(機械翻訳による和訳)
Deep Reinforcement Learning(DRL)は、視覚入力、特にさまざまなゲームのあるドメインで印象的なパフォーマンスを示しています。ただし、エージェントは通常、固定環境でトレーニングされます。固定数のレベル。ますます多くの証拠が、これらの訓練されたモデルが、訓練された環境のわずかな変動に一般化できないことを示唆しています。この論文は、一般化の欠如が部分的に入力表現によるものであるという仮説を進め、回転、トリミング、および翻訳が一般性をどのように高めることができるかを調査します。切り取り、翻訳、回転した観測は、2次元のアーケードゲームの見えないレベルでより一般化できることを示します。エージェントの一般性は、人間が設計した一連のレベルで評価されます。

DRMIME: Differentiable Mutual Information and Matrix Exponential for Multi-Resolution Image Registration

DRMIME:多重解像度画像登録のための微分可能な相互情報とマトリックス指数

著者:Abhishek Nan, Matthew Tennant, Uriel Rubin, Nilanjan Ray
URL:http://arxiv.org/abs/2001.09865v1

この論文の概要(機械翻訳による和訳)
この作業では、新しい教師なし画像レジストレーションアルゴリズムを紹介します。微分可能なエンドツーエンドであり、マルチモーダルおよびモノモーダルのレジストレーションの両方に使用できます。これは、相互情報(MI)をメトリックとして使用して行われます。ここでの新規性は、MIを近似する従来の方法を使用するのではなく、MINEと呼ばれる神経推定器を使用し、変換行列計算のために行列指数で補足することです。これにより、最新の画像登録ツールボックスですぐに使用可能な標準アルゴリズムと比較して、結果が改善されます。

Handling noise in image deblurring via joint learning

共同学習による画像のボケ除去のノイズ処理

著者:Si Miao, Yongxin Zhu
URL:http://arxiv.org/abs/2001.09730v1

この論文の概要(機械翻訳による和訳)
現在、多くのブラインドのブレ除去方法は、ぼやけた画像にノイズがなく、ノイズのあるぼやけた画像に対して不十分な動作をすると仮定しています。残念ながら、実際のシーンではノイズが非常に一般的です。簡単な解決策は、ブレを除去する前にイメージのノイズを除去することです。ただし、最先端のノイズ除去機でさえ、ノイズを完全に除去することを保証できません。ノイズ除去された画像のわずかな残留ノイズは、ブレ除去段階で大きなアーチファクトを引き起こす可能性があります。この問題に取り組むために、denoisersubnetworkとdeblurringサブネットワークで構成されるカスケードフレームワークを提案します。以前の方法とは対照的に、2つのサブネットワークを共同でトレーニングします。共同学習は、ブレ除去でノイズを除去した後の残留ノイズの影響を低減するため、大きなノイズに対するブレ除去の堅牢性が向上します。さらに、我々の方法は、カーネル推定をぼかすのにも役立ちます。 CelebAデータセットとGOPROデータセットでの実験は、私たちの方法がいくつかの最先端の方法に対して好意的に機能することを示しています。

Unconstrained Biometric Recognition: Summary of Recent SOCIA Lab. Research

制約のない生体認証:最近のSOCIAラボの概要。研究

著者:Varsha Balakrishnan
URL:http://arxiv.org/abs/2001.09703v1

この論文の概要(機械翻訳による和訳)
視覚監視条件、つまり、制約のないデータ取得条件および秘密のプロトコルで動作することができる生体認証ソリューションの開発は、研究コミュニティからのますます大きな努力を動機付けてきました。この問題を懸念しているさまざまな研究所、学校、および研究機関の中で、ポルトガルのベイラ大学のSOCIA:Soft Computing and Image AnalysisLab。は、このような非常に野心的なオートマトンを取得するための破壊的なソリューションを追求する上で最も積極的です。このレポートは、SOCIAラボの要素によって公開された研究成果をまとめたものです。過去10年間で、制約のない状態での生体認証の範囲で。このアイデアは、この研究トピックに参加したい人の基礎として使用できるということです。

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

細粒度のアクション認識のためのマルチモーダルドメイン適応

著者:Jonathan Munro, Dima Damen
URL:http://arxiv.org/abs/2001.09691v1

この論文の概要(機械翻訳による和訳)
細分化されたアクション認識データセットは、限られた数の環境から複数のビデオシーケンスがキャプチャされる環境バイアスを示します。教師なしDomainAdaptation(UDA)アプローチは、ソースドメインとターゲットドメイン間の敵対的トレーニングを頻繁に利用しています。ただし、これらのアプローチは、各ドメイン内のビデオのマルチモーダルな性質を調査していません。この作業では、敵対的アラインメントに加えて、UDAの自己監視型アラインメント手法としてモダリティの対応を活用します。大規模なデータセットであるEPIC-Kitchensの3つのキッチンで、アクション認識に一般的に使用される2つのモダリティ、RGBおよびオプティカルフローを使用して、アプローチをテストします。マルチモーダル自己監視だけで、ソースのみのトレーニングよりもパフォーマンスが平均で2.4%向上することを示しています。次に、敵対者のトレーニングとマルチモーダルの自己監視を組み合わせて、アプローチが他のUDAメソッドよりも3%優れていることを示します。

A Robust Real-Time Computing-based Environment Sensing System for Intelligent Vehicle

インテリジェント車両用の堅牢なリアルタイムコンピューティングベースの環境センシングシステム

著者:Qiwei Xie, Qian Long, Liming Zhang, Zhao Sun
URL:http://arxiv.org/abs/2001.09678v1

この論文の概要(機械翻訳による和訳)
インテリジェント車両の場合、3D環境を検知することが最初の重要なステップです。このホワイトペーパーでは、低電力のモバイルプラットフォームに基づいたリアルタイムの高度なドライバーアシスタンスシステムを構築します。システムは、リアルタイムのマルチスキーム統合イノベーションシステムであり、ステレオマッチングアルゴリズムと機械学習ベースの障害物検出アプローチを組み合わせ、GPUおよびCPUを備えたモバイルプラットフォームの分散コンピューティングテクノロジーを活用します。まず第一に、堅牢で正確な視差マップを生成できるマルチスケール高速MPV(Multi-Path-Viterbi)ステレオマッチングアルゴリズムを提案します。次に、単眼と双眼の融合技術に基づいた機械学習が障害物の検出に適用されます。また、Zhangのキャリブレーション手法に基づいた自動高速キャリブレーションメカニズムも進めています。最後に、分散コンピューティングと合理的なデータフロープログラミングを適用して、システムの運用効率を確保します。実験結果は、システムがインテリジェントな車両の堅牢で正確なリアルタイム環境認識を実現できることを示しています。

Explaining with Counter Visual Attributes and Examples

カウンターの視覚的な属性と例による説明

著者:Sadaf Gulshad, Arnold Smeulders
URL:http://arxiv.org/abs/2001.09671v1

この論文の概要(機械翻訳による和訳)
本論文では、マルチモーダル情報を活用してニューラルネットワークの決定を説明することを目指しています。それは、摂動されたサンプルが導入されたときに表示される直感に反する属性およびカウンターの視覚的な例です。視覚的な説明の一部。人間が視覚的な決定を説明するとき、属性と例を提供することでそうする傾向があります。したがって、このペーパーの人間の説明の方法に触発されて、属性ベースおよび例ベースの説明を提供します。さらに、人間はまた、見えないものを説明するために反属性と反例を追加することにより、視覚的な決定を説明する傾向があります。例に指示された摂動を導入して、例をクラスに分類するときにどの属性値が変化するかを観察します。これにより、直感的なカウンター属性と反例が提供されます。粗いデータセットと細かいデータセットの両方を使用した実験では、属性が識別可能で人間が理解できる直感的で直感に反する説明を提供することが示されています。

The Whole Is Greater Than the Sum of Its Nonrigid Parts

全体はその非剛体部分の合計よりも大きい

著者:Oshri Halimi, Ido Imanuel, Or Litany, Giovanni Trappolini, Emanuele Rodolà, Leonidas Guibas, Ron Kimmel
URL:http://arxiv.org/abs/2001.09650v1

この論文の概要(機械翻訳による和訳)
古代ギリシャの哲学者アリストテレスによると、「全体はその部分の合計よりも大きい」。この観察は、20世紀のゲシュタルト心理学派の人間の知覚を説明するために採用されました。ここでは、以前に全体として取得されたオブジェクトの一部を観察すると、全体的な方法で部分一致と形状補完の両方に対処できると主張します。より具体的には、特定のポーズの完全な関節オブジェクトのジオメトリ、および異なるポーズの同じオブジェクトの部分スキャンを考えると、部分観察から新しいポーズを同時に再構築しながら、全体を部分に一致させる問題に対処します。私たちのアプローチはデータ駆動型で、推論時に一貫した頂点ラベリングを必要とせずにシャムオートエンコーダーの形を取ります。そのため、未編成のポイントクラウドおよび三角形メッシュでも使用できます。合成データと実世界の幾何データの両方で、シングルビューの変形可能な形状の補完と密な形状の対応のアプリケーションで、これらのタスクの事前の作業を大幅に上回る、モデルの実用的な有効性を実証します。

Convolution Neural Network Architecture Learning for Remote Sensing Scene Classification

リモートセンシングシーン分類のための畳み込みニューラルネットワークアーキテクチャ学習

著者:Jie Chen, Haozhe Huang, Jian Peng, Jiawei Zhu, Li Chen, Wenbo Li, Binyu Sun, Haifeng Li
URL:http://arxiv.org/abs/2001.09614v1

この論文の概要(機械翻訳による和訳)
リモートセンシング画像のシーン分類は、リモートセンシング画像を理解する上での基本的な課題です。最近、深層学習ベースの方法、特に畳み込みニューラルネットワークベース(CNNベース)の方法は、リモートセンシング画像を理解する大きな可能性を示しています。 CNNベースの方法は、手動で設計された機能ではなく、データから学習した機能を利用することで成功します。 CNNの機能学習手順は、CNNのアーキテクチャに大きく依存しています。ただし、リモートセンシングシーンの分類に使用されるCNNのアーキテクチャのほとんどは、かなりの量のアーキテクチャエンジニアリングスキルとドメインの知識を必要とする手作業で設計されており、特別なデータセットでCNNの最大の可能性を発揮できない可能性があります。本論文では、リモートセンシングシーン分類のための自動アーキテクチャ学習手順を提案した。すべてのパラメーターセットがCNNの特定のアーキテクチャを表すパラメータースペースを設計しました(つまり、一部のパラメーターは、畳み込み、プーリング、接続またはIDなしなどのアーキテクチャで使用される演算子のタイプを表し、その他はこれらのオペレーターの接続方法を表します) 。特定のデータセットの最適なパラメータセットを発見するために、勾配降下によってアーキテクチャ空間で効率的な検索を可能にする学習戦略を導入しました。アーキテクチャジェネレーターは、一連のパラメーターを実験で使用したCNNに最終的にマッピングします。

Practical Fast Gradient Sign Attack against Mammographic Image Classifier

マンモグラフィ画像分類器に対する実用的な高速勾配サイン攻撃

著者:Ibrahim Yilmaz
URL:http://arxiv.org/abs/2001.09610v1

この論文の概要(機械翻訳による和訳)
人工知能(AI)は長年にわたって主要な研究のトピックでした。特に、ディープニューラルネットワーク(DNN)の出現により、これらの研究は非常に成功しています。今日、機械は人間よりも高速で正確な意思決定を行うことができます。機械学習(ML)技術の大きな発展のおかげで、MLは教育、医学、マルウェア検出、自動運転車などの多くの異なる分野で使用されています。 。攻撃者はクリーンなデータを操作して、ML分類子をだまして目的の目標を達成できます。たとえば、良性のサンプルは悪意のあるサンプルとして変更することも、悪意のあるサンプルを良性として変更することもできますが、この変更は人間の観察者には認識されません。これは、多くの経済的損失、または重傷、さらには死に至る可能性があります。このペーパーの背後にある動機は、この問題を強調し、意識を高めたいということです。したがって、敵対的な攻撃に対するマンモグラフィ画像分類のセキュリティギャップが示されます。マンモグラフィ画像を使用してモデルをトレーニングし、精度の観点からモデルのパフォーマンスを評価します。後で、元のデータセットをポイズニングし、モデルによって分類ミスされた敵対的なサンプルを生成します。次に、構造的類似性インデックス(SSIM)を使用して、クリーンな画像と敵対的な画像間の類似性を分析します。最後に、さまざまな中毒因子を使用することで、悪用の成功度を示します。

FakeLocator: Robust Localization of GAN-Based Face Manipulations via Semantic Segmentation Networks with Bells and Whistles

FakeLocator:ベルとホイッスルを使用したセマンティックセグメンテーションネットワークを介したGANベースの顔操作のロバストなローカリゼーション

著者:Yihao Huang, Felix Juefei-Xu, Run Wang, Xiaofei Xie, Lei Ma, Jianwen Li, Weikai Miao, Yang Liu, Geguang Pu
URL:http://arxiv.org/abs/2001.09598v1

この論文の概要(機械翻訳による和訳)
今日、ジェネラルな敵対ネットワーク(GAN)のおかげで、フルフェイス合成と部分的なフェイスマニピュレーションが広く一般の関心を集めています。デジタルメディアフォレンジックの分野では、イメージ偽造の検出と最終的な特定が不可欠になっています。多くの方法が偽の検出に焦点を合わせていますが、偽の領域のローカリゼーションに重点を置いているのはごく少数です。 GANベースのメソッドのアップサンプリング手順の不完全性を分析し、偽のローカリゼーション問題を修正されたセマンティックセグメンテーション1として再キャストすることにより、提案されたFakeLocatorは、操作された顔画像で高いローカリゼーション精度を得ることができます。私たちの知る限り、これはセマンティックセグメンテーションマップを使用してGANベースの偽ローカリゼーション問題を解決する最初の試みです。改良点として、私たちが提案する実数のセグメンテーションマップは、より多くの情報の偽領域を保存します。この新しいタイプのセグメンテーションマップには、適切な損失関数もあります。 7つの異なるSOTA GANベースの顔生成方法を備えたCelebAおよびFFHQデータベースの実験結果は、本方法の有効性を示しています。ベースラインと比較して、この方法はさまざまなメトリックで数回パフォーマンスが向上します。さらに、提案された方法は、JPEG圧縮、低解像度、ノイズ、ブラーなど、実世界のさまざまな顔画像の劣化に対して堅牢です。

Genetic Programming for Evolving a Front of Interpretable Models for Data Visualisation

データ可視化のための解釈可能なモデルの最前線を進化させるための遺伝的プログラミング

著者:Andrew Lensen, Bing Xue, Mengjie Zhang
URL:http://arxiv.org/abs/2001.09578v1

この論文の概要(機械翻訳による和訳)
データの視覚化は、ビッグデータセットを理解するためのデータマイニングの重要なツールです。よく知られている最先端の方法であるt-Distributed Stochastic NeighbourEmbeddingを含む多くの視覚化方法が提案されています。ただし、最も強力な視覚化方法には大きな制限があります。データセットの元の機能から視覚化を作成する方法は完全に不透明です。多くのドメインでは、元の機能に関してデータを理解する必要があります。したがって、理解可能なモデルを使用する強力な視覚化方法が必要です。この作業では、データセットから高品質の視覚化に解釈可能なマッピングを進化させるためのGPtSNEという名前の遺伝的プログラミングアプローチを提案します。単一の実行でさまざまな視覚化を生成する多目的アプローチが設計されており、視覚的品質とモデルの複雑さの間で異なるトレードオフが得られます。さまざまなデータセットのベースラインメソッドに対するテストにより、GP-tSNEの明確な可能性が示され、既存の視覚化メソッドによって提供されるデータよりも深い洞察が得られます。さらに、候補フロントの詳細な分析を通じて、多目的アプローチの利点を強調します。

Crowd Scene Analysis by Output Encoding

出力エンコーディングによる群衆シーン分析

著者:Yao Xue, Siming Liu, Yonghui Li, Xueming Qian
URL:http://arxiv.org/abs/2001.09556v1

この論文の概要(機械翻訳による和訳)
群衆シーン分析は、その幅広い用途のために注目を集めています。混雑したシーンでリスクの高い領域を空間的に識別するためには、(群衆数だけでなく)正確な群衆の位置を把握することが重要です。この論文では、圧縮センシングに基づく出力エンコーディング(CSOE)スキームを提案します。これは、小さなオブジェクトのピクセル座標の検出を、信号空間のエンコーディングにおける信号回帰のタスクにキャストします。 CSOEは、ターゲットが大規模な変動なしで非常に混雑している状況で、ローカライズパフォーマンスを向上させるのに役立ちます。さらに、人の大きさのばらつきのため、適切な受容野の大きさは群衆分析にとって重要です。さまざまな受容フィールドサイズのセットを提供する複数のDilatedConvolution Branches(MDCB)を作成し、画像内でオブジェクトのサイズが大幅に変化した場合のローカライズの精度を向上させます。また、適切な受容フィールドサイズを持つ情報チャネルを適応的に強調することにより、スケール変動の問題にさらに対処する適応受容フィールドウェイト(ARFW)モジュールを開発します。 4つのメインストリームデータセット全体で、特に混雑したシーンで優れた結果を達成します。さらに重要なことは、実験は群衆分析タスクでターゲットサイズのばらつきの問題に取り組むことが重要であるという洞察をサポートします。

aiTPR: Attribute Interaction-Tensor Product Representation for Image Caption

aiTPR:画像キャプションの属性相互作用-テンソル製品表現

著者:Chiranjib Sur
URL:http://arxiv.org/abs/2001.09545v1

この論文の概要(機械翻訳による和訳)
領域の視覚的特徴は、特徴に基づいてマシンの生成機能を強化しますが、適切な相互作用の注意知覚を欠いているため、偏った、または無相関の文や断片の情報になります。この作業では、属性の相互作用-テンソルProductRepresentation(aiTPR)を提案します。これは、直交結合を通じてより多くの情報を収集し、相互作用を物理エンティティ(テンソル)として学習し、キャプションを改善する便利な方法です。機能が未定義の機能空間に追加される以前の作品と比較して、TPRは組み合わせの健全性を維持するのに役立ち、直交性はおなじみの空間を定義するのに役立ちます。オブジェクトとその相互作用を定義する新しいコンセプトレイヤーを導入し、さまざまな記述の決定に重要な役割を果たすことができます。インタラクションの部分は、キャプションの品質を大幅に向上させ、このドメインとMSCOCOデータセットに関する以前のさまざまな成果を上回っています。私たちは、地域の画像特徴と抽象化された相互作用尤度を画像キャプションに埋め込むという概念を初めて導入しました。

Weakly Supervised Few-shot Object Segmentation using Co-Attention with Visual and Semantic Inputs

視覚的および意味的入力との共注意を使用した弱教師付き少数ショットオブジェクトセグメンテーション

著者:Mennatullah Siam, Naren Doraiswamy, Boris N. Oreshkin, Hengshuai Yao, Martin Jagersand
URL:http://arxiv.org/abs/2001.09540v1

この論文の概要(機械翻訳による和訳)
最近、少数ショットのオブジェクトセグメンテーションメソッドの開発が大幅に進歩しました。学習は、ピクセルレベル、落書き、境界ボックスを含むいくつかのセグメンテーション設定で成功することが示されています。これらの方法は、ラベルを付けるためにかなりの画像編集作業が必要なため、「強くラベル付けされた」サポート画像として分類できます。このホワイトペーパーでは、別のアプローチを採用しています。つまり、少数のオブジェクトのセグメンテーションに画像レベルの分類データのみが必要です。成功した場合、大量の画像レベルのラベル付きデータがこのアプローチを意味します。画像レベルのデータのセグメンテーションに使用できる明らかな機能がないため、問題は困難です。視覚的埋め込みと単語埋め込みの両方を使用した共同注意メカニズムを利用した、少数ショットのオブジェクトセグメンテーション用の新しいマルチモーダル相互作用モジュールを提案します。画像レベルのラベルを使用したモデルは、以前に提案された画像レベルの数ショットオブジェクトのセグメンテーションよりも4.8%の改善を達成し、PASCAL-5iで弱い境界ボックスの監視を使用する最先端の方法よりも優れています。私たちの結果は、単語の埋め込みを利用することで少数ショットのセグメンテーションの利点が得られ、weakimageレベルのラベルを備えたスタックされた視覚的意味処理を使用して少数ショットのセグメンテーションを実行できることを示しています。さらに、ビデオ用の新しいセットアップである、Few-Shot Learning(TOSFL)のためのTemporal ObjectSegmentationを提案します。 TOSFLでは、後続のフレームのオブジェクトをセグメント化するために、最初のフレームの画像レベルのラベルのみが必要です。 TOSFLは、ビデオセグメンテーションの新しいベンチマークを提供します。これは、実験で示したように、Youtube-VOSなどのさまざまなパブリックビデオデータで使用できます。

Visualisation of Medical Image Fusion and Translation for Accurate Diagnosis of High Grade Gliomas

高悪性度神経膠腫の正確な診断のための医療画像融合と翻訳の視覚化

著者:Nishant Kumar, Nico Hoffmann, Matthias Kirsch, Stefan Gumhold
URL:http://arxiv.org/abs/2001.09535v1

この論文の概要(機械翻訳による和訳)
医用画像融合は2つ以上のモダリティを単一のビューに結合し、医用画像変換は新しい画像を合成し、データ増強を支援します。一緒に、これらの方法は、高悪性度神経膠腫のより迅速な診断に役立ちます。しかし、術前の外科的決定を下す前に、どの神経外科医が融合および翻訳結果の信頼性を検証するための堅牢な視覚化ツールを必要とするため、それらは信頼できない可能性があります。本論文では、2つの画像の同時確率分布を使用してソースからターゲット画像への情報伝達を推定することにより、ソースとターゲットの画像ペア間の信頼ヒートマップを計算する新しいアプローチを提案します。視覚化手順を使用していくつかの融合および翻訳方法を評価し、その堅牢性を示して、神経外科医がより細かい臨床的決定を下すことができないようにします。

Using Simulated Data to Generate Images of Climate Change

シミュレートされたデータを使用して気候変動の画像を生成する

著者:Gautier Cosne, Adrien Juraver, Mélisande Teng, Victor Schmidt, Vahe Vardanyan, Alexandra Luccioni, Yoshua Bengio
URL:http://arxiv.org/abs/2001.09531v1

この論文の概要(機械翻訳による和訳)
ドメイン適応タスクで使用されるGenerative Adversarial Network(GAN)は、現実的でパーソナライズされた画像を生成し、識別可能な特性を維持しながら入力画像を変換する機能を備えていますが、多くの場合、データへのアクセスが制限されている場合にユーザビリティを制限する堅牢な方法。本論文では、シミュレートされた3D環境の画像を使用してMUNITアーキテクチャによって実行されるドメイン適応タスクを改善する可能性を探り、得られた画像を使用して、気候変動の潜在的な将来の影響の認識を高めます。

Imperfect ImaGANation: Implications of GANs Exacerbating Biases on Facial Data Augmentation and Snapchat Selfie Lenses

不完全なImaGANation:顔データの増強とSnapchat Selfieレンズに対するバイアスを悪化させるGANの意味

著者:Niharika Jain, Alberto Olmo, Sailik Sengupta, Lydia Manikonda, Subbarao Kambhampati
URL:http://arxiv.org/abs/2001.09528v1

この論文の概要(機械翻訳による和訳)
最近、GANによって生成された合成データの使用は、多くのアプリケーションのデータ増強を行う一般的な方法になりました。実践者は、これを、データを大量に消費する機械学習モデルの合成データを取得する経済的な方法として賞賛していますが、すでにバイアスがかけられているデータセットに適用した場合、そのような拡張手法の危険性を認識することは明らかではありません。 GANが元のデータの分布を複製することを期待しますが、データが制限され、ネットワーク容量が限られている現実の環境では、GANはモード崩壊の影響を受けます。特に、このデータがバランスの取れていないオンラインソーシャルメディアプラットフォームまたはWebからのものである場合。このペーパーでは、データがいくつかの軸(性別、人種など)に沿ってバイアスを示す設定で、Generative Adversarial Networks(GAN)の障害モードが生成されたデータのバイアスを悪化させることを示します。多くの場合、このバイアスは避けられません。米国の47のオンライン大学ディレクトリWebページから収集された工学部のヘッドショットのデータセットの入力が、白人(男性)に偏っていることを経験的に示しています。男性の顔の特徴と白い肌の色(人間の研究と最新の性別認識システムを使用して推定)。また、Snapchatの爆発的に人気のある「女性」フィルター(GANの条件付きバリアントを使用することで広く受け入れられている)が、顔画像をより女性的に見せようとするときに、色の女性の肌の色調を一貫して明るくする方法を強調する予備的なケーススタディも実施します。私たちの研究は、ウェブデータでGANベースの増強技術を使用することでトレーニングデータのバイアスを無意識に増加させ、顔のアプリケーションにバイアスデータセットを使用することの危険性を示す素人の実践者のための注意書きとして役立つことを意図しています。

Markov-Chain Monte Carlo Approximation of the Ideal Observer using Generative Adversarial Networks

生成的敵対ネットワークを用いた理想オブザーバーのマルコフ連鎖モンテカルロ近似

著者:Weimin Zhou, Mark A. Anastasio
URL:http://arxiv.org/abs/2001.09526v1

この論文の概要(機械翻訳による和訳)
信号検出タスク用に医療画像システムを最適化する場合、理想的なオブザーバー(IO)パフォーマンスが提唱されています。ただし、IOテスト統計の分析計算は一般に難解です。 IOテストの統計を概算するために、マルコフ連鎖モンテカルロ(MCMC)手法を採用したサンプリングベースの方法が開発されました。ただし、MCMC手法の現在のアプリケーションは、ゴツゴツしたオブジェクトモデルやバイナリテクスチャモデルなどのいくつかのオブジェクトモデルに限定されており、MCMCmethodsを他のより洗練されたオブジェクトモデルで実装する方法は不明のままです。生成的敵対ネットワーク(GAN)を使用する深層学習法は、画像データから確率的オブジェクトモデル(SOM)を学習するための大きな約束を保持します。この研究では、GANを使用して学習したSOMにMCMC技術を適用することでIOを概算する方法を説明しました。提案された方法は、GANを使用して学習できる任意のオブジェクトモデルで使用できるため、IOパフォーマンスを概算するためのMCMC手法の適用範囲が拡張されます。本研究では、既知の正確な信号(SKE)と既知の統計的な信号(SKS)の両方のバイナリ信号検出タスクが考慮されます。提案された方法の利点について説明します。

Abdominal multi-organ segmentation with cascaded convolutional and adversarial deep networks

カスケードされた畳み込みおよび敵対深いネットワークによる腹部多臓器セグメンテーション

著者:Pierre-Henri Conze, Ali Emre Kavur, Emilie Cornec-Le Gall, Naciye Sinem Gezer, Yannick Le Meur, M. Alper Selver, François Rousseau
URL:http://arxiv.org/abs/2001.09521v1

この論文の概要(機械翻訳による和訳)
目的:腹部解剖のセグメンテーションは、コンピューター支援診断から画像誘導手術までの多数のアプリケーションにとって重要です。このコンテキストでは、ディープラーニングを使用して腹部CTおよびMR画像からの完全自動化された複数臓器のセグメンテーションに対処します。方法:提案モデルは、標準の条件付き生成的敵対ネットワークを拡張します。現実的な臓器描写を作成するためにモデルを実施する弁別器に加えて、部分的に事前に訓練された畳み込みエンコーダーデコーダーをジェネレーターとして埋め込みます。大量の非医療画像からのエンコーダー微調整により、データ不足の制限が緩和されます。ネットワークは、自動コンテキストを使用した同時マルチレベルセグメンテーションの改良から利益を得るために、エンドツーエンドでトレーニングされます。結果:健康な肝臓、腎臓、脾臓のセグメンテーションに使用される当社のパイプラインは、最先端のエンコーダーデコーダースキームよりも優れた性能を発揮し、有望な結果を提供します。 IEEE International Symposium on Biomedical Imaging 2019と共同で開催された複合健康腹部臓器セグメンテーション(CHAOS)チャレンジに続き、肝臓CT、肝臓MR、多臓器MRセグメンテーションの3つのコンペティションカテゴリで1位になりました。結論:カスケードされた畳み込みネットワークと敵対的ネットワークを組み合わせることで、深層学習パイプラインの能力が強化され、複数の腹部臓器が自動的に描写され、一般化能力が向上します。重要性:提供された包括的な評価は、腹部画像の解釈と臨床的意思決定において臨床医を助けるためにより良いガイダンスが実現できることを示唆している。

Unsupervised Disentanglement of Pose, Appearance and Background from Images and Videos

画像およびビデオからのポーズ、外観、および背景の教師なしのもつれ解除

著者:Aysegul Dundar, Kevin J. Shih, Animesh Garg, Robert Pottorf, Andrew Tao, Bryan Catanzaro
URL:http://arxiv.org/abs/2001.09518v1

この論文の概要(機械翻訳による和訳)
教師なしランドマーク学習は、高価な入力キーポイントレベルの注釈を使用せずにセマンティックキーポイントのような表現を学習するタスクです。一般的なアプローチは、画像をポーズと外観のデータストリームに因子分解し、因子分解されたコンポーネントから画像を再構築することです。ポーズ表現は、入力画像の再構築を容易にするために、一貫した厳密にローカライズされたランドマークのセットをキャプチャする必要があります。最終的に、学習したランドマークが対象の前景オブジェクトに焦点を合わせることを望みます。ただし、画像全体の再構築タスクにより、モデルはランドマークを割り当てて背景をモデル化します。この作業では、再構築タスクを個別の前景と背景の再構築に因数分解する効果を調査し、監視されていないランドマークの前景の再構築のみを調整します。我々の実験は、提案された因数分解が、関心のある前景オブジェクトに焦点を合わせたランドマークをもたらすことを実証している。さらに、バックグラウンドレンダリングパイプラインは、そのポーズと外観をモデル化するのに不適切なランドマークを必要としないため、レンダリングされた背景の品質も向上します。ビデオ予測タスクのコンテキストでこの改善を実証します。

Brain Metastasis Segmentation Network Trained with Robustness to Annotations with Multiple False Negatives

複数の偽陰性を伴う注釈に対するロバストネスで訓練された脳転移セグメンテーションネットワーク

著者:Darvin Yi, Endre Grøvik, Michael Iv, Elizabeth Tong, Greg Zaharchuk, Daniel Rubin
URL:http://arxiv.org/abs/2001.09501v1

この論文の概要(機械翻訳による和訳)
ディープラーニングは医療画像分析に不可欠なツールであることが証明されていますが、正確にラベル付けされた入力データが必要であり、多くの場合専門家による時間と労力のかかる注釈が必要であるため、ディープラーニングの使用には大きな制限があります。この課題に対する解決策の1つは、粗いラベルまたはノイズの多いラベルを使用できるようにすることです。これにより、より効率的でスケーラブルな画像のラベル付けが可能になります。この作業では、ターゲット注釈に非自明な偽陰性率が存在することを前提とするエントロピー正則化に基づいた片側損失関数を開発します。慎重に注釈付けされた脳転移病変データセットから始めて、(1)注釈付けされた病変をランダムに検閲し、(2)最小病変を体系的に検閲することにより、偽陰性のデータをシミュレートします。 Thelatterは、小さな病変が大きな病変よりも気づきにくいため、真の医師のエラーをよりよくモデル化します。 50%の高い偽陰性率をシミュレートしても、損失関数をランダムに打ち切られたデータに適用すると、標準の損失関数の10%と比較して、打ち切りのないトレーニングデータのベースラインの97%で最大感度が維持されます。サイズに基づく検閲の場合、パフォーマンスは現在の標準の17%から、ブートストラップの損失が失われた88%に復元されます。私たちの仕事は、より効率的なユーザーインターフェイスと注釈用ツールを作成する他のアプローチと並行して、画像ラベリングプロセスのより効率的なスケーリングを可能にします。

Explainable Artificial Intelligence and Machine Learning: A reality rooted perspective

説明可能な人工知能と機械学習:現実に根ざした視点

著者:Frank Emmert-Streib, Olli Yli-Harja, Matthias Dehmer
URL:http://arxiv.org/abs/2001.09464v1

この論文の概要(機械翻訳による和訳)
私たちは、技術の進歩の結果として、ほぼすべての科学分野で生成されたビッグデータの可用性に慣れています。ただし、このようなデータの分析には大きな課題があります。これらの1つは、人工知能(AI)または機械学習方法の説明可能性に関連しています。現在、そのような方法の多くは、その動作メカニズムに関して非透過的であり、このため、ブラックボックスモデルと呼ばれ、最も顕著なのは深層学習方法です。しかし、これは健康科学や刑事司法を含む多くの分野で深刻な問題を構成することが理解されており、説明可能なAIを支持する議論が提唱されています。このペーパーでは、説明可能なAIを提示する通常の視点を想定していませんが、説明可能なAIの可能性について説明します。違いは、希望的観測ではなく、物理学を超えた科学理論に関連した現実に基づいた特性を提示することです。

SDOD:Real-time Segmenting and Detecting 3D Objects by Depth

SDOD:深さによるリアルタイムのセグメント化と3Dオブジェクトの検出

著者:Caiyi Xu, Jianping Xing, Yafei Ning, Yonghong Chen, Yong Wu
URL:http://arxiv.org/abs/2001.09425v1

この論文の概要(機械翻訳による和訳)
ほとんどの既存のインスタンスセグメンテーションメソッドは、2Dオブジェクトのみに焦点を当てており、自動運転などの3Dシーンには適していません。このホワイトペーパーでは、インスタンスのセグメンテーションとオブジェクト検出を2つの並列ブランチに分割するモデルを提案します。オブジェクトの深さを「深さのカテゴリ」(背景を0、オブジェクトを[1、K]に設定)に離散化すると、インスタンスのセグメンテーションタスクはピクセルレベルの分類タスクに変換されます。マスク分岐はピクセルレベルの「深さカテゴリ」を予測し、3D分岐はインスタンスレベルの「深さカテゴリ」を予測し、同じ「深さカテゴリ」を持つピクセルを各インスタンスに割り当てることでインスタンスマスクを生成します。さらに、KITTIデータセット内のマスクラベルと3Dラベル間の不均衡の問題を解決するために(マスクの場合200、3Dの場合7481)、他のインスタンスセグメンテーションメソッドによって生成された非現実的なマスクを使用してマスクブランチをトレーニングします。非現実的なマスクラベルを使用しているにもかかわらず、KITTIデータセットでの実験結果は、車両インスタンスのセグメンテーションで依然として最新のパフォーマンスを実現しています。

EEG fingerprinting: subject specific signature based on the aperiodic component of power spectrum

EEGフィンガープリンティング:パワースペクトルの非周期的成分に基づく被験者固有のシグネチャ

著者:Matteo Demuru, Matteo Fraschini
URL:http://arxiv.org/abs/2001.09424v1

この論文の概要(機械翻訳による和訳)
過去数年の間に、活性化パターンと脳の接続性に対する個人の変動によって誘発される効果への関心が高まっています。個々の変動の実際的な意味は、グループレベルと被験者レベルの両方の研究に基本的に関連しています。脳波(EEG)は、依然として、脳に関連するさまざまな機能を調査するために最もよく使用されている録音技術の1つです。この作業では、EEGパワースペクトルから抽出された非常にシンプルで簡単に解釈可能な特徴のセットに対する個々の変動性の影響を推定することを目指しています。特に、特定のシナリオでは、EEGパワースペクトルの非周期的(1 / fバックグラウンド)コンポーネントが、大規模なEEGデータセットから被験者を正確に特定する方法を調査しました。この研究の結果は、EEG信号の非周期的成分は強い被験者固有の特性によって特徴付けられ、この機能は異なる実験条件(目を開いた状態と目を閉じた状態)で一貫しており、標準的に定義された周波数帯域を上回ることを示しています。これらの発見は、EEG信号の非周期的成分から抽出された単純な特徴(勾配とオフセット)が個々の特性に敏感であり、単一の被験者レベルでの特徴づけと推論を助けるかもしれないことを示唆しています。

Deep Learning-based Image Compression with Trellis Coded Quantization

トレリス符号化量子化による深層学習ベースの画像圧縮

著者:Binglin Li, Mohammad Akbari, Jie Liang, Yang Wang
URL:http://arxiv.org/abs/2001.09417v1

この論文の概要(機械翻訳による和訳)
最近、多くの研究が、ディープラーニングアーキテクチャに基づく画像圧縮モデルの開発を試みています。そこでは、均一スカラー量子化器(SQ)がエンコーダとデコーダ間の機能マップに一般的に適用されます。この論文では、トレリス符号化量子化器(TCQ)を深層学習ベースの画像圧縮フレームワークに組み込むことを提案します。ソフトからハードへの戦略が適用されて、トレーニング中に逆伝播が可能になります。 3つのサブネットワーク(エンコーダー、デコーダー、エントロピー推定)で構成される単純な画像圧縮モデルを開発し、すべてのコンポーネントをエンドツーエンドで最適化します。 2つの高解像度画像データセットで実験を行ったところ、どちらもモデルが低ビットレートで優れたパフォーマンスを達成できることがわかりました。また、提案されたベースラインモデルに基づいてTCQとSQの比較を示し、TCQの利点を示します。

Curriculum Audiovisual Learning

カリキュラム視聴覚学習

著者:Di Hu, Zheng Wang, Haoyi Xiong, Dong Wang, Feiping Nie, Dejing Dou
URL:http://arxiv.org/abs/2001.09414v1

この論文の概要(機械翻訳による和訳)
特に注釈付きのトレーニングデータが不足している場合は、複雑なオーディオビジュアルシーンでサウンドとそのプロデューサーを関連付けることは困難な作業です。この論文では、ソフトクラスタリングモジュールを視聴覚コンテンツ検出器として導入し、視聴覚同時性の広範な特性を、検出されたコンテンツ間の相関を推測するための潜在的な監督と見なす柔軟な視聴覚モデルを提示します。視聴覚学習の難しさを緩和するために、単純なシーンから複雑なシーンまでモデルをトレーニングする新しいカリキュラム学習戦略を提案します。このような順序付けられた学習手順は、モデルに簡単なトレーニングと高速収束のメリットを与えることを示します。一方、当社の視聴覚モデルは、効果的なユニモーダル表現とクロスモーダルアライメントパフォーマンスも提供できます。さらに、十分に訓練されたモデルを実用的な視聴覚音定位および分離タスクに展開します。私たちのローカリゼーションモデルは、外部の視覚的な監督を参照せずに音分離の匹敵するパフォーマンスを示すに基づいて、大幅にsexistingメソッドを上回ることを示します。ビデオデモはhttps://youtu.be/kuClfGG0cFUにあります。

Scene Text Recognition With Finer Grid Rectification

より細かいグリッド整流によるシーンテキスト認識

著者:Gang Wang
URL:http://arxiv.org/abs/2001.09389v1

この論文の概要(機械翻訳による和訳)
シーンテキスト認識は、不規則なスタイルとさまざまな歪みのために困難な問題です。この論文は、より精巧な整流モジュールと双方向の注意認識ネットワーク(Firbarn)で構成されるエンドツーエンドの訓練可能なモデルを提案しました。修正モジュールは、より細かいグリッドを採用して、歪んだ入力画像を修正し、双方向デコーダーには、2つの分離されたレイヤーではなく、1つのデコードレイヤーのみが含まれます。 Firbarnは、シーンのテキストイメージと対応する単語ラベルのみを必要とする、監視の弱い方法でトレーニングできます。柔軟な整流と斬新な双方向デコーダにより、標準ベンチマークshowFirbarnでの広範な評価の結果は、特に不規則なデータセットで以前の作品よりも優れています。

分野/キーワード:

論文ナビに登録すると・・・
①最新情報をメールでお届け!
  • 話題のニュース一覧
  • 注目のプレスリリース
  • 論文解説・最近のイベント
②論文解説記事の投稿
  • ご自身の論文の解説
  • 読んだ論文のメモ
  • 研究に関する情報のシェア
③セミナー情報の宣伝
  • ご自身が主催するイベント情報を投稿してシェア
  • ユーザーで作るセミナー日程まとめに参加
【併せて読みたい関連記事】
X
- Enter Your Location -
- or -
パスワード再発行
お気に入り
  • Total (0)
0