画像認識分野論文まとめ【2020年01月29日arXiv公開】

アブストまとめ
Like0
お気に入り

2020年01月29日に発表された画像認識分野の論文40本のAbstractをまとめて和訳しました。

この記事の見出し

Identifying Mislabeled Data using the Area Under the Margin Ranking

マージンランキング下のエリアを使用したラベルの間違ったデータの特定

著者:Geoff Pleiss, Tianyi Zhang, Ethan R. Elenberg, Kilian Q. Weinberger
URL:http://arxiv.org/abs/2001.10528v1

この論文の概要(機械翻訳による和訳)
一般的なトレーニングセットのすべてのデータが一般化に役立つわけではありません。一部のサンプルは、過度に曖昧であるか、完全にラベルが間違っている可能性があります。このホワイトペーパーでは、このようなサンプルを特定し、ニューラルネットワークをトレーニングする際の影響を軽減する新しい方法を紹介します。アルゴリズムの中心となるのは、きれいなサンプルと誤ってラベル付けされたサンプルのトレーニングダイナミクスの違いを活用する、Area Under the Margin(AUM)統計です。単純な手順-意図的に誤ってラベル付けされたインジケーターサンプルが追加された余分なクラスを追加する-は、このメトリックに基づいて誤ってラベル付けされたデータを分離するしきい値を学習します。このアプローチは、合成および実世界のデータセットに関する事前作業を一貫して改善します。 WebVision50classificationタスクで、このメソッドはトレーニングデータの17%を削除し、テストエラーが2.6%(絶対)改善されます。 CIFAR100では、データの13%を削除すると、エラーが1.2%低下します。

Segmentation and Recovery of Superquadric Models using Convolutional Neural Networks

畳み込みニューラルネットワークを使用した超二次モデルのセグメンテーションと復元

著者:Jaka Šircelj, Tim Oblak, Klemen Grm, Uroš Petković, Aleš Jaklič, Peter Peer, Vitomir Štruc, Franc Solina
URL:http://arxiv.org/abs/2001.10504v1

この論文の概要(機械翻訳による和訳)
この論文では、パラメータ化された体積形状プリミティブで3D視覚データを表現する問題に取り組んでいます。具体的には、複雑な深度シーンを超二次モデルで表現できる単純な幾何学的構造にセグメント化できる畳み込みニューラルネットワーク(CNN)を中心に構築された(2段階)アプローチを提示します。最初の段階では、アプローチではマスクRCNNモデルを使用して、深層シーンの超二次構造を特定し、特別に設計されたCNNリグレッサーを使用して、セグメント化された構造に超二次モデルを適合させます。このアプローチを使用すると、少数の解釈可能なパラメーターで複雑な構造を記述することができます。合成および実世界の深度データで提案されたアプローチを評価し、当社のソリューションが最新技術と比較して競争力のある結果をもたらすだけでなく、シーンをいくつかの超二次モデルにわずかに分解できることを示します競合するアプローチに必要な時間の割合。このペーパーで使用されるすべてのデータとモデルは、https://lmi.fe.uni-lj.si/en/research/resources/sq-segから入手できます。

Accurately identifying vertebral levels in large datasets

大規模なデータセットの椎骨レベルを正確に識別する

著者:Daniel C. Elton, Veit Sandfort, Perry J. Pickhardt, Ronald M. Summers
URL:http://arxiv.org/abs/2001.10503v1

この論文の概要(機械翻訳による和訳)
脊椎の椎骨レベルは、プラーク、筋肉、脂肪、および骨塩密度の測定を行う際に有用な座標系を提供します。椎骨レベルを高精度で正しく分類することは、各脊椎の類似した外観、脊椎の湾曲、および脊椎骨折、インプラント、仙骨の腰椎化、およびL5の仙骨化などの異常の可能性のために困難です。この作業の目標は、大規模な異種データセットのL1レベルを正確かつ堅牢に特定できるシステムを開発することです。最初に検討するアプローチは、3D U-Netを使用して、スキャンボリューム全体を使用してL1椎骨を直接セグメント化し、コンテキストを提供することです。また、L1とT12の2つのクラスセグメンテーションと、L1、T12、およびT12に取り付けられたリブの3つのクラスセグメンテーションのモデルをテストしました。社内のセグメンテーションツールからの疑似セグメンテーションを使用して、トレーニングサンプルの数を249スキャンに増やすことで、頭尾方向の平均誤差が4.5 mmで、L1椎骨の識別に関して98%の精度を達成できました。次に、3D U-Netを使用して脊椎全体の反復インスタンスセグメンテーションと分類を実行するアルゴリズムを開発しました。インスタンスベースのアプローチは、脊椎全体のより良いセグメンテーションを生成できるが、L1の分類精度は低いことがわかりました。

Lossless Compression of Mosaic Images with Convolutional Neural Network Prediction

畳み込みニューラルネットワーク予測によるモザイク画像の無損失圧縮

著者:Seyed Mehdi Ayyoubzadeh, Xiaolin Wu
URL:http://arxiv.org/abs/2001.10484v1

この論文の概要(機械翻訳による和訳)
デジタルカメラの生のカラーモザイク画像用のCNNベースの予測可逆圧縮方式を提示します。この特殊なアプリケーションの問題は以前は研究されていませんでしたが、画像復元タスク(たとえば、超解像、低輝度強調、ボケ除去)のための最新のCNNメソッドは、可能な限り最高の結果を得るために元の生のモザイク画像で動作する必要があるため、ますます重要になっています。この論文の重要な革新は、空間スペクトルモザイクパターンの高次の非線形CNN予測子です。深層学習予測は、空間スペクトルモザイク画像の非常に複雑なサンプル依存性をより正確にモデル化できるため、既存の画像予測子よりも統計的冗長性をより完全に削除できます。実験により、提案されたCNN予測子は、カメラの未加工画像で前例のないロスレス圧縮性能を達成することが示されています。

MGCN: Descriptor Learning using Multiscale GCNs

MGCN:マルチスケールGCNを使用した記述子学習

著者:Yiqun Wang, Jing Ren, Dong-Ming Yan, Jianwei Guo, Xiaopeng Zhang, Peter Wonka
URL:http://arxiv.org/abs/2001.10472v1

この論文の概要(機械翻訳による和訳)
3次元表面上の特徴点の記述子を計算するための新しいフレームワークを提案します。最初に、グラフウェーブレットを使用して表面上のディリクレエネルギーを分解する新しい非学習機能を紹介します。この新しい機能をウェーブレットエネルギー分解シグネチャ(WEDS)と呼びます。次に、学習されていない特徴をより識別的な記述子に変換する新しいマルチスケールグラフ畳み込みネットワーク(MGCN)を提案します。私たちの結果は、新しい記述子WEDSが現在の最先端の非学習記述子よりも差別的であり、WEDSとMGCNの組み合わせが最先端の学習記述子よりも優れていることを示しています。記述子の重要な設計基準は、頂点の数が異なる三角形分割を含むさまざまな表面離散化に対する堅牢性です。私たちの結果は、以前のグラフ畳み込みネットワークが特定の解像度または特定の三角測量に大幅にオーバーフィットしていることを示していますが、MGCNはさまざまな表面離散化によく一般化しています。熱カーネル署名、波カーネル署名、またはローカルポイント署名として。

A Class of Linear Programs Solvable by Coordinate-wise Minimization

座標ごとの最小化によって解ける線形プログラムのクラス

著者:Tomáš Dlask, Tomáš Werner
URL:http://arxiv.org/abs/2001.10467v1

この論文の概要(機械翻訳による和訳)
座標ごとの最小化は、大規模な最適化のための単純で一般的な方法です。残念ながら、一般的な(微分不可能な)凸問題では、グローバルな最小値が見つからない場合があります。座標ごとの最小化が正確に解く線形プログラムのクラスを提示します。いくつかのよく知られた組み合わせ最適化問題のデュアルLP緩和がこのクラスにあり、このメソッドが妥当な実行時間で十分な精度でグローバルな最小値を見つけることを示します。さらに、このクラスにはもはや存在しないこれらの問題を拡張するために、この方法は適度に良好な準最適値を生成します。提示されたLP緩和はより効率的な方法(max-flowなど)で解決できますが、私たちの結果は理論的には自明ではなく、将来的に新しい大規模最適化アルゴリズムにつながる可能性があります。

NAS-Bench-1Shot1: Benchmarking and Dissecting One-shot Neural Architecture Search

NAS-Bench-1Shot1:ワンショットニューラルアーキテクチャ検索のベンチマークと分析

著者:Arber Zela, Julien Siems, Frank Hutter
URL:http://arxiv.org/abs/2001.10422v1

この論文の概要(機械翻訳による和訳)
ワンショットニューラルアーキテクチャ検索(NAS)は、NASメソッドを実際に計算可能にするために重要な役割を果たしてきました。それにもかかわらず、プロセスのダイナミクスを制御する多くの要因のため、これらの重み共有アルゴリズムが正確にどのように機能するかについてはまだ理解が不足しています。これらのコンポーネントの科学的研究を可能にするために、最近導入された多くの亜種にインスタンス化できるワンショットNASの一般的なフレームワークを導入し、最近の大規模なテーブルベンチマークNAS-Bench-101を安価に利用する一般的なベンチマークフレームワークを導入しますワンショットNASmethodsのいつでも評価。フレームワークを紹介するために、いくつかの最先端のNASメソッドを比較し、それらがハイパーパラメーターに敏感であることと、ハイパーパラメーターを調整することでどのように改善できるかを調べ、NAS-Benchのブラックボックスオプティマイザーのパフォーマンスと比較します-101。

OPFython: A Python-Inspired Optimum-Path Forest Classifier

OPFython:Pythonにヒントを得た最適パスフォレスト分類子

著者:Gustavo Henrique de Rosa, João Paulo Papa, Alexandre Xavier Falcão
URL:http://arxiv.org/abs/2001.10420v1

この論文の概要(機械翻訳による和訳)
機械学習技術は、分類、オブジェクト認識、個人識別、画像セグメンテーションなどの幅広いタスクに適用されており、過去数年にわたって最重要でした。それにもかかわらず、LogisticRegression、デシジョンツリー、ベイズ分類器などの従来の分類アルゴリズム、複雑さと多様性に欠ける可能性があり、実際のデータを扱う場合には適切ではありません。 Optimum-Path Forestとして知られる最近のグラフにヒントを得た分類器は、Support Vector Machinesに匹敵する最先端の技術であることが証明されており、一部のタスクでもそれを凌evenしています。この記事では、すべての機能とクラスが元のC言語実装に基づいているOPFythonと呼ばれるPythonベースの最適パスフォレストフレームワークを提案します。さらに、OPFythonはPythonベースのライブラリであるため、より使いやすい環境を提供します。 C言語よりも高速なプロトタイピングワークスペース。

CSNNs: Unsupervised, Backpropagation-free Convolutional Neural Networks for Representation Learning

CSNN:表現学習のための教師なし、逆伝播のない畳み込みニューラルネットワーク

著者:Bonifaz Stuhr, Jürgen Brauer
URL:http://arxiv.org/abs/2001.10388v1

この論文の概要(機械翻訳による和訳)
この作業では、畳み込みニューラルネットワーク(CNN)、自己組織化マップ(SOM)およびヘビアン学習によるクラスタリングを組み合わせて、教師なしの逆伝播のない方法で表現を学習する畳み込み自己組織化ニューラルネットワーク(CSNN)のビルディングブロックを提案します。 Ourapproachは、CNNからの従来の畳み込み層の学習をSOMの競合学習手順に置き換え、それらの層間のローカルマスクを個別のヘビアンのような学習ルールで同時に学習して、フィルターがクラスタリングを通じて学習された場合の変動要因の解きほぐしの問題を克服します。ビルディングブロックを使用して2つの単純なモデルを設計し、バックプロパゲーションを使用する多くの方法に匹敵するパフォーマンスを達成することにより、学習した表現を調査します。Cifar10で同等のパフォーマンスに到達し、Cifar100、Tiny ImageNetおよび

Multi-Source Deep Domain Adaptation for Quality Control in Retail Food Packaging

小売食品包装の品質管理のためのマルチソースディープドメイン適応

著者:Mamatha Thota, Stefanos Kollias, Mark Swainson, Georgios Leontidis
URL:http://arxiv.org/abs/2001.10335v1

この論文の概要(機械翻訳による和訳)
小売食品包装には、製品名、成分リスト、栄養情報、アレルゲン、調製ガイドライン、パック重量、保管および保存期限の情報(使用期限/賞味期限など)を含む、消費者の健康に役立つ情報が含まれています。このような情報の存在と正確性は、製品の詳細な理解を確保し、健康上のリスクの可能性を減らすために重要です。その結果、誤った判読不能なラベリングは、消費者およびサプライチェーンの他の多くの利害関係者にとって非常に有害である可能性があります。この論文では、マルチソースの深層学習ベースのドメイン適応システムを提案し、テストして、製品が食品生産ラインを通過する際の検証プロセスの一環として撮影された食品包装写真から使用期限情報の存在と読みやすさを特定および検証します。これは、すべてのドメインのドメイン不変表現を抽出するためにマルチソースデータセットを使用し、クラスの境界とともに、共通の特徴空間でソースドメインとターゲットドメインのすべてのペアの分布を調整することにより、技術の一般化を改善することで達成されました。提案されたシステムは、検証プロセスを自動化し、そうでなければ公衆衛生を脅かし、食品包装の情報と正確性に関する法的要件に違反する可能性のあるラベリングエラーを削減するために、実施された実験で非常に良好に機能しました。この方法は、分類精度を大幅に改善するため、食品製造管理システムへの適用と有益な影響の大きな可能性を秘めています。

f-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation

f-BRS:インタラクティブなセグメンテーションのための逆伝播細分化の再考

著者:Konstantin Sofiiuk, Ilia Petrov, Olga Barinova, Anton Konushin
URL:http://arxiv.org/abs/2001.10331v1

この論文の概要(機械翻訳による和訳)
ディープニューラルネットワークは、インタラクティブなセグメンテーションへの主流のアプローチになりました。実験で示したように、一部の画像については訓練されたネットワークは数回クリックするだけで正確なセグメンテーション結果を提供しますが、一部の未知のオブジェクトについては大量のユーザー入力でも満足のいく結果を達成できません。最近提案されたバックプロパゲーティングリファインメント(BRS)スキームでは、インタラクティブなセグメンテーションの最適化問題が導入され、ハードケースのパフォーマンスが大幅に改善されます。同時に、BRSは、他の方法と比較してクリックあたりの計算予算を大幅に増やすことにつながる、深いネットワークを前後に数回実行する必要があります。ネットワーク入力の代わりに補助変数に関する最適化問題を解決し、ネットワークのごく一部に対してフォワードパスとバックワードパスを実行する必要があるf-BRS(機能バックプロパゲーション改良スキーム)を提案します。 GrabCut、Berkeley、DAVIS、およびSBDdatasetsの実験では、元のBRSと比較してクリックあたりの時間を桁違いに短縮して、新しい最先端を設定しました。コードとトレーニング済みモデルは、https://github.com/saic-vul/fbrs_interactive_segmentationで入手できます。

Spatial-Adaptive Network for Single Image Denoising

単一画像のノイズ除去のための空間適応ネットワーク

著者:Meng Chang, Qi Li, Huajun Feng, Zhihai Xu
URL:http://arxiv.org/abs/2001.10291v1

この論文の概要(機械翻訳による和訳)
これまでの研究では、畳み込みニューラルネットワークが画像ノイズ除去タスクで良好なパフォーマンスを達成できることが示されています。ただし、局所的な剛体たたみ込み演算によって制限されているため、これらの方法は過度の平滑化アーティファクトにつながります。より深いネットワーク構造は、これらの問題を軽減する可能性がありますが、より多くの計算オーバーヘッドが必要です。本論文では、効率的な単一画像のブラインドノイズ除去のための新しい空間適応ノイズ除去ネットワーク(SADNet)を提案します。空間テクスチャとエッジの変化に適応するために、残差空間適応ブロックを設計します。変形可能な畳み込みが導入され、空間的に相関する特徴をサンプリングして重み付けします。コンテキストブロックを備えたエンコーダ/デコーダ構造が導入され、マルチスケール情報をキャプチャします。粗いものから細かいものへのノイズ除去により、高品質のノイズのない画像を取得できます。この手法を、合成画像データセットと実際のノイズの多い画像データセットの両方に適用します。実験結果は、本方法が定量的かつ視覚的に最先端のノイズ除去方法を上回ることができることを示しています。

Controlling generative models with continuous factors of variations

変動の連続因子による生成モデルの制御

著者:Antoine Plumerault, Hervé Le Borgne, Céline Hudelot
URL:http://arxiv.org/abs/2001.10238v1

この論文の概要(機械翻訳による和訳)
最近の深い生成モデルは、写真のようにリアルな画像だけでなく、コンピュータービジョンや自然言語処理のさまざまなタスクに対処するのに役立つ視覚的またはテキストコンテンツの埋め込みを提供できます。それにもかかわらず、それらの有用性は、生成プロセッサに対する制御の欠如、学習された表現の不十分な理解によってしばしば制限されます。これらの主要な問題を克服するために、ごく最近の研究は、生成モデルの潜在空間の意味論を研究することへの関心を示しています。本論文では、生成モデルの潜在空間の解釈可能性を向上させることを提案します。これにより、生成モデルの位置やスケールなどの特定のプロパティを正確に制御するために移動できる任意の生成モデルの潜在空間で意味のある方向を見つける新しい方法を導入することにより、画像内のオブジェクトの。私たちの方法は、人間の注釈を必要とせず、生成された画像の単純な変換、例えば、翻訳、ズーム、色の変化などをエンコードする方向の検索に特に適しています。 GANと変分オートエンコーダーの両方について、定性的および定量的に本方法の有効性を実証します。

BioTouchPass2: Touchscreen Password Biometrics Using Time-Aligned Recurrent Neural Networks

BioTouchPass2:タイムアラインリカレントニューラルネットワークを使用したタッチスクリーンパスワードバイオメトリクス

著者:Ruben Tolosana, Ruben Vera-Rodriguez, Julian Fierrez, Javier Ortega-Garcia
URL:http://arxiv.org/abs/2001.10223v1

この論文の概要(機械翻訳による和訳)
パスワードはすべての種類のアプリケーションで毎日使用されていますが、多くの場合、それだけでは十分に安全ではありません。これにより、通常のように入力する代わりにパスワードの各文字を描画するようにユーザーに要求する2要素認証により、パスワードシナリオが強化されます。この研究の主な貢献は次のとおりです。i)位置、姿勢、およびデバイスに関して制限のない監視なしのモバイルシナリオで取得した、新規のMobileTouchDBパブリックデータベースを提示します。このデータベースには、217人のユーザーが実行した64Kのオンラインキャラクターサンプル、94の異なるスマートフォンモデル、および最大6つの取得セッションが含まれています。 ii)Dynamic Time Warping(DTW)などの従来の認証システムとリカレントニューラルネットワーク(RNN)に基づく新しいアプローチの両方を考慮して、提案されたアプローチの完全な分析を実行します。さらに、Time-Aligned Recurrent Neural Networks(TA-RNN)という名前の新しいアプローチを提示します。このアプローチは、DTWとRNNの可能性を組み合わせて、攻撃に対してより堅牢なシステムをトレーニングします。提案されたアプローチの完全な分析は、MobileTouchDBとe-BioDigitDBデータベースの両方を使用して実行されます。提案されたTA-RNNシステムは、最新技術よりも優れており、4桁のパスワードと文字ごとに1つのトレーニングサンプルを使用して、最終的な2.38%の等価エラー率を達成しています。これらの結果は、攻撃者が同じ詐欺師のシナリオで100%の成功率を持つ従来の型ベースのパスワードシステムと比較して、提案されたアプローチの展開を促進します。

Learning to Catch Piglets in Flight

飛行中の子豚を捕まえることを学ぶ

著者:Ozan Çatal, Lawrence De Mol, Tim Verbelen, Bart Dhoedt
URL:http://arxiv.org/abs/2001.10220v1

この論文の概要(機械翻訳による和訳)
飛行中のオブジェクトをキャッチすることは、ロボット工学における大きな課題です。このペーパーでは、RGB-Dカメラとレーダーという2つのセンサー方式からのデータを融合する閉ループ制御システムを紹介します。メソッドを開発およびテストするために、簡単に識別できるオブジェクトであるぬいぐるみのピグレットから始めます。オブジェクトを検出および追跡し、インターセプトポイントを予測する2つのアプローチを実装および比較します。ベースラインモデルは、環境内で投objectされたオブジェクトの位置を特定するためにカラーフィルタリングを使用しますが、インターセプトポイントは、物理的な弾道軌道方程式の最小二乗回帰を使用して予測されます。深層学習ベースの方法では、オブジェクト検出と傍受点予測の両方に人工ニューラルネットワークを使用します。ディープラーニングのアプローチにより、80%のケースでピグレットをうまく捕まえることができることを示しています。

Robust Method for Semantic Segmentation of Whole-Slide Blood Cell Microscopic Image

全スライド血球顕微鏡画像の意味的セグメンテーションのためのロバストな方法

著者:Muhammad Shahzad, Arif Iqbal Umar, Muazzam A. Khan, Syed Hamad Shirazi, Zakir Khan, Waqas Yousaf
URL:http://arxiv.org/abs/2001.10188v1

この論文の概要(機械翻訳による和訳)
SEM(走査型電子顕微鏡)血球画像のセグメンテーションに関する以前の研究では、スライド全体の血球セグメンテーションのセマンティックセグメンテーションアプローチは無視されます。提案された作業では、セマンティックセグメンテーションアプローチを使用して、スライド全体の血球セグメンテーションの問題に対処します。ピクセルレベルの特徴抽出モデルとして、VGG-16とともに、新しい畳み込みエンコーダ-デコーダフレームワークを設計します。 -e提案されたフレームワークは、3つの主要なステップで構成されています。最初に、すべての元の画像と手動で生成された各血球タイプのグラウンドトゥルースマスクが前処理段階を通過します。前処理段階では、ピクセルレベルのラベル付け、マスクされた画像とピクセルフュージングのRGBからグレースケールへの変換、および統一マスク生成が実行されます。その後、VGG16がシステムに読み込まれ、事前学習済みのピクセルレベルの特徴抽出モデルとして機能します。 3番目のステップでは、提案されたモデルでトレーニングプロセスが開始されます。 3つの評価指標でネットワークパフォーマンスを評価しました。私たちは、クラスワイズだけでなく、グローバルおよび平均精度に関しても優れた結果を得ました。我々のシステムは、RBC、WBC、および血小板についてそれぞれ97.45%、93.34%、および85.11%のクラス単位の精度を達成しましたが、グローバルおよび平均の精度はそれぞれ97.18%および91.96%のままです。

An Internal Clock Based Space-time Neural Network for Motion Speed Recognition

運動速度認識のための内部クロックベースの時空ニューラルネットワーク

著者:Junwen Luo, Jiaoyan Chen
URL:http://arxiv.org/abs/2001.10159v1

この論文の概要(機械翻訳による和訳)
この研究では、運動速度認識のための新しい内部クロックベースの時空間ニューラルネットワークを提示します。開発したシステムには、スパイクトレインエンコーダ、内部クロッキング動作を備えたスパイキングニューラルネットワーク(SNN)、パターン変換ブロック、およびNetwork Dynamic Dependent Plasticity(NDDP)学習ブロックがあります。核となる原則は、開発されたSNNがネットワークパターン周波数(内部クロック周波数)を自動的に調整して、速度ドメインで人間の動きを認識することです。トレーニングのベンチマークとして漫画と実世界のビデオの両方を使用しましたが、結果は、システムがかなりの速度差(例:実行、歩行、ジャンプ、不思議(思考)、停止)の動きだけでなく、そして速い散歩。推論の精度は、最大83.3%(漫画ビデオ)および75%(現実世界のビデオ)です。一方、システムは、学習段階で最大42のトレーニングトライアルで6つのビデオデータセットのみを必要とします。ハードウェアパフォーマンスの見積もりでは、トレーニング時間は0.84〜4.35秒、消費電力は33.26〜201mW(ARM Cortex M4プロセッサに基づく)であることが示されています。したがって、当社のシステムは、smalldataset、迅速な学習、および低電力パフォーマンスの要件という独自の学習上の利点を活用し、エッジまたはスケーラブルなAIベースのアプリケーションに大きな可能性を示しています。

An Unsupervised Learning Model for Medical Image Segmentation

医療画像セグメンテーションのための教師なし学習モデル

著者:Junyu Chen, Eric C. Frey
URL:http://arxiv.org/abs/2001.10155v1

この論文の概要(機械翻訳による和訳)
学習ベースのセグメンテーション手法の大部分では、大量の高品質のトレーニングデータが必要です。この論文では、半教師付きまたは教師なしで訓練できる新規学習ベースのセグメンテーションモデルを提示します。具体的には、教師なし設定では、畳み込みニューラルネットワーク(ConvNet)を介してエッジのないアクティブな輪郭(ACWE)フレームワークをパラメーター化し、自己教師付きメソッドを使用してConvNetのパラメーターを最適化します。別の設定(半監視)では、トレーニング中に補助セグメンテーショングラウンドトゥルースが使用されます。この方法は、単一光子放射型コンピューター断層撮影(SPECT)画像のコンテキストで、高速で高品質の骨セグメンテーションを提供することを示しています。

Canadian Adverse Driving Conditions Dataset

カナダの不利な運転条件のデータセット

著者:Matthew Pitropov, Danson Garcia, Jason Rebello, Michael Smart, Carlos Wang, Krzysztof Czarnecki, Steven Waslander
URL:http://arxiv.org/abs/2001.10117v1

この論文の概要(機械翻訳による和訳)
変更されたリンカーンMKZに基づいて、Autonomoose自動車両プラットフォームを使用して、カナダの悪条件(CADC)データセットが収集されました。カナダのウォータールー地域内で冬季に収集されたデータセットは、特に不利な運転条件に焦点を当てた最初の自動車両データセットです。 8台のカメラ(Ximea MQ013CG-E2)、Lidar(VLP-32C)、およびGNSS + INSシステム(Novatel OEM638)からの注釈付きデータのさまざまな冬の天候条件を通じて収集された7,000フレームが含まれています。センサーは、データセットに含まれる固有および外因性のキャリブレーションと時間同期およびキャリブレーションされます。 Scale AIは、3Dオブジェクトの検出と追跡のグラウンドトゥルースを表すLidarフレームアノテーションを提供しています。

Print Defect Mapping with Semantic Segmentation

セマンティックセグメンテーションを使用した欠陥マッピングの印刷

著者:Augusto C. Valente, Cristina Wada, Deangela Neves, Deangeli Neves, Fábio V. M. Perez, Guilherme A. S. Megeto, Marcos H. Cascone, Otavio Gomes, Qian Lin
URL:http://arxiv.org/abs/2001.10111v1

この論文の概要(機械翻訳による和訳)
効率的な自動印刷欠陥マッピングは、印刷業界にとって価値があります。これは、こうした欠陥が顧客が認識するプリンタの品質に直接影響を与え、手動でマッピングすることは費用効率が悪いためです。従来の方法は、複雑で手作りされたフィーチャエンジニアリングテクニックで構成され、通常は1種類の欠陥のみを対象としています。この論文では、セマンティックセグメンテーションに基づくアプローチを採用し、ピクセルレベルで印刷欠陥をマッピングする最初のエンドツーエンドフレームワークを提案します。私たちのフレームワークは、畳み込みニューラルネットワーク、特にDeepLab-v3 +を使用し、印刷画像の欠陥の特定において有望な結果を達成します。 2種類の印刷欠陥と、画像処理とコンピューターグラフィック技術による印刷スキャン効果をシミュレートすることにより、合成トレーニングデータを使用します。従来の方法と比較して、当社のフレームワークは汎用性が高く、2つの推論戦略を可能にします。1つはリアルタイムに近く、より粗い結果を提供し、もう1つはより詳細な検出を伴うオフライン処理に焦点を当てます。モデルは、再印刷された画像のデータセットで評価されます。

Deep NRSfM++: Towards 3D Reconstruction in the Wild

ディープNRSfM ++:荒野での3D再構築に向けて

著者:Chaoyang Wang, Chen-Hsuan Lin, Simon Lucey
URL:http://arxiv.org/abs/2001.10090v1

この論文の概要(機械翻訳による和訳)
画像の大規模なアンサンブルから生じる2Dランドマークのみからの3D形状と姿勢の回復は、動きからの非剛体構造(NRSfM)問題として見ることができます。しかし、これまでのところ、NRSfMの野生の問題への適用には問題がありました。従来のNRSfMアプローチは、多数の画像に拡大縮小せず、特定のタイプの3D構造(低ランクなど)のみを処理できます。この問題の最近のブレークスルーにより、コンピュータービジョンの多くの問題に対するアプローチの重要性が劇的に拡大し、大幅に幅広い3D構造のセットの再構築が可能になりました。 (ii)弱透視カメラモデルにのみ適用されます。このホワイトペーパーでは、上記の2つの問題に対する革新的なソリューションを提供することで、NRSfMを実際に適用できるようにするアプローチであるDeep NRSfM ++を紹介します。さらに、ディープニューラルネットワークに基づいた最近の手法に対しても、多数のベンチマークにわたって最先端のパフォーマンスを実証します。

ABCTracker: an easy-to-use, cloud-based application for tracking multiple objects

ABCTracker:複数のオブジェクトを追跡するための使いやすいクラウドベースのアプリケーション

著者:Lance Rice, Samual Tate, David Farynyk, Joshua Sun, Greg Chism, Daniel Charbonneau, Thomas Fasciano, Anna Dornhaus, Min C. Shin
URL:http://arxiv.org/abs/2001.10072v1

この論文の概要(機械翻訳による和訳)
視覚的なマルチオブジェクト追跡は、特に動物のグループ内の動き、行動、または社会的相互作用を調査する研究コミュニティで、多くの形態の定量分析を加速する可能性があります。分析スループットを向上させる可能性はあるものの、既存の追跡システムでは、アクセシビリティ、適応性、精度、またはスケーラブルなアプリケーションに関連する問題が発生します。プロトタイピングとテストのいくつかの反復により、マルチオブジェクトトラッキングシステム(ABCTracker)が実現しました。つまり、システムと技術知識の両方の要件にアクセスでき、新しいビデオに簡単に適応でき、自動と半自動追跡機能。

Towards Open-Set Semantic Segmentation of Aerial Images

空中画像のオープンセットセマンティックセグメンテーションに向けて

著者:Caio C. V. da Silva, Keiller Nogueira, Hugo N. Oliveira, Jefersson A. dos Santos
URL:http://arxiv.org/abs/2001.10063v1

この論文の概要(機械翻訳による和訳)
古典的かつ最近の深部コンピュータービジョン手法は、一般的にスマートフォンやカメラから取得したグレースケールまたはRGB色空間でエンコードされた可視スペクトル画像用に最適化されています。リモートセンシング分野で利用される画像のより一般的なソースは、衛星画像と航空画像です。しかし、これらのデータのパターン認識アプローチの開発は比較的最近であり、これは主にこのタイプの画像の可用性が限られているためです。スペクトル情報を含む航空画像へのアクセスは、主にドローンの低コスト、イメージング衛星の打ち上げコストの削減、および新規のパブリックデータセットにより増加しています。通常、リモートセンシングアプリケーションは、クローズドセットシナリオの分類タスク用に厳密にモデル化されたコンピュータービジョン技術を使用しますが、実際のタスクはクローズドセットコンテキストに適合せず、以前は未知のクラスを頻繁に提示し、オープンセットシナリオとして特徴付けます。この問題に焦点を当て、これは、リモートセンシング画像に適用されるオープンセットシナリオのセマンティックセグメンテーション手法を研究および開発した最初の論文です。この論文の主な貢献は次のとおりです。1)オープンセットセマンティックセグメンテーションにおける関連作品の検討。これらの手法がオープンセットリモートセンシングタスクに適応できることの証拠を示します。 2)オープンセットセマンティックセグメンテーションのための新しいアプローチの開発と評価。私たちの方法は、同じデータセットのClosedsetメソッドと比較した場合、競争力のある結果をもたらしました。

Breast mass segmentation based on ultrasonic entropy maps and attention gated U-Net

超音波エントロピーマップとアテンションゲートU-Netに基づく乳房質量セグメンテーション

著者:Michal Byra, Piotr Jarosik, Katarzyna Dobruch-Sobczak, Ziemowit Klimonda, Hanna Piotrzkowska-Wroblewska, Jerzy Litniewski, Andrzej Nowicki
URL:http://arxiv.org/abs/2001.10061v1

この論文の概要(機械翻訳による和訳)
超音波(米国)イメージングにおける乳房質量セグメンテーションへの新しい深層学習ベースのアプローチを提案します。米国の画像を使用する一般的に適用されるセグメンテーション手法と比較して、我々のアプローチは定量的エントロピーパラメトリックマップに基づいています。乳房の腫瘤をセグメント化するために、注意ゲートU-Net畳み込みニューラルネットワークを利用しました。米国の画像とエントロピーマップは、269の乳房の塊から収集された生の米国信号に基づいて生成されました。セグメンテーションネットワークは、米国の画像とエントロピーマップを使用して個別に開発され、81個の乳房の腫瘤のテストセットで評価されました。エントロピーマップに基づいてトレーニングされたアテンションU-Netは、平均ダイススコア0.60(中央値0.71)を達成しましたが、米国の画像を使用してトレーニングされたモデルでは、平均ダイススコア0.53(中央値0.59)を取得しました。私たちの仕事は、乳房の質量セグメンテーションに定量的なUSパラメトリックマップを使用する可能性を示しています。得られた結果は、局所的な組織散乱特性に関する情報を提供する米国のパラメトリックマップが、通常の米国の画像よりも乳房質量セグメンテーション法の開発に適している可能性があることを示唆しています。

Near real-time map building with multi-class image set labelling and classification of road conditions using convolutional neural networks

畳み込みニューラルネットワークを使用したマルチクラス画像セットラベリングと道路状況の分類によるほぼリアルタイムのマップ構築

著者:Sheela Ramanna, Cenker Sengoz, Scott Kehler, Dat Pham
URL:http://arxiv.org/abs/2001.09947v1

この論文の概要(機械翻訳による和訳)
天気は、輸送と交通安全に影響を与える重要な要素です。このホワイトペーパーでは、最先端の畳み込みニューラルネットワークを活用して、北米全域にある道路カメラと高速道路カメラで撮影した画像にラベルを付けます。道路状況によって画像を分類するために、道路カメラのスナップショットが複数の深層学習フレームワークを使用した実験で使用されました。これらの実験のトレーニングデータでは、乾燥、湿潤、雪/氷、貧弱、オフラインのラベルが付いた画像を使用しました。実験では、この問題に対する適合性を評価するために、6つの畳み込みニューラルネットワーク(VGG-16、ResNet50、Xception、InceptionResNetV2、EfficientNet-B0、およびEfficientNet-B4)のさまざまな構成をテストしました。精度、精度、および再現率は、各フレームワーク構成で測定されました。さらに、トレーニングセットは、全体のサイズと個々のクラスのサイズの両方で変化しました。最終的なトレーニングセットには、前述の5つのクラスを使用してラベル付けされた47,000枚の画像が含まれていました。 EfficientNet-B4frameworkはこの問題に最も適していることがわかり、検証精度90.6%を達成しましたが、EfficientNet-B0は実行時間の半分で90.3%の精度を達成しました。転送学習を備えたVGG-16は、このプロジェクト全体で、限られたハードウェアリソースを使用したデータ取得および擬似ラベル付けに非常に役立つことが確認されました。その後、EfficientNet-B4フレームワークは、リアルタイムの実稼働環境に配置され、そこでは画像を継続的にリアルタイムで分類することができました。次に、分類された画像を使用して、北米全域のさまざまなカメラ位置でのリアルタイムの道路状況を示す地図を作成しました。これらのフレームワークの選択と分析では、リアルタイムのマップ構築機能の固有の要件を考慮します。これらのフレームワークを使用した半自動化されたデータセットのラベル付けプロセスの詳細な分析も、このホワイトペーパーで説明します。

Depthwise-STFT based separable Convolutional Neural Networks

深さ方向STFTベースの分離可能な畳み込みニューラルネットワーク

著者:Sudhakar Kumawat, Shanmuganathan Raman
URL:http://arxiv.org/abs/2001.09912v1

この論文の概要(機械翻訳による和訳)
この論文では、標準的な深さ方向に分離可能な畳み込み層の代替として機能することができる、Depthwise-STFTSeparable層と呼ばれる新しい畳み込み層を提案します。提案された層の構築は、フーリエ係数が画像内のエッジなどの重要な特徴を正確に表すことができるという事実に着想を得ています。入力マップの各位置の2Dローカル近傍(3×3など)で(チャネルごとに)計算されたフーリエ係数を使用して、特徴マップを取得します。フーリエ係数は、各位置の2D局所近傍の複数の固定低周波数ポイントで2D短期フーリエ変換(STFT)を使用して計算されます。次に、異なる周波数ポイントでのこれらの特徴マップは、トレーニング可能なポイントワイズ(1×1)コンボリューションを使用して線形結合されます。提案されたレイヤーは、時空の複雑さが軽減されたCIFAR-10およびCIFAR-100画像分類データセットで、標準の深さ方向に分離可能なレイヤーベースのモデルよりも優れていることを示します。

Rotation, Translation, and Cropping for Zero-Shot Generalization

ゼロショット一般化のための回転、変換、およびトリミング

著者:Chang Ye, Ahmed Khalifa, Philip Bontrager, Julian Togelius
URL:http://arxiv.org/abs/2001.09908v1

この論文の概要(機械翻訳による和訳)
Deep Reinforcement Learning(DRL)は、視覚入力、特にさまざまなゲームのあるドメインで印象的なパフォーマンスを示しています。ただし、エージェントは通常、固定環境でトレーニングされます。固定数のレベル。ますます多くの証拠が、これらの訓練されたモデルが、訓練された環境のわずかな変動に一般化できないことを示唆しています。この論文は、一般化の欠如が部分的に入力表現によるものであるという仮説を進め、回転、トリミング、および翻訳が一般性をどのように高めることができるかを調査します。切り取り、翻訳、回転した観測は、2次元のアーケードゲームの見えないレベルでより一般化できることを示します。エージェントの一般性は、人間が設計した一連のレベルで評価されます。

DRMIME: Differentiable Mutual Information and Matrix Exponential for Multi-Resolution Image Registration

DRMIME:多重解像度画像登録のための微分可能な相互情報とマトリックス指数

著者:Abhishek Nan, Matthew Tennant, Uriel Rubin, Nilanjan Ray
URL:http://arxiv.org/abs/2001.09865v1

この論文の概要(機械翻訳による和訳)
この作業では、新しい教師なし画像レジストレーションアルゴリズムを紹介します。微分可能なエンドツーエンドであり、マルチモーダルおよびモノモーダルのレジストレーションの両方に使用できます。これは、相互情報(MI)をメトリックとして使用して行われます。ここでの新規性は、MIを近似する従来の方法を使用するのではなく、MINEと呼ばれる神経推定器を使用し、変換行列計算のために行列指数で補足することです。これにより、最新の画像登録ツールボックスですぐに使用可能な標準アルゴリズムと比較して、結果が改善されます。

Handling noise in image deblurring via joint learning

共同学習による画像のボケ除去のノイズ処理

著者:Si Miao, Yongxin Zhu
URL:http://arxiv.org/abs/2001.09730v1

この論文の概要(機械翻訳による和訳)
現在、多くのブラインドのブレ除去方法は、ぼやけた画像にノイズがなく、ノイズのあるぼやけた画像に対して不十分な動作をすると仮定しています。残念ながら、実際のシーンではノイズが非常に一般的です。簡単な解決策は、ブレを除去する前にイメージのノイズを除去することです。ただし、最先端のノイズ除去機でさえ、ノイズを完全に除去することを保証できません。ノイズ除去された画像のわずかな残留ノイズは、ブレ除去段階で大きなアーチファクトを引き起こす可能性があります。この問題に取り組むために、denoisersubnetworkとdeblurringサブネットワークで構成されるカスケードフレームワークを提案します。以前の方法とは対照的に、2つのサブネットワークを共同でトレーニングします。共同学習は、ブレ除去でノイズを除去した後の残留ノイズの影響を低減するため、大きなノイズに対するブレ除去の堅牢性が向上します。さらに、我々の方法は、カーネル推定をぼかすのにも役立ちます。 CelebAデータセットとGOPROデータセットでの実験は、私たちの方法がいくつかの最先端の方法に対して好意的に機能することを示しています。

Unconstrained Biometric Recognition: Summary of Recent SOCIA Lab. Research

制約のない生体認証:最近のSOCIAラボの概要。研究

著者:Varsha Balakrishnan
URL:http://arxiv.org/abs/2001.09703v1

この論文の概要(機械翻訳による和訳)
視覚監視条件、つまり、制約のないデータ取得条件および秘密のプロトコルで動作することができる生体認証ソリューションの開発は、研究コミュニティからのますます大きな努力を動機付けてきました。この問題を懸念しているさまざまな研究所、学校、および研究機関の中で、ポルトガルのベイラ大学のSOCIA:Soft Computing and Image AnalysisLab。は、このような非常に野心的なオートマトンを取得するための破壊的なソリューションを追求する上で最も積極的です。このレポートは、SOCIAラボの要素によって公開された研究成果をまとめたものです。過去10年間で、制約のない状態での生体認証の範囲で。このアイデアは、この研究トピックに参加したい人の基礎として使用できるということです。

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

細粒度のアクション認識のためのマルチモーダルドメイン適応

著者:Jonathan Munro, Dima Damen
URL:http://arxiv.org/abs/2001.09691v1

この論文の概要(機械翻訳による和訳)
細分化されたアクション認識データセットは、限られた数の環境から複数のビデオシーケンスがキャプチャされる環境バイアスを示します。教師なしDomainAdaptation(UDA)アプローチは、ソースドメインとターゲットドメイン間の敵対的トレーニングを頻繁に利用しています。ただし、これらのアプローチは、各ドメイン内のビデオのマルチモーダルな性質を調査していません。この作業では、敵対的アラインメントに加えて、UDAの自己監視型アラインメント手法としてモダリティの対応を活用します。大規模なデータセットであるEPIC-Kitchensの3つのキッチンで、アクション認識に一般的に使用される2つのモダリティ、RGBおよびオプティカルフローを使用して、アプローチをテストします。マルチモーダル自己監視だけで、ソースのみのトレーニングよりもパフォーマンスが平均で2.4%向上することを示しています。次に、敵対者のトレーニングとマルチモーダルの自己監視を組み合わせて、アプローチが他のUDAメソッドよりも3%優れていることを示します。

A Robust Real-Time Computing-based Environment Sensing System for Intelligent Vehicle

インテリジェント車両用の堅牢なリアルタイムコンピューティングベースの環境センシングシステム

著者:Qiwei Xie, Qian Long, Liming Zhang, Zhao Sun
URL:http://arxiv.org/abs/2001.09678v1

この論文の概要(機械翻訳による和訳)
インテリジェント車両の場合、3D環境を検知することが最初の重要なステップです。このホワイトペーパーでは、低電力のモバイルプラットフォームに基づいたリアルタイムの高度なドライバーアシスタンスシステムを構築します。システムは、リアルタイムのマルチスキーム統合イノベーションシステムであり、ステレオマッチングアルゴリズムと機械学習ベースの障害物検出アプローチを組み合わせ、GPUおよびCPUを備えたモバイルプラットフォームの分散コンピューティングテクノロジーを活用します。まず第一に、堅牢で正確な視差マップを生成できるマルチスケール高速MPV(Multi-Path-Viterbi)ステレオマッチングアルゴリズムを提案します。次に、単眼と双眼の融合技術に基づいた機械学習が障害物の検出に適用されます。また、Zhangのキャリブレーション手法に基づいた自動高速キャリブレーションメカニズムも進めています。最後に、分散コンピューティングと合理的なデータフロープログラミングを適用して、システムの運用効率を確保します。実験結果は、システムがインテリジェントな車両の堅牢で正確なリアルタイム環境認識を実現できることを示しています。

Explaining with Counter Visual Attributes and Examples

カウンターの視覚的な属性と例による説明

著者:Sadaf Gulshad, Arnold Smeulders
URL:http://arxiv.org/abs/2001.09671v1

この論文の概要(機械翻訳による和訳)
本論文では、マルチモーダル情報を活用してニューラルネットワークの決定を説明することを目指しています。それは、摂動されたサンプルが導入されたときに表示される直感に反する属性およびカウンターの視覚的な例です。視覚的な説明の一部。人間が視覚的な決定を説明するとき、属性と例を提供することでそうする傾向があります。したがって、このペーパーの人間の説明の方法に触発されて、属性ベースおよび例ベースの説明を提供します。さらに、人間はまた、見られないものを説明するために反属性と反例を追加することにより、視覚的な決定を説明する傾向があります。例に指示された摂動を導入して、例をクラスに分類するときにどの属性値が変化するかを観察します。これにより、直感的なカウンター属性と反例が提供されます。粗いデータセットと細かいデータセットの両方を使用した実験では、属性が識別可能で人間が理解できる直感的で直感に反する説明を提供することが示されています。

The Whole Is Greater Than the Sum of Its Nonrigid Parts

全体はその非剛体部分の合計よりも大きい

著者:Oshri Halimi, Ido Imanuel, Or Litany, Giovanni Trappolini, Emanuele Rodolà, Leonidas Guibas, Ron Kimmel
URL:http://arxiv.org/abs/2001.09650v1

この論文の概要(機械翻訳による和訳)
古代ギリシャの哲学者アリストテレスによると、「全体はその部分の合計よりも大きい」。この観察は、20世紀のゲシュタルト心理学派の人間の知覚を説明するために採用されました。ここでは、以前に全体として取得されたオブジェクトの一部を観察すると、全体的な方法で部分一致と形状補完の両方に対処できると主張します。より具体的には、特定のポーズの完全な関節オブジェクトのジオメトリ、および異なるポーズの同じオブジェクトの部分スキャンを考えると、部分観察から新しいポーズを同時に再構築しながら、全体を部分に一致させる問題に対処します。私たちのアプローチはデータ駆動型で、推論時に一貫した頂点ラベリングを必要とせずにシャムオートエンコーダーの形を取ります。そのため、未編成のポイントクラウドおよび三角形メッシュでも使用できます。合成データと実世界の幾何データの両方で、シングルビューの変形可能な形状の補完と密な形状の対応のアプリケーションで、これらのタスクの事前の作業を大幅に上回る、モデルの実用的な有効性を実証します。

Convolution Neural Network Architecture Learning for Remote Sensing Scene Classification

リモートセンシングシーン分類のための畳み込みニューラルネットワークアーキテクチャ学習

著者:Jie Chen, Haozhe Huang, Jian Peng, Jiawei Zhu, Li Chen, Wenbo Li, Binyu Sun, Haifeng Li
URL:http://arxiv.org/abs/2001.09614v1

この論文の概要(機械翻訳による和訳)
リモートセンシング画像のシーン分類は、リモートセンシング画像を理解する上での基本的な課題です。最近、深層学習ベースの方法、特に畳み込みニューラルネットワークベース(CNNベース)の方法は、リモートセンシング画像を理解する大きな可能性を示しています。 CNNベースの方法は、手動で設計された機能ではなく、データから学習した機能を利用することで成功します。 CNNの機能学習手順は、CNNのアーキテクチャに大きく依存しています。ただし、リモートセンシングシーンの分類に使用されるCNNのアーキテクチャのほとんどは、かなりの量のアーキテクチャエンジニアリングスキルとドメインの知識を必要とする手作業で設計されており、特別なデータセットでCNNの最大の可能性を発揮できない可能性があります。本論文では、リモートセンシングシーン分類のための自動アーキテクチャ学習手順を提案した。すべてのパラメーターセットがCNNの特定のアーキテクチャを表すパラメータースペースを設計しました(つまり、一部のパラメーターは、畳み込み、プーリング、接続またはIDなしなどのアーキテクチャで使用される演算子のタイプを表し、その他はこれらのオペレーターの接続方法を表します) 。特定のデータセットの最適なパラメータセットを発見するために、勾配降下によってアーキテクチャ空間で効率的な検索を可能にする学習戦略を導入しました。アーキテクチャジェネレーターは、一連のパラメーターを実験で使用したCNNに最終的にマッピングします。

Practical Fast Gradient Sign Attack against Mammographic Image Classifier

マンモグラフィ画像分類器に対する実用的な高速勾配サイン攻撃

著者:Ibrahim Yilmaz
URL:http://arxiv.org/abs/2001.09610v1

この論文の概要(機械翻訳による和訳)
人工知能(AI)は長年にわたって主要な研究のトピックでした。特に、ディープニューラルネットワーク(DNN)の出現により、これらの研究は非常に成功しています。今日、機械は人間よりも高速で正確な意思決定を行うことができます。機械学習(ML)技術の大きな発展のおかげで、MLは教育、医学、マルウェア検出、自動運転車などの多くの異なる分野で使用されています。 。攻撃者は、クリーンなデータを操作してML分類子をだまし、目的のターゲットを達成できます。たとえば、良性のサンプルは悪意のあるサンプルとして変更することも、悪意のあるサンプルを良性として変更することもできますが、この変更は人間の観察者には認識されません。これは、多くの経済的損失、または重傷、さらには死に至る可能性があります。このペーパーの背後にある動機は、この問題を強調し、意識を高めたいということです。したがって、敵対的な攻撃に対するマンモグラフィ画像分類のセキュリティギャップが示されます。マンモグラフィ画像を使用してモデルをトレーニングし、精度の観点からモデルのパフォーマンスを評価します。後で、元のデータセットをポイズニングし、モデルによって分類ミスされた敵対的なサンプルを生成します。次に、構造的類似性インデックス(SSIM)を使用して、クリーンな画像と敵対的な画像間の類似性を分析します。最後に、さまざまな中毒因子を使用することで、悪用の成功度を示します。

FakeLocator: Robust Localization of GAN-Based Face Manipulations via Semantic Segmentation Networks with Bells and Whistles

FakeLocator:ベルとホイッスルを使用したセマンティックセグメンテーションネットワークを介したGANベースの顔操作のロバストなローカリゼーション

著者:Yihao Huang, Felix Juefei-Xu, Run Wang, Xiaofei Xie, Lei Ma, Jianwen Li, Weikai Miao, Yang Liu, Geguang Pu
URL:http://arxiv.org/abs/2001.09598v1

この論文の概要(機械翻訳による和訳)
今日、ジェネラルな敵対ネットワーク(GAN)のおかげで、フルフェイス合成と部分的なフェイスマニピュレーションが広く一般の関心を集めています。デジタルメディアフォレンジック領域では、イメージ偽造の検出と最終的な特定が不可欠になっています。多くの方法が偽の検出に焦点を合わせていますが、偽の領域のローカライズに重点を置いているのはごく少数です。 GANベースのメソッドのアップサンプリング手順の不完全性を分析し、偽のローカリゼーション問題を修正されたセマンティックセグメンテーション1として再キャストすることにより、提案されたFakeLocatorは、操作された顔画像で高いローカリゼーション精度を得ることができます。私たちの知る限り、これはセマンティックセグメンテーションマップを使用してGANベースの偽ローカリゼーション問題を解決する最初の試みです。改良点として、私たちが提案した実数のセグメンテーションマップは、より多くの情報の偽領域を保存します。この新しいタイプのセグメンテーションマップには、適切な損失関数もあります。 7つの異なるSOTA GANベースの顔生成方法を備えたCelebAおよびFFHQデータベースの実験結果は、本方法の有効性を示しています。ベースラインと比較して、このメソッドはさまざまなメトリックで数回パフォーマンスが向上します。さらに、提案された方法は、JPEG圧縮、低解像度、ノイズ、ブラーなど、実世界のさまざまな顔画像の劣化に対して堅牢です。

Genetic Programming for Evolving a Front of Interpretable Models for Data Visualisation

データ可視化のための解釈可能なモデルの最前線を進化させるための遺伝的プログラミング

著者:Andrew Lensen, Bing Xue, Mengjie Zhang
URL:http://arxiv.org/abs/2001.09578v1

この論文の概要(機械翻訳による和訳)
データの視覚化は、ビッグデータセットを理解するためのデータマイニングの重要なツールです。よく知られている最先端の方法であるt-Distributed Stochastic NeighbourEmbeddingを含む多くの視覚化方法が提案されています。ただし、最も強力な視覚化方法には大きな制限があります。データセットの元の機能から視覚化を作成する方法は完全に不透明です。多くのドメインでは、元の機能に関してデータを理解する必要があります。したがって、理解可能なモデルを使用する強力な視覚化方法が必要です。この作業では、データセットから高品質の視覚化に解釈可能なマッピングを進化させるためのGPtSNEという名前の遺伝的プログラミングアプローチを提案します。単一の実行でさまざまな視覚化を生成する多目的アプローチが設計されており、視覚的品質とモデルの複雑さの間で異なるトレードオフが得られます。さまざまなデータセットのベースラインメソッドに対するテストにより、GP-tSNEの明確な可能性が示され、既存の視覚化メソッドによって提供されるデータよりも深い洞察が得られます。さらに、候補フロントの詳細な分析を通じて、多目的アプローチの利点を強調します。

Crowd Scene Analysis by Output Encoding

出力エンコーディングによる群衆シーン分析

著者:Yao Xue, Siming Liu, Yonghui Li, Xueming Qian
URL:http://arxiv.org/abs/2001.09556v1

この論文の概要(機械翻訳による和訳)
群衆シーン分析は、その幅広い用途のために注目を集めています。混雑したシーンでリスクの高い領域を空間的に識別するためには、(群衆数だけでなく)正確な群衆の位置を把握することが重要です。この論文では、圧縮センシングに基づく出力エンコーディング(CSOE)スキームを提案します。これは、小さなオブジェクトのピクセル座標の検出を、信号空間のエンコーディングにおける信号回帰のタスクにキャストします。 CSOEは、ターゲットが大規模な変動なしで非常に混雑している状況で、ローカライズパフォーマンスを向上させるのに役立ちます。さらに、人の大きさのばらつきのため、適切な受容野の大きさは群衆分析にとって重要です。さまざまな受容フィールドサイズのセットを提供する複数のDilatedConvolution Branches(MDCB)を作成し、画像内でオブジェクトのサイズが大幅に変化した場合のローカライズの精度を向上させます。また、適切な受容フィールドサイズを持つ情報チャネルを適応的に強調することにより、スケール変動の問題にさらに対処する適応受容フィールドウェイト(ARFW)モジュールを開発します。 4つのメインストリームデータセット全体で、特に混雑したシーンで優れた結果を達成します。さらに重要なことは、実験は群衆分析タスクでターゲットサイズのばらつきの問題に取り組むことが重要であるという洞察をサポートします。

aiTPR: Attribute Interaction-Tensor Product Representation for Image Caption

aiTPR:画像キャプションの属性相互作用-テンソル製品表現

著者:Chiranjib Sur
URL:http://arxiv.org/abs/2001.09545v1

この論文の概要(機械翻訳による和訳)
領域の視覚的特徴は、特徴に基づいてマシンの生成機能を強化しますが、適切な相互作用の注意知覚を欠いているため、偏った、または無相関の文や断片の情報になります。この作業では、属性の相互作用-テンソルProductRepresentation(aiTPR)を提案します。これは、直交結合を通じてより多くの情報を収集し、相互作用を物理エンティティ(テンソル)として学習し、キャプションを改善する便利な方法です。機能が未定義の機能空間に追加される以前の作品と比較して、TPRは組み合わせの健全性を維持するのに役立ち、直交性はおなじみの空間を定義するのに役立ちます。オブジェクトとその相互作用を定義する新しいコンセプトレイヤーを導入し、さまざまな記述の決定に重要な役割を果たすことができます。インタラクションの部分は、キャプションの品質を大幅に向上させ、このドメインとMSCOCOデータセットに関する以前のさまざまな成果を上回っています。私たちは、地域の画像特徴と抽象化された相互作用尤度を画像キャプションに埋め込むという概念を初めて導入しました。

分野/キーワード:

論文ナビに登録すると・・・
①最新情報をメールでお届け!
  • 話題のニュース一覧
  • 注目のプレスリリース
  • 論文解説・最近のイベント
②論文解説記事の投稿
  • ご自身の論文の解説
  • 読んだ論文のメモ
  • 研究に関する情報のシェア
③セミナー情報の宣伝
  • ご自身が主催するイベント情報を投稿してシェア
  • ユーザーで作るセミナー日程まとめに参加
【併せて読みたい関連記事】
X
- Enter Your Location -
- or -
パスワード再発行
お気に入り
  • Total (0)
0