2020年01月30日に発表された画像認識分野の論文35本のAbstractをまとめて和訳しました。
この記事の見出し
- 1 Developing a gender classification approach in human face images using modified local binary patterns and tani-moto based nearest neighbor algorithm
- 2 Examining the Benefits of Capsule Neural Networks
- 3 On Learning Vehicle Detection in Satellite Video
- 4 Evaluating the Progress of Deep Learning for Visual Relational Concepts
- 5 H-OWAN: Multi-distorted Image Restoration with Tensor 1×1 Convolution
- 6 Under the Radar: Learning to Predict Robust Keypoints for Odometry Estimation and Metric Localisation in Radar
- 7 Comparison of scanned administrative document images
- 8 Virtual KITTI 2
- 9 Patient Specific Biomechanics Are Clinically Significant In Accurate Computer Aided Surgical Image Guidance
- 10 Pre-defined Sparsity for Low-Complexity Convolutional Neural Networks
- 11 Depth Based Semantic Scene Completion with Position Importance Aware Loss
- 12 Early-detection and classification of live bacteria using time-lapse coherent imaging and deep learning
- 13 ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes
- 14 PulseSatellite: A tool using human-AI feedback loops for satellite image analysis in humanitarian contexts
- 15 Assistive Relative Pose Estimation for On-orbit Assembly using Convolutional Neural Networks
- 16 Deep Learning in Multi-organ Segmentation
- 17 A Review on Object Pose Recovery: from 3D Bounding Box Detectors to Full 6D Pose Estimators
- 18 Identifying Mislabeled Data using the Area Under the Margin Ranking
- 19 Segmentation and Recovery of Superquadric Models using Convolutional Neural Networks
- 20 Accurately identifying vertebral levels in large datasets
- 21 Lossless Compression of Mosaic Images with Convolutional Neural Network Prediction
- 22 MGCN: Descriptor Learning using Multiscale GCNs
- 23 A Class of Linear Programs Solvable by Coordinate-wise Minimization
- 24 NAS-Bench-1Shot1: Benchmarking and Dissecting One-shot Neural Architecture Search
- 25 OPFython: A Python-Inspired Optimum-Path Forest Classifier
- 26 CSNNs: Unsupervised, Backpropagation-free Convolutional Neural Networks for Representation Learning
- 27 Multi-Source Deep Domain Adaptation for Quality Control in Retail Food Packaging
- 28 f-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation
- 29 Spatial-Adaptive Network for Single Image Denoising
- 30 Controlling generative models with continuous factors of variations
- 31 BioTouchPass2: Touchscreen Password Biometrics Using Time-Aligned Recurrent Neural Networks
- 32 Learning to Catch Piglets in Flight
- 33 Robust Method for Semantic Segmentation of Whole-Slide Blood Cell Microscopic Image
- 34 An Internal Clock Based Space-time Neural Network for Motion Speed Recognition
- 35 An Unsupervised Learning Model for Medical Image Segmentation
Developing a gender classification approach in human face images using modified local binary patterns and tani-moto based nearest neighbor algorithm
修正されたローカルバイナリパターンとタニモトベースの最近傍アルゴリズムを使用した人間の顔画像における性別分類アプローチの開発
URL:http://arxiv.org/abs/2001.10966v1
この論文の概要(機械翻訳による和訳)
人間の識別は、コンピュータービジョンにおいて非常に注目される問題です。性別分類は、前処理ステップとして人間の識別に重要な役割を果たします。これまで、この問題を解決するためのさまざまな方法が提案されてきました。絶対に、分類精度は、研究者の性別分類の主な課題です。ただし、スマートフォンの画像キャプチャでは、回転、グレースケールの変動、ポーズ、照明の変化などのいくつかの課題が発生する場合があります。この点で、改善されたローカルバイナリパターン(MLBP)に基づいて人間の顔の画像の性別を分類するために、この論文では多段階アプローチが提案されています。 LBPは、ローカルコントラストおよびローカル空間構造情報を抽出するテクスチャ記述子です。ノイズ感度、回転感度、低識別機能などのいくつかの問題は、基本的なLBPの欠点と見なすことができます。 MLBPは、基本的なLBPの抽出されたバイナリパターンを分類するための新しい理論を使用して、欠点を処理します。提案されたアプローチには2つのステージが含まれます。まず、MLBPに基づいて人間の顔画像の特徴ベクトルを抽出します。次に、非線形分類子を使用して性別を分類できます。この論文では、Tani-Motoメトリック距離測定に基づいて最近傍分類子が評価されます。結果部分では、自己収集データベースとICPRデータベースが人間の顔データベースとして使用されます。結果は、精度の観点から提案されたアプローチの高品質を示すこの文献のいくつかの最新のアルゴリズムによって比較されます。提案されたアプローチの他の主な利点のいくつかは、回転不変、低ノイズ感度、サイズ不変、低計算複雑度です。提案されたアプローチは、データベース比較の数を減らすため、スマートフォンアプリケーションの計算の複雑さを軽減します。また、メモリとCPUの使用量が削減されるため、スマーフォンの同期アプリケーションのパフォーマンスも向上します。
Examining the Benefits of Capsule Neural Networks
Capsule Neural Networksの利点を調べる
URL:http://arxiv.org/abs/2001.10964v1
この論文の概要(機械翻訳による和訳)
Capsuleネットワークは、最近開発されたニューラルネットワークのクラスであり、従来の畳み込みニューラルネットワークのいくつかの欠陥に対処する可能性があります。標準のスカラーアクティベーションをベクトルに置き換え、人工ニューロンを新しい方法で接続することにより、カプセルネットワークはコンピュータービジョンアプリケーションの次の素晴らしい開発を目指しています。ただし、これらのネットワークが従来のネットワークと実際に異なる動作をするかどうかを判断するには、カプセル機能の違いを調べる必要があります。この目的のために、カプセル機能を解明し、それらが最初の出版物に記載されているように機能するかどうかを判断する目的で、いくつかの分析を実行します。まず、カプセル機能と畳み込みニューラルネットワーク機能を視覚的に比較するために、詳細な視覚化分析を実行します。次に、カプセル機能がベクトルコンポーネント全体で情報をエンコードし、カプセルアーキテクチャのどのような変更が最も利点を提供するかを検討します。最後に、カプセル機能が視覚的変換を介してクラスオブジェクトのインスタンス化パラメーターをどの程度うまくエンコードできるかを調べます。
On Learning Vehicle Detection in Satellite Video
衛星ビデオにおける学習車両検出について
URL:http://arxiv.org/abs/2001.10900v1
この論文の概要(機械翻訳による和訳)
航空画像や衛星画像での車両検出は、リモートセンシング画像の全体サイズと比較してピクセルの外観が小さいため、依然として困難です。このシナリオでは、リッチなテクスチャ、画像サイズとオブジェクトサイズの小さな中程度の比率などの暗黙の仮定に違反するため、従来のオブジェクト検出方法は非常に頻繁に失敗します。衛星ビデオは、誘導バイアスとして一時的な一貫性をもたらす非常に新しいモダリティです。衛星ビデオでの車両検出のアプローチは、バックグラウンド減算、フレーム差分、または中程度のパフォーマンス(0.26-0.82 $ F_1 $スコア)を示すサブスペースメソッドを使用します。この作業では、衛星ビデオの広域モーションイメージ(WAMI)に最近の深層学習を適用することを提案しています。最初のアプローチで、PlanetのSkySat-1LasVegasビデオで比較可能な結果(0.84 $ F_1 $)を示し、さらに改善の余地があります。
Evaluating the Progress of Deep Learning for Visual Relational Concepts
視覚関係概念の深層学習の進捗状況の評価
URL:http://arxiv.org/abs/2001.10857v1
この論文の概要(機械翻訳による和訳)
畳み込みニューラルネットワーク(CNN)は、過去7年間で画像分類の最先端の方法になりましたが、多くの分類データセットで超人的なパフォーマンスを達成しているという事実にもかかわらず、ほとんど完全に失敗し、人間よりもはるかに性能が悪い既知のデータセットがあります。これらの問題は、概念学習の分野で定義されている関係概念に対応することを示します。したがって、視覚関係概念に関する現在のディープラーニング研究を紹介します。現在の文献を分析し、入力の反復処理と反復間の注意の移動が、現実の世界の概念学習を効率的かつ確実に解決するために必要であると仮定します。さらに、多くの現在のデータセットは、事前に事前に登録された形式でデータを提供することにより、テスト済みシステムのパフォーマンスを過大評価していると結論付けます。
H-OWAN: Multi-distorted Image Restoration with Tensor 1×1 Convolution
H-OWAN:Tensor 1×1畳み込みによるマルチディストーション画像復元
URL:http://arxiv.org/abs/2001.10853v1
この論文の概要(機械翻訳による和訳)
変形を組み合わせた変形から画像を復元することは、困難な作業です。既存の作品では、有望な戦略は、さまざまな種類の歪みを処理するために並列の「操作」を適用することです。ただし、機能融合フェーズでは、異なる操作による機能の不均一性のため、少数の操作が復元結果を支配します。この目的のために、高次テンソル(外)積を課すことにより、テンソル1×1畳み込み層を導入します。これにより、異種の特徴を調和させるだけでなく、追加の非線形性も考慮します。テンソル積に起因する許容できないカーネルサイズを回避するために、次元の指数関数的成長を線形成長に変換できるカーネルウィテンソルネットワーク分解を構築します。新しいレイヤーで武装し、マルチディストーション画像復元のための高次OWANを提案します。数値実験では、提案されたネットは以前の最先端技術よりも優れており、より困難なタスクでも有望なパフォーマンスを示しています。
Under the Radar: Learning to Predict Robust Keypoints for Odometry Estimation and Metric Localisation in Radar
レーダーの下で:レーダーでの走行距離推定とメトリック位置確認のためのロバストなキーポイントを予測する学習
URL:http://arxiv.org/abs/2001.10789v1
この論文の概要(機械翻訳による和訳)
このホワイトペーパーでは、レーダーでの走行距離推定とメトリック定位のロバストキーポイントの検出を学習するための自己監視型フレームワークを示します。アーキテクチャ内に微分可能なポイントベースのモーション推定器を組み込むことにより、ローカリゼーションエラーのみからキーポイントの位置、スコア、および記述子を学習します。このアプローチは、堅牢なキーポイントを作るものに仮定を課すことを避け、それらをアプリケーションに最適化することを決定的に可能にします。さらに、このアーキテクチャはセンサーに依存せず、ほとんどのモダリティに適用できます。オックスフォードレーダーRobotCarデータセットからの280 kmの実世界走行で実験を実行し、最先端のインポイントベースのレーダーオドメトリを改善し、エラーを最大45%削減しながら、桁違いに高速に実行し、同時にメトリックループクロージャを解決しますこれらの出力を組み合わせて、都市環境でレーダーを使用した完全なマッピングとローカリゼーションが可能なフレームワークを提供します。
Comparison of scanned administrative document images
スキャンされた行政文書画像の比較
URL:http://arxiv.org/abs/2001.10785v1
この論文の概要(機械翻訳による和訳)
この作業では、管理文書のデジタル化されたコピーの比較方法が検討されました。この問題は、たとえば、紙の形式の契約の終わりに銀行部門で、一方の当事者によって行われた可能性のある変更を見つけるために、2つの当事者によって署名された文書の2つのコピーを比較するときに発生します。文書画像比較の提案された方法は、テキスト特徴点の記述子である単語の画像比較のいくつかの方法の組み合わせに基づいている。テストは、公開PayslipDataset(フランス語)で実施されました。結果は、同じドキュメントのバージョンである2つの画像の違いを見つけることの高品質と信頼性を示しました。
Virtual KITTI 2
バーチャルKITTI 2
URL:http://arxiv.org/abs/2001.10773v1
この論文の概要(機械翻訳による和訳)
このホワイトペーパーでは、KITTIトラッキングベンチマークの5つのシーケンスクローンで構成される、よく知られたVirtual KITTIdatasetの更新バージョンを紹介します。さらに、データセットは、気象条件(霧、雨など)やカメラ構成の変更など、これらのシーケンスのさまざまなバリエーションを提供します(例:15度回転)。各シーケンスに対して、RGB、深度、クラスセグメンテーション、インスタンスセグメンテーション、フロー、およびシーンフローデータを含む複数の画像セットを提供します。カメラのパラメーターとポーズ、および車両の位置も利用できます。データセットの機能の一部を紹介するために、自動運転の分野の最先端のアルゴリズムを使用して、関連する複数の実験を実行しました。データセットは、https://europe.naverlabs.com/Research/Computer-Vision/Proxy-Virtual-Worldsからダウンロードできます。
Patient Specific Biomechanics Are Clinically Significant In Accurate Computer Aided Surgical Image Guidance
患者固有の生体力学は、正確なコンピューター支援手術画像ガイダンスにおいて臨床的に重要です
URL:http://arxiv.org/abs/2001.10717v1
この論文の概要(機械翻訳による和訳)
拡張現実は、手術前の画像からビデオオーバーレイに手術のランドマークを融合するために、画像誘導手術(AR IG)で使用されます。物理シミュレーションは、手術の進行中にランドマークの正確な位置を維持し、血管などへの偶発的な損傷を回避して患者の安全を確保するために不可欠です。肝臓の手技では、AR IGシミュレーションの精度は、患者の疾患に特有の硬直変動をモデル化できないために妨げられます。磁気共鳴エラストグラフィ(MRE)データに基づいて患者固有の剛性変動を説明するための新しい方法を紹介します。私たちの知る限り、AR IGlandmarkの配置に生体内生体力学的データを使用することを初めて実証しました。この初期の作業では、MREdata駆動シミュレーションと従来の方法の比較評価により、ランドマーク配置中の精度の臨床的に有意な違いが示され、さらなる動物モデル試験の動機付けが行われました。
Pre-defined Sparsity for Low-Complexity Convolutional Neural Networks
低複雑度の畳み込みニューラルネットワークの定義済みのスパース性
URL:http://arxiv.org/abs/2001.10710v1
この論文の概要(機械翻訳による和訳)
深い畳み込みニューラルネットワークを処理するための高いエネルギーコストは、組み込みシステムやIoTデバイスなどのエネルギーに制約のあるプラットフォームでのユビキタスな展開を妨げます。この作業では、フィルター内およびフィルター間で定期的に繰り返されるサポートセットを備えた、事前定義されたスパース2Dカーネルを持つ畳み込み層を導入します。定期的なスパースカーネルの効率的な保存により、パラメーターの節約は、DRAMアクセスの減少によるエネルギー効率の大幅な改善につながる可能性があり、エネルギー消費とトレーニングと推論の両方の精度のトレードオフの大幅な改善が見込まれます。このアプローチを評価するために、ResNet18およびVGG16アーキテクチャのスパースバリアントで広く受け入れられている2つのデータセット、CIFAR-10およびTiny ImageNetを使用して実験を行いました。提案されたスパースバリアントは、ベースラインモデルと比較して、CIFAR-10上のResNet18の精度がわずかに失われるが、FLOPが5.6倍少なく、モデルパラメーターが最大82%少なくなります。TinyImageNetでトレーニングされたVGG16では、FLOPが5.8倍少なく、モデルパラメーターが83.3%減少し、トップ5(トップ1)の精度がわずか1.2%(2.1%)低下しています。また、提案されたアーキテクチャのパフォーマンスをShuffleNetおよびMobileNetV2のパフォーマンスと比較しました。類似のハイパーパラメーターとFLOPを使用すると、ResNet18バリアントは平均精度が2.8%向上します。
Depth Based Semantic Scene Completion with Position Importance Aware Loss
位置重要性を意識した損失を伴う深度ベースのセマンティックシーンの完成
URL:http://arxiv.org/abs/2001.10709v1
この論文の概要(機械翻訳による和訳)
セマンティックシーンコンプリーション(SSC)は、シーンの3Dセマンティックセグメンテーションを推測し、同時に3D形状を完成させるタスクを指します。単一深度に基づくSSCの新しいハイブリッドネットワークであるPALNetを提案します。 PALNetは、2ストリームネットワークを利用して、きめの細かい深度情報を使用してマルチステージから2Dおよび3Dの両方の機能を抽出し、コンテキストとシーンの幾何学的な手がかりを効率的にキャプチャします。 SSCの現在の方法は、シーンのすべての部分を等しく処理し、オブジェクトの内部に不必要な注意を向けます。この問題に対処するために、ネットワークのトレーニング中に位置の重要性を認識するPosition AwareLoss(PA-Loss)を提案します。具体的には、PA-LossはLocal Geometric Anisotropyを考慮してシーン内の異なる位置の重要性を判断します。オブジェクトの境界やシーンのコーナーなどの重要な詳細を回復するのに役立ちます。 2つのベンチマークデータセットに関する包括的な実験により、提案された方法の有効性とその優れたパフォーマンスが実証されました。モデルとビデオのデモは、https://github.com/UniLauX/PALNetにあります。
Early-detection and classification of live bacteria using time-lapse coherent imaging and deep learning
タイムラプスコヒーレントイメージングとディープラーニングを使用した生きた細菌の早期検出と分類
URL:http://arxiv.org/abs/2001.10695v1
この論文の概要(機械翻訳による和訳)
直径60 mmの寒天プレート内の細菌増殖のコヒーレントな顕微鏡画像を定期的にキャプチャし、細菌増殖の迅速な検出と対応する種の分類のために、ディープニューラルネットワークを使用してこれらのタイムラプスホログラムを分析する計算ライブ細菌検出システムを提示します。私たちのシステムの性能は、水サンプル中の大腸菌と大腸菌群(すなわち、クレブシエラエアロゲネスと肺炎s菌)の迅速な検出によって実証されました。これらの結果は、環境保護庁(EPA)が承認した分析方法と比較して、細菌増殖の検出時間を12時間以上短縮する、ゴールドスタンダードの培養ベースの結果に対して確認されました。私たちの実験はさらに、この方法が99.2-100%の精度で7-10時間以内(および12時間以内に> 95%)の細菌コロニーの90%を首尾よく検出し、7.6-12時間で80%の精度でそれらの種を正しく識別することをさらに確認しました。サンプルの内殖培地のプレインキュベーションを使用して、システムは合計テスト時間の9時間以内に〜1コロニー形成単位(CFU)/ Lの検出限界(LOD)を達成しました。この計算細菌検出および分類プラットフォームは、非常に費用効果が高く(試験あたり約0.6ドル)、プレート表面全体でスキャン速度24 cm2 / minの高スループットであり、細菌検出に現在使用されている既存の分析方法との統合に非常に適しています寒天プレート上。ディープラーニングを搭載したこの自動化された費用対効果の高い生菌検出プラットフォームは、検出時間を大幅に短縮し、ラベル付けや専門家を必要とせずにコロニーの識別を自動化することにより、微生物学の幅広いアプリケーションに変革をもたらします。
ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes
ImVoteNet:画像投票による点群での3Dオブジェクト検出の強化
URL:http://arxiv.org/abs/2001.10692v1
この論文の概要(機械翻訳による和訳)
3Dオブジェクト検出は、ポイントクラウドでの深層学習の進歩により、急速に進歩しています。最近のいくつかの作品では、ポイントクラウド入力のみで最先端のパフォーマンスを示しています(例:VoteNet)。ただし、ポイントクラウドデータには固有の制限があります。それらはまばらで、色情報が不足しており、センサーのノイズに悩まされることがよくあります。一方、画像は高解像度で豊かな質感を持っています。したがって、点群によって提供される3Dジオメトリを補完できます。それでも、画像情報を効果的に使用してポイントクラウドベースの検出を支援する方法は、未解決の問題です。この作業では、VoteNetの上に構築し、RGB-Dシーンに特化したImVoteNetと呼ばれる3D検出アーキテクチャを提案します。 ImVoteNetは、画像の2D票と点群の3D票の融合に基づいています。マルチモーダル検出に関する以前の作業と比較して、2D画像から幾何学的特徴と意味的特徴の両方を明示的に抽出します。カメラのパラメーターを活用して、これらの機能を3Dに引き上げます。 2D-3D機能の融合の相乗効果を向上させるために、マルチタワートレーニングスキームも提案します。挑戦的なSUN RGB-Dデータセットでモデルを検証し、5.7 mAPで最先端の結果を進めます。また、豊富なアブレーション研究を提供して、各設計選択の貢献度を分析しています。
PulseSatellite: A tool using human-AI feedback loops for satellite image analysis in humanitarian contexts
PulseSatellite:人道的文脈での衛星画像解析のために人間AIフィードバックループを使用するツール
URL:http://arxiv.org/abs/2001.10685v1
この論文の概要(機械翻訳による和訳)
自然災害や紛争に対する人道的対応は、衛星画像分析により支援できます。人道的な文脈では、非常に具体的な衛星画像分析タスクは、運用サポートを提供するために正確かつタイムリーに実行する必要があります。 PulseSatelliteは、オンザフライで再訓練し、特定の人道的状況と地理に適応できるニューラルネットワークモデルを活用する共同衛星画像解析ツールです。 PulseSatelliteの機能を示す、避難所と洪水をそれぞれマッピングする2つの事例研究を紹介します。
Assistive Relative Pose Estimation for On-orbit Assembly using Convolutional Neural Networks
畳み込みニューラルネットワークを使用した軌道上アセンブリのための支援相対姿勢推定
URL:http://arxiv.org/abs/2001.10673v1
この論文の概要(機械翻訳による和訳)
宇宙船または宇宙空間にある物体の正確なリアルタイムポーズ推定は、軌道上での宇宙船の整備および組立作業に必要な重要な機能です。宇宙の物体の位置推定は、電力と質量の制約に加えて、広範に変化する照明条件、高コントラスト、低解像度を含む宇宙画像のため、地球上の物体よりも困難です。この論文では、畳み込みニューラルネットワークを活用して、カメラに対する対象オブジェクトの移動と回転を一意に決定します。十分。アセンブリタスク用に設計されたシミュレーションフレームワークを使用して、変更されたCNNモデルをトレーニングするためのデータセットを生成し、さまざまなモデルの結果を、モデルがどの程度正確に姿勢を予測しているかを測定します。宇宙船や宇宙の姿勢推定におけるオブジェクトに対する多くの現在のアプローチとは異なり、このモデルは、このモデルをより堅牢で他のタイプの宇宙船に適用しやすくする手作りのオブジェクト固有の機能に依存しません。モデルは現在の機能選択方法と同等の性能を発揮するため、これらの方法と組み合わせて使用してより信頼性の高い推定値を提供できることが示されています。
Deep Learning in Multi-organ Segmentation
複数臓器のセグメンテーションにおける深層学習
URL:http://arxiv.org/abs/2001.10619v1
この論文の概要(機械翻訳による和訳)
このペーパーでは、マルチ器官セグメンテーションにおけるディープラーニング(DL)のレビューを紹介します。医療画像のセグメンテーションとアプリケーションのための最新のDLベースの方法をまとめました。これらの方法は、ネットワーク設計に従って6つのカテゴリに分類されました。各カテゴリについて、調査結果をリストアップし、重要な貢献を強調し、特定の課題を特定しました。各カテゴリの詳細なレビューに続いて、その成果、欠点、および将来の可能性について簡単に説明しました。 2017年のAAPMThoracic Auto-segmentation Challengeデータセットと2015 MICCAI Head NeckAuto-Segmentation Challengeデータセットを含むベンチマークデータセットを使用して、胸部および頭頸部の多臓器セグメンテーションのためのDLベースの方法を包括的に比較しました。
A Review on Object Pose Recovery: from 3D Bounding Box Detectors to Full 6D Pose Estimators
オブジェクトポーズ回復のレビュー:3Dバウンディングボックス検出器からフル6Dポーズ推定器まで
URL:http://arxiv.org/abs/2001.10609v1
この論文の概要(機械翻訳による和訳)
オブジェクトポーズの回復は、自動運転、ロボット工学、拡張現実に関連する急速に進化する技術分野で重要な問題となっているため、コンピュータービジョンの分野でますます注目を集めています。既存のレビュー関連の研究では、RGB画像で関心のあるオブジェクトの2Dバウンディングボックスを生成する方法を経て、2Dの視覚レベルで問題に対処しています。 2D探索空間は、RGB(モノ/ステレオ)画像とともに3D空間で利用可能なジオメトリ情報を使用するか、LIDARセンサーやRGB-Dカメラからの深度データを利用して拡大されます。カテゴリレベルのアモーダル3Dバウンディングボックスを生成する3Dバウンディングボックス検出器は、重力整列画像で評価されますが、完全な6Dオブジェクトポーズ推定器は、アラインメント制約が削除された画像でインスタンスレベルでほとんどテストされます。カテゴリーのレベル。この論文では、3Dバウンディングボックス検出器から完全な6Dポーズ推定器まで、オブジェクトポーズの回復に関する方法の最初の包括的かつ最新のレビューを紹介します。この方法は、分類、回帰、分類と回帰、テンプレートマッチング、およびポイントペア機能マッチングタスクとして問題を数学的にモデル化します。これに基づいて、メソッドの数学的モデルベースの分類が確立されます。メソッドの評価に使用されるデータセットは課題に関して調査され、評価指標が調査されます。文献の実験の定量的結果を分析して、どのタイプの課題でどのカテゴリのメソッドが最適に実行されるかを示します。フィールドの現在の位置がオブジェクトのポーズ回復に関して要約され、可能な研究の方向が特定されます。
Identifying Mislabeled Data using the Area Under the Margin Ranking
マージンランキング下のエリアを使用したラベルの誤ったデータの特定
URL:http://arxiv.org/abs/2001.10528v2
この論文の概要(機械翻訳による和訳)
一般的なトレーニングセットのすべてのデータが一般化に役立つわけではありません。一部のサンプルは、過度に曖昧であるか、完全にラベルが間違っている可能性があります。このホワイトペーパーでは、このようなサンプルを特定し、ニューラルネットワークをトレーニングする際の影響を軽減する新しい方法を紹介します。アルゴリズムの中心となるのは、きれいなサンプルと誤ってラベル付けされたサンプルのトレーニングダイナミクスの違いを活用する、Area Under the Margin(AUM)統計です。単純な手順-意図的に誤ってラベル付けされたインジケーターサンプルが追加された余分なクラスを追加する-は、このメトリックに基づいて誤ってラベル付けされたデータを分離するしきい値を学習します。このアプローチは、合成および実世界のデータセットに関する事前作業を一貫して改善します。 WebVision50classificationタスクでは、このメソッドはトレーニングデータの17%を削除し、テストエラーを2.6%(絶対)改善します。 CIFAR100では、データの13%を削除すると、エラーが1.2%低下します。
Segmentation and Recovery of Superquadric Models using Convolutional Neural Networks
畳み込みニューラルネットワークを使用した超二次モデルのセグメンテーションと復元
URL:http://arxiv.org/abs/2001.10504v1
この論文の概要(機械翻訳による和訳)
この論文では、パラメータ化された体積形状プリミティブで3D視覚データを表現する問題に取り組んでいます。具体的には、複雑な深度シーンを超二次モデルで表現できる単純な幾何学的構造にセグメント化できる畳み込みニューラルネットワーク(CNN)を中心に構築された(2段階)アプローチを提示します。最初の段階では、アプローチではマスクRCNNモデルを使用して、深層シーンの超二次構造を特定し、特別に設計されたCNNリグレッサーを使用して、セグメント化された構造に超二次モデルを適合させます。このアプローチを使用すると、少数の解釈可能なパラメーターで複雑な構造を記述することができます。合成および実世界の深度データで提案されたアプローチを評価し、当社のソリューションが最新技術と比較して競争力のある結果をもたらすだけでなく、シーンをいくつかの超二次モデルにわずかに分解できることを示します競合するアプローチに必要な時間の割合。このペーパーで使用されるすべてのデータとモデルは、https://lmi.fe.uni-lj.si/en/research/resources/sq-segから入手できます。
Accurately identifying vertebral levels in large datasets
大規模なデータセットの椎骨レベルを正確に識別する
URL:http://arxiv.org/abs/2001.10503v1
この論文の概要(機械翻訳による和訳)
脊椎の椎骨レベルは、プラーク、筋肉、脂肪、および骨塩密度の測定を行う際に有用な座標系を提供します。椎骨レベルを高精度で正しく分類することは、各脊椎の類似した外観、脊椎の湾曲、および脊椎骨折、インプラント、仙骨の腰椎化、およびL5の仙骨化などの異常の可能性のために困難です。この作業の目標は、大規模な異種データセットのL1レベルを正確かつ堅牢に特定できるシステムを開発することです。最初に検討するアプローチは、3D U-Netを使用して、スキャンボリューム全体を使用してL1椎骨を直接セグメント化し、コンテキストを提供することです。また、L1とT12の2つのクラスセグメンテーションと、L1、T12、およびT12に取り付けられたリブの3つのクラスセグメンテーションのモデルをテストしました。社内のセグメンテーションツールからの疑似セグメンテーションを使用して、トレーニングサンプルの数を249スキャンに増やすことで、L1椎骨の識別に関して98%の精度を達成でき、頭尾方向の平均誤差は4.5 mmでした。次に、3D U-Netを使用して脊椎全体の反復インスタンスセグメンテーションと分類を実行するアルゴリズムを開発しました。インスタンスベースのアプローチでは、脊椎全体のより良いセグメンテーションが得られましたが、L1の分類精度は低くなりました。
Lossless Compression of Mosaic Images with Convolutional Neural Network Prediction
畳み込みニューラルネットワーク予測によるモザイク画像の無損失圧縮
URL:http://arxiv.org/abs/2001.10484v1
この論文の概要(機械翻訳による和訳)
デジタルカメラの生のカラーモザイク画像用のCNNベースの予測可逆圧縮方式を提示します。この特殊なアプリケーションの問題は以前は研究されていませんでしたが、画像復元タスク(たとえば、超解像、低輝度強調、ボケ除去)のための最新のCNNメソッドは、可能な限り最高の結果を得るために元の生のモザイク画像で動作する必要があるため、ますます重要になっています。この論文の重要な革新は、空間スペクトルモザイクパターンの高次の非線形CNN予測子です。深層学習予測は、空間スペクトルモザイク画像の非常に複雑なサンプル依存性をより正確にモデル化できるため、既存の画像予測子よりも統計的冗長性をより完全に削除できます。実験により、提案されたCNN予測子は、カメラの未加工画像で前例のないロスレス圧縮性能を達成することが示されています。
MGCN: Descriptor Learning using Multiscale GCNs
MGCN:マルチスケールGCNを使用した記述子学習
URL:http://arxiv.org/abs/2001.10472v1
この論文の概要(機械翻訳による和訳)
3次元表面上の特徴点の記述子を計算するための新しいフレームワークを提案します。最初に、グラフウェーブレットを使用して表面上のディリクレエネルギーを分解する新しい非学習機能を紹介します。この新しい機能をウェーブレットエネルギー分解シグネチャ(WEDS)と呼びます。次に、学習されていない特徴をより識別的な記述子に変換する新しいマルチスケールグラフ畳み込みネットワーク(MGCN)を提案します。私たちの結果は、新しい記述子WEDSが現在の最先端の非学習記述子よりも差別的であり、WEDSとMGCNの組み合わせが最先端の学習記述子よりも優れていることを示しています。記述子の重要な設計基準は、頂点の数が異なる三角形分割を含むさまざまな表面離散化に対する堅牢性です。私たちの結果は、以前のグラフ畳み込みネットワークが特定の解像度または特定の三角測量に大幅にオーバーフィットしていることを示していますが、MGCNはさまざまな表面離散化によく一般化しています。熱カーネル署名、波カーネル署名、またはローカルポイント署名として。
A Class of Linear Programs Solvable by Coordinate-wise Minimization
座標ごとの最小化によって解ける線形プログラムのクラス
URL:http://arxiv.org/abs/2001.10467v2
この論文の概要(機械翻訳による和訳)
座標ごとの最小化は、大規模な最適化のための単純で一般的な方法です。残念ながら、一般的な(微分不可能な)凸問題では、グローバルな最小値が見つからない場合があります。座標ごとの最小化が正確に解く線形プログラムのクラスを提示します。いくつかのよく知られた組み合わせ最適化問題のデュアルLP緩和がこのクラスにあり、このメソッドが妥当な実行時間で十分な精度でグローバルな最小値を見つけることを示します。さらに、このクラスにはもはや存在しないこれらの問題を拡張するために、この方法は適度に良好な準最適値を生成します。提示されたLP緩和はより効率的な方法(max-flowなど)で解決できますが、私たちの結果は理論的には自明ではなく、将来的に新しい大規模最適化アルゴリズムにつながる可能性があります。
NAS-Bench-1Shot1: Benchmarking and Dissecting One-shot Neural Architecture Search
NAS-Bench-1Shot1:ワンショットニューラルアーキテクチャ検索のベンチマークと分析
URL:http://arxiv.org/abs/2001.10422v1
この論文の概要(機械翻訳による和訳)
ワンショットニューラルアーキテクチャ検索(NAS)は、NASメソッドを実際に計算可能にするために重要な役割を果たしてきました。それにもかかわらず、プロセスのダイナミクスを制御する多くの要因のため、これらの重み共有アルゴリズムが正確にどのように機能するかについてはまだ理解が不足しています。これらのコンポーネントの科学的研究を可能にするために、最近導入された多くの亜種にインスタンス化できるワンショットNASの一般的なフレームワークを導入し、最近の大規模なテーブルベンチマークNAS-Bench-101を安価に利用する一般的なベンチマークフレームワークを導入しますワンショットNASmethodsのいつでも評価。フレームワークを紹介するために、いくつかの最先端のNASメソッドを比較し、それらがハイパーパラメーターに敏感であることと、ハイパーパラメーターを調整することでどのように改善できるかを調べ、NAS-Benchのブラックボックスオプティマイザーのパフォーマンスと比較します-101。
OPFython: A Python-Inspired Optimum-Path Forest Classifier
OPFython:Pythonにヒントを得た最適パスフォレスト分類子
URL:http://arxiv.org/abs/2001.10420v1
この論文の概要(機械翻訳による和訳)
機械学習技術は、分類、オブジェクト認識、個人識別、画像セグメンテーションなどの幅広いタスクに適用されており、過去数年にわたって最重要でした。それにもかかわらず、LogisticRegression、デシジョンツリー、ベイズ分類器などの従来の分類アルゴリズム、複雑さと多様性に欠ける可能性があり、実際のデータを扱う場合には適切ではありません。 Optimum-Path Forestとして知られる最近のグラフにヒントを得た分類器は、Support Vector Machinesに匹敵する最先端の技術であることが証明されており、一部のタスクでもそれを凌evenしています。この記事では、すべての機能とクラスが元のC言語実装に基づいているOPFythonと呼ばれるPythonベースの最適パスフォレストフレームワークを提案します。さらに、OPFythonはPythonベースのライブラリであるため、より使いやすい環境を提供します。 C言語よりも高速なプロトタイピングワークスペース。
CSNNs: Unsupervised, Backpropagation-free Convolutional Neural Networks for Representation Learning
CSNN:表現学習のための教師なし、逆伝播のない畳み込みニューラルネットワーク
URL:http://arxiv.org/abs/2001.10388v2
この論文の概要(機械翻訳による和訳)
この作業では、畳み込みニューラルネットワーク(CNN)、自己組織化マップ(SOM)およびヘビアン学習によるクラスタリングを組み合わせて、教師なしの逆伝播のない方法で表現を学習する畳み込み自己組織化ニューラルネットワーク(CSNN)のビルディングブロックを提案します。 Ourapproachは、CNNからの従来の畳み込み層の学習をSOMの競合学習手順に置き換え、それらの層間のローカルマスクを個別のヘビアンのような学習ルールで同時に学習して、フィルターがクラスタリングを通じて学習された場合の変動要因の解きほぐしの問題を克服します。ビルディングブロックを使用して2つの単純なモデルを設計し、バックプロパゲーションを使用する多くのメソッドに匹敵するパフォーマンスを達成することにより、学習した表現を調査します。一方、Cifar10で同等のパフォーマンスに到達し、Cifar100、Tiny ImageNetおよびバックプロパゲーションのないメソッドのImageNetの小さなサブセットでベースラインパフォーマンスを提供します。
Multi-Source Deep Domain Adaptation for Quality Control in Retail Food Packaging
小売食品包装の品質管理のためのマルチソースディープドメイン適応
URL:http://arxiv.org/abs/2001.10335v1
この論文の概要(機械翻訳による和訳)
小売食品包装には、製品名、成分リスト、栄養情報、アレルゲン、調製ガイドライン、パック重量、保管および保存期限の情報(使用期限/賞味期限など)を含む、消費者の健康に役立つ情報が含まれています。このような情報の存在と正確性は、製品の詳細な理解を確保し、健康上のリスクの可能性を減らすために重要です。その結果、誤った判読不能なラベリングは、消費者およびサプライチェーンの他の多くの利害関係者にとって非常に有害である可能性があります。この論文では、マルチソースの深層学習ベースのドメイン適応システムを提案し、テストして、製品が食品生産ラインを通過する際の検証プロセスの一環として撮影された食品包装写真から使用期限情報の存在と読みやすさを特定および検証します。これは、すべてのドメインのドメイン不変表現を抽出するためにマルチソースデータセットを使用し、クラスの境界とともに、共通の特徴空間でソースドメインとターゲットドメインのすべてのペアの分布を調整することにより、技術の一般化を改善することで達成されました。提案されたシステムは、検証プロセスを自動化し、そうでなければ公衆衛生を脅かし、食品包装の情報と正確性に関する法的要件に違反する可能性のあるラベリングエラーを削減するために、実施された実験で非常に良好に機能しました。この方法は、分類精度を大幅に改善するため、食品製造管理システムへの適用と有益な影響の大きな可能性を秘めています。
f-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation
f-BRS:インタラクティブなセグメンテーションのための逆伝播細分化の再考
URL:http://arxiv.org/abs/2001.10331v1
この論文の概要(機械翻訳による和訳)
ディープニューラルネットワークは、インタラクティブなセグメンテーションへの主流のアプローチになりました。実験で示したように、一部の画像については訓練されたネットワークは数回クリックするだけで正確なセグメンテーション結果を提供しますが、一部の未知のオブジェクトについては大量のユーザー入力でも満足のいく結果を達成できません。最近提案されたバックプロパゲーティングリファインメント(BRS)スキームでは、インタラクティブなセグメンテーションの最適化問題が導入され、ハードケースのパフォーマンスが大幅に改善されます。同時に、BRSは、他の方法と比較してクリックあたりの計算予算を大幅に増やすことにつながる、深いネットワークを前後に数回実行する必要があります。ネットワーク入力の代わりに補助変数に関する最適化問題を解決し、ネットワークのごく一部に対してフォワードパスとバックワードパスを実行する必要があるf-BRS(機能バックプロパゲーション改良スキーム)を提案します。 GrabCut、Berkeley、DAVIS、およびSBDdatasetsの実験では、元のBRSと比較してクリックあたりの時間を桁違いに短縮して、新しい最先端を設定しました。コードとトレーニング済みモデルは、https://github.com/saic-vul/fbrs_interactive_segmentationで入手できます。
Spatial-Adaptive Network for Single Image Denoising
単一画像のノイズ除去のための空間適応ネットワーク
URL:http://arxiv.org/abs/2001.10291v1
この論文の概要(機械翻訳による和訳)
これまでの研究では、畳み込みニューラルネットワークが画像ノイズ除去タスクで良好なパフォーマンスを達成できることが示されています。ただし、局所的な剛体たたみ込み演算によって制限されているため、これらの方法は過度の平滑化アーティファクトにつながります。より深いネットワーク構造は、これらの問題を軽減する可能性がありますが、より多くの計算オーバーヘッドが必要です。本論文では、効率的な単一画像のブラインドノイズ除去のための新しい空間適応ノイズ除去ネットワーク(SADNet)を提案します。空間テクスチャとエッジの変化に適応するために、残差空間適応ブロックを設計します。重み付けのために空間的に相関する特徴をサンプリングするために、変形可能な畳み込みが導入されています。コンテキストブロックを備えたエンコーダ/デコーダ構造が導入され、マルチスケール情報をキャプチャします。粗いものから細かいものまでノイズを除去することで、高品質のノイズのない画像を取得できます。この手法を、合成画像データセットと実際のノイズの多い画像データセットの両方に適用します。実験結果は、本方法が定量的かつ視覚的に最先端のノイズ除去方法を上回ることができることを示しています。
Controlling generative models with continuous factors of variations
変動の連続因子による生成モデルの制御
URL:http://arxiv.org/abs/2001.10238v1
この論文の概要(機械翻訳による和訳)
最近の深い生成モデルは、写真のようにリアルな画像だけでなく、コンピュータービジョンや自然言語処理のさまざまなタスクに対処するのに役立つ視覚的またはテキストコンテンツの埋め込みを提供できます。それにもかかわらず、それらの有用性は、生成プロセッサに対する制御の欠如、学習された表現の不十分な理解によってしばしば制限されます。これらの主要な問題を克服するために、ごく最近の研究は、生成モデルの潜在空間の意味論を研究することへの関心を示しています。本論文では、生成モデルの潜在空間の解釈可能性を向上させることを提案します。これにより、生成モデルの位置やスケールなどの特定のプロパティを正確に制御するために移動できる任意の生成モデルの潜在空間で意味のある方向を見つける新しい方法を導入することにより、画像内のオブジェクトの。私たちの方法は、人間の注釈を必要とせず、生成された画像の単純な変換、例えば、翻訳、ズーム、色の変化などをエンコードする方向の検索に特に適しています。 GANと変分オートエンコーダーの両方について、定性的および定量的に本方法の有効性を実証します。
BioTouchPass2: Touchscreen Password Biometrics Using Time-Aligned Recurrent Neural Networks
BioTouchPass2:タイムアラインリカレントニューラルネットワークを使用したタッチスクリーンパスワードバイオメトリクス
URL:http://arxiv.org/abs/2001.10223v1
この論文の概要(機械翻訳による和訳)
パスワードはすべての種類のアプリケーションで毎日使用されていますが、多くの場合、それだけでは十分に安全ではありません。これにより、通常のように入力する代わりにパスワードの各文字を描画するようにユーザーに要求する2要素認証により、パスワードシナリオが強化されます。この研究の主な貢献は次のとおりです。i)位置、姿勢、およびデバイスに関して制限のない監視なしのモバイルシナリオで取得した、新規のMobileTouchDBパブリックデータベースを提示します。このデータベースには、217人のユーザーが実行した64Kのオンラインキャラクターサンプル、94の異なるスマートフォンモデル、および最大6つの取得セッションが含まれています。 ii)Dynamic Time Warping(DTW)などの従来の認証システムとリカレントニューラルネットワーク(RNN)に基づく新しいアプローチの両方を考慮して、提案されたアプローチの完全な分析を実行します。さらに、Time-Aligned Recurrent Neural Networks(TA-RNN)という名前の新しいアプローチを提示します。このアプローチは、DTWとRNNの可能性を組み合わせて、攻撃に対してより堅牢なシステムをトレーニングします。提案されたアプローチの完全な分析は、MobileTouchDBとe-BioDigitDBデータベースの両方を使用して実行されます。提案されたTA-RNNシステムは、最新技術よりも優れており、4桁のパスワードと文字ごとに1つのトレーニングサンプルを使用して、最終的な2.38%の等価エラー率を達成しています。これらの結果は、攻撃者が同じ詐欺師のシナリオで100%の成功率を持つ従来の型ベースのパスワードシステムと比較して、提案されたアプローチの展開を促進します。
Learning to Catch Piglets in Flight
飛行中の子豚を捕まえることを学ぶ
URL:http://arxiv.org/abs/2001.10220v1
この論文の概要(機械翻訳による和訳)
飛行中のオブジェクトをキャッチすることは、ロボット工学における大きな課題です。このペーパーでは、RGB-Dカメラとレーダーという2つのセンサー方式からのデータを融合する閉ループ制御システムを紹介します。メソッドを開発およびテストするために、簡単に識別できるオブジェクトであるぬいぐるみのピグレットから始めます。オブジェクトを検出および追跡し、インターセプトポイントを予測する2つのアプローチを実装および比較します。ベースラインモデルは、環境内で投ownされたオブジェクトの位置を特定するためにカラーフィルターを使用しますが、インターセプトポイントは、物理的弾道軌道方程式の最小二乗回帰を使用して予測されます。深層学習ベースの方法では、オブジェクト検出と傍受点予測の両方に人工ニューラルネットワークを使用します。ディープラーニングのアプローチにより、80%のケースでピグレットをうまく捕まえることができることを示しています。
Robust Method for Semantic Segmentation of Whole-Slide Blood Cell Microscopic Image
全スライド血球顕微鏡画像の意味的セグメンテーションのためのロバストな方法
URL:http://arxiv.org/abs/2001.10188v1
この論文の概要(機械翻訳による和訳)
SEM(走査型電子顕微鏡)血球画像のセグメンテーションに関する以前の研究では、スライド全体の血球セグメンテーションのセマンティックセグメンテーションアプローチは無視されます。提案された作業では、セマンティックセグメンテーションアプローチを使用して、スライド全体の血球セグメンテーションの問題に対処します。ピクセルレベルの特徴抽出モデルとして、VGG-16とともに、新しい畳み込みエンコーダ-デコーダフレームワークを設計します。 -e提案されたフレームワークは、3つの主要なステップで構成されます。最初に、すべての元の画像と手動で生成された各血球タイプのグラウンドトゥルースマスクが前処理段階を通過します。前処理段階では、ピクセルレベルのラベル付け、マスクされた画像とピクセルフュージングのRGBからグレースケールへの変換、および統一マスク生成が実行されます。その後、VGG16がシステムに読み込まれ、事前学習済みのピクセルレベルの特徴抽出モデルとして機能します。 3番目のステップでは、提案されたモデルでトレーニングプロセスが開始されます。 3つの評価指標でネットワークパフォーマンスを評価しました。私たちは、クラスワイズだけでなく、グローバルおよび平均精度に関しても優れた結果を得ました。我々のシステムは、RBC、WBC、および血小板についてそれぞれ97.45%、93.34%、および85.11%のクラス単位の精度を達成しましたが、グローバルおよび平均の精度はそれぞれ97.18%および91.96%のままです。
An Internal Clock Based Space-time Neural Network for Motion Speed Recognition
運動速度認識のための内部クロックベースの時空ニューラルネットワーク
URL:http://arxiv.org/abs/2001.10159v1
この論文の概要(機械翻訳による和訳)
この研究では、運動速度認識のための新しい内部クロックベースの時空間ニューラルネットワークを提示します。開発したシステムには、スパイクトレインエンコーダ、内部クロッキング動作を備えたスパイキングニューラルネットワーク(SNN)、パターン変換ブロック、およびNetwork Dynamic Dependent Plasticity(NDDP)学習ブロックがあります。核となる原則は、開発されたSNNがネットワークパターン周波数(内部クロック周波数)を自動的に調整して、速度ドメインで人間の動きを認識することです。トレーニングのベンチマークとして漫画と実世界のビデオの両方を使用しましたが、結果は、システムがかなりの速度差(例:実行、歩行、ジャンプ、不思議(思考)、停止)の動きだけでなく、そして速い散歩。推論の精度は、最大83.3%(漫画ビデオ)および75%(現実世界のビデオ)です。一方、システムは、学習段階で最大42のトレーニングトライアルで6つのビデオデータセットのみを必要とします。ハードウェアパフォーマンスの推定では、トレーニング時間は0.84〜4.35秒、消費電力は33.26〜201mW(ARM Cortex M4プロセッサに基づく)であることが示されています。したがって、当社のシステムは、smalldataset、迅速な学習、および低電力パフォーマンスの要件という独自の学習上の利点を活用しており、エッジまたはスケーラブルなAIベースのアプリケーションに大きな可能性を示しています。
An Unsupervised Learning Model for Medical Image Segmentation
医療画像セグメンテーションのための教師なし学習モデル
URL:http://arxiv.org/abs/2001.10155v1
この論文の概要(機械翻訳による和訳)
学習ベースのセグメンテーション手法の大部分では、大量の高品質のトレーニングデータが必要です。この論文では、半教師付きまたは教師なしで訓練できる新規学習ベースのセグメンテーションモデルを提示します。具体的には、教師なし設定では、畳み込みニューラルネットワーク(ConvNet)を介してエッジのないアクティブな輪郭(ACWE)フレームワークをパラメーター化し、自己教師付きメソッドを使用してConvNetのパラメーターを最適化します。別の設定(半監視)では、トレーニング中に補助セグメンテーショングラウンドトゥルースが使用されます。この方法は、単一光子放射型コンピューター断層撮影(SPECT)画像のコンテキストで高速かつ高品質の骨セグメンテーションを提供することを示しています。