画像認識分野論文まとめ【2020年02月07日arXiv公開】

アブストまとめ
Like0
お気に入り

2020年02月07日に発表された画像認識分野の論文40本のAbstractをまとめて和訳しました。

この記事の見出し

Reliability Validation of Learning Enabled Vehicle Tracking

学習可能な車両追跡の信頼性検証

著者:Youcheng Sun, Yifan Zhou, Simon Maskell, James Sharp, Xiaowei Huang
URL:http://arxiv.org/abs/2002.02424v1

この論文の概要(機械翻訳による和訳)
このホワイトペーパーでは、高解像度の広域モーション画像入力に基づいて動的な車両追跡を実行する実世界の学習対応システムの信頼性について検討します。このシステムは、画像入力を処理するための複数のニューラルネットワークコンポーネントと、車両追跡のために処理された情報を分析するための複数のシンボリック(カルマンフィルター)コンポーネントで構成されています。ニューラルネットワークは敵対的な例に悩まされており、それがthemlackの堅牢性を高めていることが知られています。ただし、学習コンポーネントに対する敵対的な例が全体的なシステムレベルの信頼性に影響を与える可能性があるかどうか、およびその方法は不明です。カバレッジガイド付きニューラルネットワークテストツールであるDeepConcolicを車両追跡システムと統合することにより、(1)システム全体が他のコンポーネントの存在のおかげでいくつかの敵対的な例に対して弾力的であり、(2)システム全体が余分なレベルを提示することがわかりました深層学習コンポーネントのみを分析することでは判断できない不確実性この研究は、学習対応システムの新しい検証および検証方法の必要性を示唆しています。

StegColNet: Steganalysis based on an ensemble colorspace approach

StegColNet:アンサンブル色空間アプローチに基づくステガナリシス

著者:Shreyank N Gowda, Chun Yuan
URL:http://arxiv.org/abs/2002.02413v1

この論文の概要(機械翻訳による和訳)
画像ステガノグラフィは、画像内の情報を隠すプロセスを指します。ステガナリシスは、ステガノグラフィ画像を検出するプロセスです。アンサンブル色空間モデルを使用して、重み付き連結フィーチャアクティベーションマップを取得するステガナリシスのアプローチを紹介します。連結されたマップは、各色空間に明示的な特定の機能を取得するのに役立ちます。マップで選択されたフィーチャの数を減らすために、アリーフライトグレイウルフ最適化戦略を使用します。次に、これらの機能を使用して、画像を次の2つのクラスのいずれかに分類します:特定の画像に秘密情報が保存されているかどうかを示します。また、モデルを異なるデータセットに転送し、データセットの混合物で広範な実験を実行できることを示します。結果は、提案されたアプローチが、チャネルごとに0.2ビットで平均2.32%の最新の深層学習法のアプローチよりも優れていることを示しています( bpc)と0.4 bpcの平均で1.87%。

Lane Boundary Geometry Extraction from Satellite Imagery

衛星画像からの車線境界形状の抽出

著者:Andi Zang, Runsheng Xu, Zichen Li, David Doria
URL:http://arxiv.org/abs/2002.02362v1

この論文の概要(機械翻訳による和訳)
自動運転車は、キーコンポーネントである高解像度(HD)マップが市場と業界の両方でその価値を示しているため、より現実になりつつあります。 LiDARまたはステレオ/パースペクティブ画像からのHDマップの生成は目覚しい成功を収めましたが、その固有の欠陥は無視できません。本論文では、衛星画像と形式化された仮説リンクでピクセル単位のセグメンテーションを使用する高速道路HDマップモデリングの新しい方法を提案します。これは、LiDARポイントクラウドおよび透視図画像からの現在のHDマップモデリングアプローチよりも安価で高速であり、理想的な補完になります最先端の。また、HDロードモデルデータセットをグラウンドトゥルースとして手動でコード化/ラベル付けし、Bingタイルイメージサーバーに合わせて、方法論をトレーニング、テスト、評価します。このデータセットは同時に公開され、航空写真からのHDマップモデリングの研究に貢献します。

Random VLAD based Deep Hashing for Efficient Image Retrieval

効率的な画像検索のためのランダムVLADベースのディープハッシング

著者:Li Weng, Lingzhi Ye, Jiangmin Tian, Jiuwen Cao, Jianzhong Wang
URL:http://arxiv.org/abs/2002.02333v1

この論文の概要(機械翻訳による和訳)
画像ハッシュアルゴリズムは、ハミング距離にすばやく一致できるコンパクトなバイナリ表現を生成するため、大規模な画像検索の効率的なソリューションになります。この論文では、古典的なVLAD(局所的に集約された記述子のベクトル)アーキテクチャをニューラルネットワークに組み込むディープイメージハスアルゴリズムであるRV-SSDHを提案します。具体的には、ランダムなVLAD層を潜在的なハッシュ層と変換層を介して結合することにより、新しいニューラルネットワークコンポーネントが形成されます。このコンポーネントを畳み込み層と組み合わせて、ハッシュアルゴリズムを実現できます。 RV-SSDHは、分類エラーと量子化損失を最小限に抑えることで効率的にトレーニングできるポイントワイズアルゴリズムとして実装されます。包括的な実験により、この新しいアーキテクチャはNetVLADやSSDHなどのベースラインを大幅に上回り、最先端のコスト効率の高いトレードオフを実現しています。さらに、提案されたランダムVLAD層は、複雑さの低い満足できる精度をもたらします。したがって、NetVLADの代替として有望な可能性を示しています。

VGAI: A Vision-Based Decentralized Controller Learning Framework for Robot Swarms

VGAI:ロボット群のためのビジョンベースの分散コントローラ学習フレームワーク

著者:Ting-Kuei Hu, Fernando Gama, Zhangyang Wang, Alejandro Ribeiro, Brian M. Sadler
URL:http://arxiv.org/abs/2002.02308v1

この論文の概要(機械翻訳による和訳)
分散コントローラ学習の人気にもかかわらず、生の視覚的観察を使用して大きなロボットの群れを制御する学習に関して成功した例はほとんどありません。このギャップを埋めるために、Vision-basedGraph Aggregation and Inference(VGAI)を提示します。これは、隣接するエージェント間での疎なローカルコミュニケーションによって支援される、生の視覚的観測をエージェントアクションに直接マッピングする分散型学習制御フレームワークです。私たちのフレームワークは、エージェントレベルの視覚認識と機能学習、およびスウォームレベルのローカル情報の集約とエージェントアクションの推論にそれぞれ対処する、革新的な畳み込みニューラルネットワーク(CNN)と1つのグラフニューラルネットワーク(GNN)によって実装されます。ドローンフロッキングのアプリケーション例を使用して、VGAIが他の分散型コントローラー、さらにはグローバル情報から学習する集中型コントローラーと同等またはそれ以上のパフォーマンスをもたらすことを示します。特に、視覚とローカルコミュニケーションの統合のおかげで、大きな群れ(たとえば、50人のエージェント)に対して学習する実質的なスケーラビリティを示しています。

Person Re-identification by Contour Sketch under Moderate Clothing Change

適度な衣服の変更の下での輪郭スケッチによる人物の再識別

著者:Qize Yang, Ancong Wu, Wei-Shi Zheng
URL:http://arxiv.org/abs/2002.02295v1

この論文の概要(機械翻訳による和訳)
異なるカメラビューで歩行者の画像を照合するプロセスである人物の再識別(re-id)は、視覚監視の重要なタスクです。re-idの実質的な開発が最近観察されており、既存のモデルの大部分は色の外観に大きく依存しています。そして、歩行者はカメラのビューを越えて服を着替えないと仮定します。ただし、この制限は、さまざまな場所にいる人物(犯罪容疑者など)が自分の衣服を変更し、多くの既存の方法が失敗する原因となっている場合に、その人物を追跡する際のre-idの問題になる可能性があります色の外観、したがって、彼らは似たような服を着ている別の人に人を一致させる傾向があります。この作品では、下着を着替える人を「クロスクロス人着替え」と呼びます。特に、可視光画像に基づいてこの問題を解決する最初の試みとして、人が衣服を適度に交換するだけの場合を検討します。つまり、人は似たような厚さの服を着ていると仮定します。したがって、天候が短期間に実質的に変化しない場合、人の形はあまり変化しません。衣服の変化に強いロバストな特徴を抽出するために、色情報の代わりに人体の形状を利用するために、人物画像の輪郭スケッチに基づいて、クロスクロスの人物のリイドを実行します。クロス服装の個人re-idの大規模なデータセットがないため、221個のIDからの33698個の画像で構成される新しいデータセットを提供します。私たちの実験は、クロス服装の人のre-idの課題を示し、提案された方法の有効性を示しています。

Looking GLAMORous: Vehicle Re-Id in Heterogeneous Cameras Networks with Global and Local Attention

魅力的な見方:グローバルおよびローカルの注意を払った異種カメラネットワークにおける車両Re-Id

著者:Abhijit Suprem, Calton Pu
URL:http://arxiv.org/abs/2002.02256v1

この論文の概要(機械翻訳による和訳)
車両の再識別(re-id)は、現代の監視カメラネットワークの基本的な問題です。車両のIDの既存のアプローチでは、複数のサブネットワークと損失を組み合わせることにより、グローバルな機能とローカルな機能を利用します。この論文では、GLAMOR、またはRe-idのグローバルおよびローカルAttentionMOdulesを提案します。 GLAMORは、統一されたモデルでグローバルおよびローカルの特徴抽出を同時に実行して、さまざまな敵対的条件およびデータセット(VeRi-776、VRIC、およびVeRiのmAPs80.34、76.48、77.15)全体で最新のパフォーマンスの車載re-idを実現します-それぞれ、ワイルド)。 GLAMORにはいくつかの貢献があります:最近のアプローチより優れたバックボーン構築方法、re-idの競合する損失ターゲットに対処するためのグループおよびレイヤーの正規化、globalfeature抽出のための新しいグローバルアテンションモジュール、self-guidedpartベースのローカル特徴抽出のための新しいローカルアテンションモジュールさらに、GLAMORはコンパクトで高速なモデルであり、パフォーマンスが25%向上する一方で、10倍小さくなります。

Unsupervised Bidirectional Cross-Modality Adaptation via Deeply Synergistic Image and Feature Alignment for Medical Image Segmentation

医用画像セグメンテーションのための深く相乗的な画像と特徴の位置合わせによる教師なし双方向クロスモダリティ適応

著者:Cheng Chen, Qi Dou, Hao Chen, Jing Qin, Pheng Ann Heng
URL:http://arxiv.org/abs/2002.02255v1

この論文の概要(機械翻訳による和訳)
教師なしドメイン適応は、医療画像コンピューティングにますます関心を集めており、不均一な特性を持つ目に見えないデータに展開されるときに、ディープニューラルネットワークのパフォーマンス低下に対処することを目指しています。 (SIFA)、ラベル付けされていないターゲットドメインにセグメンテーションネットワークを効果的に適合させるため。提案されたSIFAは、画像と機能の両方の観点からドメインの相乗的調整を行います。特に、複数の側面で敵対的学習を活用し、深く監督されたメカニズムで、ドメイン全体で画像の外観を同時に変換し、抽出された特徴のドメイン不変性を強化します。機能エンコーダーは、両方の適応型パースペクティブ間で共有され、エンドツーエンドの学習を通じて相互の利点を活用します。 MRIとCT画像間の双方向のクロスモダリティ適応のために、心臓下部構造セグメンテーションと腹部多臓器セグメンテーションを使用して、本方法を広範囲に評価しました。 2つの異なるタスクの実験結果は、SIFAメソッドがラベルのないターゲットイメージのセグメンテーションパフォーマンスの改善に効果的であり、最先端のドメイン適応アプローチよりも大幅に優れていることを示しています。

From Data to Actions in Intelligent Transportation Systems: a Prescription of Functional Requirements for Model Actionability

インテリジェント交通システムのデータからアクションまで:モデルのアクション可能性の機能要件の規定

著者:Ibai Lana, Javier J. Sanchez-Medina, Eleni I. Vlahogianni, Javier Del Ser
URL:http://arxiv.org/abs/2002.02210v1

この論文の概要(機械翻訳による和訳)
最近、データサイエンスの進歩がTransportationScienceおよびEngineeringのすべての分野に浸透しており、輸送部門の開発はデータ駆動型であると想像するのは簡単です。今日、IntelligentTransportation Systems(ITS)は、大量のデータを集中的に生成および消費する「ストーリー」としてほぼ間違いなくアプローチできるでしょう。インフラストラクチャ、車両、または旅行者の個人用デバイスに密に広がる多様なセンシングデバイスは、最終的に自動デバイス、アクチュエーター、または制御システムで実行されるソフトウェアに供給されるデータフローのソースとして機能し、ユーザー、トラフィックマネージャー、データ間の複雑な情報フローを生成しますこれらの情報フローは、モデル開発と意思決定を改善する大きな機会を提供します。本研究の目的は、さまざまなITSソースからのデータを使用して、ITS資産、システム、およびプロセスを効率的に運用するためのデータ駆動型モデルを学習および適応する方法を説明することです。言い換えれば、データベースのモデルが完全に実行可能になります。このITSのデータモデリングパイプラインに基づいて、データ融合、適応学習、モデル評価という3つの複合化段階に固有の特性、工学的要件、課題を定義します。私たちの論文の中核は、ほとんどの学習者が大部分のITSアプリケーションの根底にある絶え間なく変化する現象に適応しなければならないという確固たる信念があるからです。最後に、データベースのITSモデリングに顕著な進歩をもたらすことができる、データサイエンスレルム内の現在の研究ラインの展望を提供します。

RGB-based Semantic Segmentation Using Self-Supervised Depth Pre-Training

自己教師付き深度事前トレーニングを使用したRGBベースのセマンティックセグメンテーション

著者:Jean Lahoud, Bernard Ghanem
URL:http://arxiv.org/abs/2002.02200v1

この論文の概要(機械翻訳による和訳)
ImageNetなどのよく知られた大規模なデータセットは画像の理解を促進しましたが、これらのデータセットのほとんどは広範な手動注釈を必要とするため、容易に拡張できません。これにより、画像理解技術の進歩が制限されます。これらの大規模なデータセットの影響は、初期化のための事前トレーニングの形で、ほぼすべてのビジョンタスクとテクニックで観察できます。この作業では、任意のセマンティックRGBセグメンテーション手法を事前にトレーニングするために使用できる、簡単にスケーラブルで自己監視型の手法を提案します。特に、トレーニング前のアプローチでは、深度センサーを使用して取得できる自動生成ラベルを使用します。 HNラベルで示されるこれらのラベルは、異なる高さと通常のパッチを表し、セマンティックRGBセグメンテーションのタスクに役立つローカルセマンティック情報のマイニングを可能にします。提案されたHNラベルを使用した自己教師付き事前トレーニングを使用してImageNet事前トレーニングを置き換える方法を示します。 HNラベルを使用して、セマンティックセグメンテーションネットワークを事前にトレーニングします。これは、関連性の低いタスク、たとえば、 ImageNetによる分類。 2つのデータセット(NYUv2とCamVid)で評価し、タスクの類似性が事前トレーニングプロセスを高速化するだけでなく、ImageNet事前トレーニングよりも優れた最終セマンティックセグメンテーション精度を達成するのに有利であることを示します

Joint Deep Learning of Facial Expression Synthesis and Recognition

表情の合成と認識の深層学習

著者:Yan Yan, Ying Huang, Si Chen, Chunhua Shen, Hanzi Wang
URL:http://arxiv.org/abs/2002.02194v1

この論文の概要(機械翻訳による和訳)
最近、ディープラーニングベースの表情認識(FER)メソッドはかなりの注目を集めており、通常、大規模なラベル付きトレーニングデータが必要です。それにもかかわらず、一般に利用可能な表情データベースには、通常、少量のラベル付きデータが含まれています。本論文では、上記の問題を克服するために、効果的なFERのための表情合成と認識方法の新しい共同深層学習を提案した。具体的には、提案手法には2段階の学習手順が含まれます。最初に、表情合成生成的敵対ネットワーク(FESGAN)を事前にトレーニングして、異なる表情の顔画像を生成します。トレーニング画像の多様性を高めるために、FESGANは以前の分布から新しいIDを持つ画像を生成するように精巧に設計されています。第二に、表現認識ネットワークは、統一されたフレームワークで事前にトレーニングされたFESGANと共同で学習されます。特に、認識ネットワークから計算された分類損失は、認識ネットワークとFESGANのジェネレータの両方のパフォーマンスを同時に最適化するために使用されます。さらに、実画像と合成画像との間のデータバイアスの問題を軽減するために、同じ実クラスの画像のクラス内変動を減らすために、新しい実データガイドバック伝搬(RDBP)アルゴリズムを使用したクラス内損失を提案します。 、最終的なパフォーマンスを大幅に改善できます。公共の表情データベースに関する広範な実験結果は、いくつかの最先端のFER方法と比較した提案方法の優位性を示しています。

Pose-Aware Instance Segmentation Framework from Cone Beam CT Images for Tooth Segmentation

歯のセグメンテーションのためのコーンビームCT画像からのポーズ認識インスタンスセグメンテーションフレームワーク

著者:Minyoung Chung, Minkyung Lee, Jioh Hong, Sanguk Park, Jusang Lee, Jingyu Lee, Jeongjin Lee, Yeong-Gil Shin
URL:http://arxiv.org/abs/2002.02143v1

この論文の概要(機械翻訳による和訳)
コーンビームコンピューター断層撮影(CBCT)画像からの個々の歯のセグメンテーションは、歯の再形成計画やインプラントガイドシミュレーションなど、いくつかのアプリケーションでの歯列矯正構造の解剖学的理解に不可欠な前提条件です。ただし、CBCT画像に深刻な金属アーチファクトが存在すると、個々の歯の正確なセグメンテーションが妨げられます。本研究では、金属アーチファクトにロバストなインスタンスセグメンテーションフレームワークを活用するためのピクセル単位のラベリングのためのニューラルネットワークを提案します。 、および3)セグメンテーション:最初に回帰神経ネットワークをポーズして患者のアライメント情報を抽出し、関心ボリューム(VOI)領域を取得し、入力画像を再調整します。これにより、歯の境界ボックス間の重複領域が削減されます。次に、畳み込み検出器を使用して、個々の歯の領域をVOI再調整画像内にローカライズします。地域提案ネットワークで非最大抑制とマルチクラス分類メトリックを採用することにより、検出器の精度を改善しました。最後に、畳み込みニューラルネットワーク(CNN)を適用して、ピクセル単位のラベル付けタスクを距離回帰タスクに変換することにより、個々の歯のセグメンテーションを実行します。金属集約型の画像増強は、金属アーチファクトの堅牢なセグメンテーションにも採用されています。この結果は、提案された方法が、特に金属アーチファクトのある歯に対して、他の最先端の方法よりも優れていることを示しています。提案された方法の主な意義は2つあります。1)ポーズ認識VOI再調整の導入とそれに続く堅牢な歯の検出、2)正確な歯のセグメンテーションのための金属に堅牢なCNNフレームワーク。

Unbalanced GANs: Pre-training the Generator of Generative Adversarial Network using Variational Autoencoder

不均衡なGAN:変分オートエンコーダーを使用した生成的敵対ネットワークのジェネレーターの事前トレーニング

著者:Hyungrok Ham, Tae Joon Jun, Daeyoung Kim
URL:http://arxiv.org/abs/2002.02112v1

この論文の概要(機械翻訳による和訳)
変分オートエンコーダー(VAE)を使用して、生成的敵対ネットワーク(GAN)のジェネレーターを事前トレーニングする不均衡GANを提案します。初期エポックでの識別器のより速い収束を防ぐことにより、ジェネレータの安定したトレーニングを保証します。さらに、初期エポックでジェネレーターとディスクリミネーターのバランスを取り、GANの安定したトレーニングを維持します。 Unbalanced GANをよく知られているパブリックデータセットに適用すると、Unbalanced GANがモードの崩壊を減らすことがわかります。また、初期エポックでの学習の安定化、収束の高速化、画質の向上という点で、不均衡なGANが通常のGANよりも優れていることも示しています。

An Information-rich Sampling Technique over Spatio-Temporal CNN for Classification of Human Actions in Videos

ビデオにおける人間の行動の分類のための時空間CNN上の情報豊富なサンプリング技術

著者:S. H. Shabbeer Basha, Viswanath Pulabaigari, Snehasis Mukherjee
URL:http://arxiv.org/abs/2002.02100v1

この論文の概要(機械翻訳による和訳)
3次元畳み込みニューラルネットワーク(3D CNN)ベースの分類器を使用して、ビデオでの人間の行動認識のための新しいスキームを提案します。従来、深層学習ベースの人間活動認識アプローチでは、いくつかのランダムフレームまたは$ k ^ {th} $ごとにビデオのフレームは、3D CNNをトレーニングするために考慮されます。ここで、$ k $は4、5、または6などの小さな正の整数です。この種のサンプリングにより、入力データの量が減り、ネットワークの高速化とある程度の過剰適合が回避されるため、3D CNNモデルのパフォーマンスが向上します。提案されたビデオサンプリングテクニックでは、ビデオの連続した$ k $フレームは、$ k $フレームのガウス加重合計を計算することにより、単一のフレームに集約されます。結果のフレーム(集約フレーム)は、従来のアプローチよりも優れた方法で情報を保持し、パフォーマンスが向上することが実験的に示されています。このレターでは、3D CNNアーキテクチャを提案して時空間特徴を抽出し、Long Short-Term Memory(LSTM)に従って人の行動を認識します。提案されている3D CNNアーキテクチャは、カメラがパフォーマーから離れた場所にあるビデオを処理できます。実験はKTHおよびWEIZMANNの人間行動データセットを使用して実行されます。これにより、最先端の技術と同等の結果が得られることが示されています。

Forensic Scanner Identification Using Machine Learning

機械学習を使用したフォレンジックスキャナーの識別

著者:Ruiting Shao, Edward J. Delp
URL:http://arxiv.org/abs/2002.02079v1

この論文の概要(機械翻訳による和訳)
画像編集ツールの可用性と機能が増加しているため、デジタル画像認証、ソース識別、改ざん検出などの多くのフォレンジック手法がフォレンジック画像分析にとって重要です。 。提案されたシステムは、深層学習を使用して、さまざまなスキャン画像から本質的な特徴を自動的に学習します。私たちの実験結果は、ソーススキャナーの識別のために高い精度を達成できることを示しています。提案されたシステムは、スキャンされた画像内の操作された領域を示す信頼性マップも生成できます。

Driver Gaze Estimation in the Real World: Overcoming the Eyeglass Challenge

現実世界でのドライバーの視線推定:眼鏡の課題を克服する

著者:Akshay Rangesh, Bowen Zhang, Mohan M. Trivedi
URL:http://arxiv.org/abs/2002.02077v1

この論文の概要(機械翻訳による和訳)
ドライバーの視線は、ドライバーの注意レベル、状態、状況認識、および部分的および完全に自動化された車両から制御を引き継ぐ準備を決定するために重要です。頭と目(生徒)の両方を追跡することで、理想的な条件下で顔画像を使用してドライバーの視線の信頼できる推定を提供できます。ただし、車両環境では、過酷な照明、夜間条件、反射/暗い眼鏡など、通常は考慮されないさまざまな課題が発生します。残念なことに、そのような条件下で単独で頭に頼ることは、大きな眼球運動のために信頼できないことが判明する可能性があります。この調査では、現実の世界で遭遇するこれらの問題に対処するソリューションを提供します。照明の問題を解決するには、適切なイコライゼーションとノーマライゼーションを備えた赤外線カメラを使用するだけで十分であることを実証します。眼鏡とそれに対応するアーチファクトを処理するために、視線推定の前に画像を前処理する生成的敵対ネットワーク(GAN)を使用した画像から画像への変換のアイデアを採用します。このため、Gaze Preserving CycleGAN(GPCycleGAN)を提案します。名前が示すように、このネットワークはドライバーの視線を維持しながら、赤外線顔画像から潜在的な眼鏡を削除します。 GPCycleGANは、よく知られているCycleGANアプローチに基づいており、注視分類子と、追加の監視のための注視一貫性損失が追加されています。私たちのアプローチは、13人の被験者とさまざまな運転条件にまたがる困難な現実世界のデータに対するパフォーマンスと堅牢性の向上を示しています。

Residual-Recursion Autoencoder for Shape Illustration Images

形状図画像用の残差再帰オートエンコーダ

著者:Qianwei Zhou, Peng Tao, Xiaoxin Li, Shengyong Chen, Fan Zhang, Haigen Hu
URL:http://arxiv.org/abs/2002.02063v1

この論文の概要(機械翻訳による和訳)
形状イラスト画像(SII)は、工業製品の断面を記述する際に一般的かつ重要です。 MNISTと同様に、手書きの数字画像であるSIIはグレーまたはバイナリであり、空白の大きな領域に囲まれた形状を含んでいます。この作業では、Residual-Recursion Autoencoder(RRAE)が、可能な限り高い再構成精度を維持しながら、SIIから低次元の特徴を抽出することを提案しました。 RRAEは、元の画像を数回再構築し、次の再構築の試行の前に、エンコーダの入力の予約されたチャネルに最新の残差画像を再帰的に埋めようとします。一種のニューラルネットワークトレーニングフレームワークとして、RRAEは他のオートエンコーダーをラップオーバーし、パフォーマンスを向上させることができます。実験結果から、再構成損失は、高解像度SIIを備えた畳み込みオートエンコーダで86.47%、変分オートエンコーダで10.77%、MNISTを備えた条件付き変分オートエンコーダで8.06%減少します。

Rotation-invariant Mixed Graphical Model Network for 2D Hand Pose Estimation

2D手姿勢推定のための回転不変混合グラフィカルモデルネットワーク

著者:Deying Kong, Haoyu Ma, Yifei Chen, Xiaohui Xie
URL:http://arxiv.org/abs/2002.02033v1

この論文の概要(機械翻訳による和訳)
本稿では、単眼RGB画像からの2D手姿勢推定の問題を解決するために、回転不変混合グラフィックモデルネットワーク(R-MGMN)という名前の新しいアーキテクチャを提案します。回転ネットを統合することにより、R-MGMNは画像内の手の回転に対して不変です。また、グラフィカルモデルのプールがあり、そこからグラフィカルモデルの組み合わせを選択して、入力画像を調整できます。信念の伝播はグラフィカルモデルごとに個別に実行され、一連の周辺分布が生成されます。これは、手のキーポイント位置の信頼マップとして取得されます。最終的な信頼マップは、これらの信頼マップをまとめて取得します。 2つのパブリックハンドポーズデータセットでR-MGMNを評価します。実験結果は、2Dhandの姿勢推定に広く使用されている最先端のアルゴリズムよりも優れたマージンを備えたモデルの性能を示しています。

3DPIFCM Segmentation Algorithm for brain MRI

脳MRI用の3DPIFCMセグメンテーションアルゴリズム

著者:Arie Agranonik
URL:http://arxiv.org/abs/2002.01985v1

この論文の概要(機械翻訳による和訳)
ノイズのあるMRI脳画像の自動セグメンテーションのために、3DPIFCMという名前の新しいアルゴリズムを提示します。このアルゴリズムは、よく知られているIFCM(改善されたファジー平均クラスタリング)アルゴリズムの拡張です。ファジーセグメンテーションを実行し、ボクセルの近接性と3D画像の色強度の影響を受けるフィットネス関数を導入します。 3DPIFCMアルゴリズムは、フィットネス関数を最適化するためにPSO(ParticleSwarm Optimization)を使用します。さらに、3DPIFCMは、ノイズの多いアーティファクトをより適切に調整するために、ニアボクセルの3D機能を使用します。実験では、1%から20%の範囲のノイズレベルを持つT1 Brainwebデータセットと、3Dのグラウンドトゥルースを持つ合成データセットで3DPIFCMを評価します。セグメンテーション結果の分析により、2つの一般的なバリアントのノイズの多い画像と比較して最大28%、元のFCM(Fuzzy MeanClustering)と比較して最大60%のセグメンテーション品質の大幅な改善が示されています。 CPUバージョンではアルゴリズムの並列バージョンを使用して実験を行い、3DPIFCMalgorithmの対応する遺伝的アルゴリズムであるIFCMPSO(Particle Swarm Optimizationを使用したFuzzy MeanClusteringの改善)、GAIFCM(Genetic Algorithm FuzzyMean Clustering)も使用しました。私たちの目的は、同じハイパーパラメーターと同じサーバーを使用して、各アルゴリズムの生の実行速度を秒単位でテストすることでした。スピードアップの結果は、アルゴリズムの並列バージョンが元のシーケンシャルバージョンよりも最大27倍、GAIFCMアルゴリズムよりも68倍高速であることを示しています。 GPUのコアの利用率が向上するため、画像のサイズを大きくすると、並列バージョンの高速化が向上することがわかります。また、Brainwebの実験では、IFCMPSOやGAIFCMなどの他のジェネリックバリアントと比較して最大5倍の速度向上を示しています。

Parallel 3DPIFCM Algorithm for Noisy Brain MRI Images

ノイズの多い脳MRI画像用の並列3DPIFCMアルゴリズム

著者:Arie Agranonik, Maya Herman, Mark Last
URL:http://arxiv.org/abs/2002.01981v1

この論文の概要(機械翻訳による和訳)
このホワイトペーパーでは、[1]で開発した3DPIFCMと呼ばれるアルゴリズムを、GPU上でCUDAを使用して並列環境に実装しました。以前の研究では、ノイズの多い状態で画像のセグメンテーションを実行し、ノイズを考慮して最適なアルゴリズムパラメーターを見つけるために粒子群最適化を使用する3DPIFCMを導入しました。このアルゴリズムは、成人の脳のノイズの多いMRI画像のFCM(ファジーC-平均)、IFCMPSO(粒子群最適化による改善されたファジィC-平均)、GAIFCM(遺伝的アルゴリズム改善されたファジーC-平均)と比較した場合に、最先端のセグメンテーション精度を達成しました。最適化のために単一のマシンで遺伝的アルゴリズムまたはPSO(Particle Swarm Optimization)を使用する場合、実際の臨床使用のために実行時間が長くなるのを目撃しました。したがって、現在の論文では、アルゴリズムの一部を取り出してGPUでaskernelsを実行することにより、3DPIFCMの実行を高速化することが目標でした。アルゴリズムは、NVIDIAのCUDA [13]フレームワークを使用して実装され、6472 RAM、8コア、3072 SPコアと12GBのGPUメモリを搭載したTITAN X GPUを搭載したサーバーで実行されました。この結果は、アルゴリズムの並列バージョンが元のシーケンシャルバージョンよりも最大27倍、GAIFCMalgorithmよりも68倍高速であることを示しています。 GPUでのコアの利用率が向上するため、画像のサイズが大きくなると、パラレルバージョンの高速化が向上することを示しています。また、IFCMPSOやGAIFCMなどの他の汎用バリアントと比較して、Brainwebの実験では最大5倍の高速化を示しています。

Brain Tumor Segmentation by Cascaded Deep Neural Networks Using Multiple Image Scales

複数の画像スケールを使用したカスケード式ディープニューラルネットワークによる脳腫瘍のセグメンテーション

著者:Zahra Sobhaninia, Safiyeh Rezaei, Nader Karimi, Ali Emami, Shadrokh Samavi
URL:http://arxiv.org/abs/2002.01975v1

この論文の概要(機械翻訳による和訳)
頭蓋内腫瘍は、通常制御不能に成長する細胞のグループです。 4つの癌死のうち1つは脳腫瘍によるものです。脳腫瘍の早期発見と評価は、磁気共鳴画像法(MRI)によって実行される必須の予防医療ステップです。この目的のために、多くのセグメンテーション手法が存在します。低いセグメンテーション精度は、既存の方法の主な欠点です。この論文では、ディープラーニング法を使用して、MR画像の腫瘍セグメンテーションの精度を高めます。カスケードアプローチは、複数のスケールの画像で使用され、ローカルビューとグローバルビューの両方を誘導し、ネットワークがより高い精度に到達できるようにします。私たちの実験結果は、複数のスケールを使用し、2つのカスケードネットワークを利用することが有利であることを示しています。

Vehicle Ego-Lane Estimation with Sensor Failure Modeling

センサー故障モデリングによる車両自車線推定

著者:Augusto Luis Ballardini, Daniele Cattaneo, Rubén Izquierdo, Ignacio Parra Alonso, Andrea Piazzoni, Miguel Ángel Sotelo, Domenico Giorgio Sorrenti
URL:http://arxiv.org/abs/2002.01913v2

この論文の概要(機械翻訳による和訳)
高速道路のようなシナリオのための確率的エゴレーン推定アルゴリズムを提示します。これは、エゴレーン推定の精度を高めるように設計されており、ノイズの多いライン検出器とトラッカーのみに依存して取得できます。寄与は、非定常マルコフモデル(HMM)と一時的な故障モデルに依存しています。提案されたアルゴリズムは、OpenStreetMap(または他のcartographicservices)道路特性の車線番号を利用し、予想される車線の数として、連続した、おそらく不完全な観測値を活用します。アルゴリズムの有効性は、さまざまなライン検出器を使用し、イタリアとスペインの両方で記録された100 Kmを超える高速道路シナリオで、はるかに使いやすく安定した信頼性の高い自車線推定を達成できることを示しています。他のアプローチとの定量的比較のためのデータセット、データセットを収集し、車両のエゴレーンについてGroundTruthに手動で注釈を付けました。このようなデータセットは、科学コミュニティから公開されて利用可能になっています。

Analyzing the Dependency of ConvNets on Spatial Information

空間情報に対するConvNetの依存関係の分析

著者:Yue Fan, Yongqin Xian, Max Maria Losch, Bernt Schiele
URL:http://arxiv.org/abs/2002.01827v1

この論文の概要(機械翻訳による和訳)
直感的に、画像分類は空間情報を使用することで利益を得るはずです。ただし、最近の研究では、これが標準CNNで過大評価されている可能性があることが示唆されています。このホワイトペーパーでは、エンベロープを推進し、空間情報への依存をさらに調査することを目指しています。トレーニングフェーズとテストフェーズの両方で空間情報を破壊するために、空間シャッフリングとGAP + FCを提案します。おもしろいことに、パフォーマンスの低下を抑えて空間情報を後のレイヤーから削除できることがわかります。これは、パフォーマンスを向上させるために後のレイヤーの空間情報が不要であることを示しています。たとえば、VGG-16のテスト精度は0.03%と2.66%しか低下せず、CIFAR100の最後の30%レイヤーと53%レイヤーから空間情報が完全に削除されています。幅広いCNNアーキテクチャ(VGG16、ResNet50、ResNet152)は、全体的に一貫したパターンを示しています。

Proximity Preserving Binary Code using Signed Graph-Cut

署名付きグラフカットを使用した近接保存バイナリコード

著者:Inbal Lav, Shai Avidan, Yoram Singer, Yacov Hel-Or
URL:http://arxiv.org/abs/2002.01793v1

この論文の概要(機械翻訳による和訳)
データポイント間の類似性と非類似性を学習してコンパクトで親和性を保持するバイナリコードを作成する、プロキシミティ保存コード(PPC)と呼ばれるバイナリ埋め込みフレームワークを紹介します。このコードを使用して、最近傍検索に高速でメモリ効率の高い近似を適用できます。当社のフレームワークは柔軟性があり、データポイント間で異なる近接性定義を可能にします。符号なしグラフ分割に基づいてバイナリコードを抽出する以前の方法とは対照的に、システムは、正および負のグラフの重みを組み込むことにより、データの魅力的および反発力をモデル化します。提案されたフレームワークは、NP困難であることが知られている問題である署名付きグラフの最小カットを見つけることまで要約されることが示されています。コードを少しずつ構築することにより、効率的な近似を提供し、優れた結果を達成します。提案された近似は、精度と複雑さの両方に関して、一般的に使用されるスペクトル法よりも優れていることを示しています。したがって、署名付きグラフカットに変換できる他の多くの問題に役立ちます。

Human Posture Recognition and Gesture Imitation with a Humanoid Robot

ヒューマノイドロボットによる人間の姿勢認識とジェスチャ模倣

著者:Amir Aly
URL:http://arxiv.org/abs/2002.01779v1

この論文の概要(機械翻訳による和訳)
自閉症は、社会的相互作用とコミュニケーションの障害、および制限された反復行動を特徴とする、非常に可変性の神経発達障害です。この神経発達障害に関する問題点は、これまで知られていなかった原因であり、したがって医学的に治療することはできません。最近、ロボットは自閉症児の社会的行動の発達に関与しており、自閉症児は仲間とよりもロボットとより良い相互作用を示しました。自閉症の文献に広く記述されている顕著な社会的障害の1つは、他の人を模倣することの不足である。セラピストはジェスチャの実行を開始し、ロボットがそれを模倣し、子供は同じことを試みます。これらのゲームが自閉症の子供に日常社会生活でこれらの新しいジェスチャを繰り返すことを促すことを望みます。

Feature-map-level Online Adversarial Knowledge Distillation

機能マップレベルのオンライン敵対的知識蒸留

著者:Inseop Chung, SeongUk Park, Jangho Kim, Nojun Kwak
URL:http://arxiv.org/abs/2002.01775v1

この論文の概要(機械翻訳による和訳)
機能マップには、画像の強度と空間相関に関する豊富な情報が含まれています。ただし、以前のオンライン知識の蒸留方法は、クラスの確率のみを利用していました。したがって、本論文では、対人訓練フレームワークを使用して、クラス確率の知識だけでなく、特徴マップの知識も転送するオンライン知識蒸留法を提案します。識別器を使用して異なるネットワークの機能マップ分布を区別することにより、複数のネットワークを同時にトレーニングします。各ネットワークには、対応する識別器があり、機能マップをそれ自体から偽物として識別し、他方のネットワークのそれを実物として分類します。ネットワークを訓練して、対応する識別器をだますことにより、他のネットワークの機能マップ分布を学習できます。我々の方法は、L1などの従来の直接配列法よりも優れた性能を発揮し、オンライン蒸留に適していることを示しています。また、3つ以上のネットワークを一緒にトレーニングするための新しい循環学習方式を提案します。分類タスクのさまざまなネットワークアーキテクチャにメソッドを適用し、特に小規模ネットワークと大規模ネットワークのペアをトレーニングする場合に、パフォーマンスの大幅な改善を発見しました。

Geocoding of trees from street addresses and street-level images

番地と街路レベルの画像からの樹木のジオコーディング

著者:Daniel Laumer, Nico Lang, Natalie van Doorn, Oisin Mac Aodha, Pietro Perona, Jan Dirk Wegner
URL:http://arxiv.org/abs/2002.01708v1

この論文の概要(機械翻訳による和訳)
ストリートレベルのパノラマ画像とツリーインスタンスマッチングのグローバル最適化フレームワークを使用して、地理座標で古いツリーインベントリを更新する方法を紹介します。新しい在庫がGPSを使用するのに対して、番地を使用して記録された2000年代初期までの在庫のツリーのジオロケーション。私たちの方法は、古い在庫を地理座標でレトロフィットし、新しい在庫と接続して、樹木の死亡率などの長期的な研究を促進します。この問題を困難にしているのは、住所ごとの異なる木数、画像内の異なる木のインスタンスの不均一な外観、あいまいな木です複数の画像とオクルージョンから見た場合の位置。この割り当て問題を解決するために、(i)ディープラーニングを使用してGoogleストリートビューパノラマでツリーを検出し、(ii)ツリーごとのマルチビュー検出を単一の表現に結合し、(iii)ストリートアドレスごとに指定されたツリーと一致する検出されたツリーをグローバル最適化アプローチ。米国カリフォルニア州の5都市で50000を超えるツリーの実験により、地理的座標を街路樹の38%に割り当てることができることが示されました。これは、大規模な街路樹の生態系サービスの価値に関する長期的な研究の出発点として適しています。

Entropy Minimization vs. Diversity Maximization for Domain Adaptation

ドメイン適応のためのエントロピー最小化と多様性最大化

著者:Xiaofu Wu, Suofei hang, Quan Zhou, Zhen Yang, Chunming Zhao, Longin Jan Latecki
URL:http://arxiv.org/abs/2002.01690v1

この論文の概要(機械翻訳による和訳)
エントロピー最小化は、教師なしドメイン適応(UDA)で広く使用されています。しかし、既存の研究では、エントロピーの最小化は単純なソリューションの崩壊につながる可能性があることを明らかにしています。この論文では、多様性の最大化をさらに導入することにより、些細な解決策を避けることを提案します。 UDAの可能な最小ターゲットリスクを達成するために、多様性の最大化はエントロピー最小化と精巧にバランスが取れている必要があることを示します。提案された最小エントロピーダイバーシティ最大化(MEDM)は、敵対的学習を使用せずに確率的勾配降下法によって直接実装できます。経験的証拠は、MEDMが4つの一般的なドメイン適応データセットで最先端の方法よりも優れていることを示しています。

CHAIN: Concept-harmonized Hierarchical Inference Interpretation of Deep Convolutional Neural Networks

チェーン:ディープ畳み込みニューラルネットワークの概念調和階層推論解釈

著者:Dan Wang, Xinrui Cui, Z. Jane Wang
URL:http://arxiv.org/abs/2002.01660v1

この論文の概要(機械翻訳による和訳)
ネットワークの大成功により、内部ネットワークメカニズムの解釈、特にネット意思決定ロジックの解釈に対する需要が高まっています。この課題に取り組むために、Concept-harmonizedHierArchical INference(CHAIN)を提案して、最終的な意思決定プロセスを解釈します。解釈されるネット決定に対して、提案された方法は、高い意味レベルから低い意味レベルまで視覚的概念へとネット決定を階層的に推定できるチェーン解釈を提示します。それを達成するために、3つのモデル、つまり概念調和モデル、階層的推論モデル、および概念調和階層的推論モデルを順番に提案します。第一に、概念調和モデルでは、高から低のセマンティックレベルの視覚的概念が、深層から浅層までのネットユニットに合わせられます。次に、階層推論モデルでは、深層の概念が浅層のユニットに分解されます。最後に、概念調和階層推論モデルでは、浅い層の概念から深い層の概念が推測されます。数回のラウンドの後、概念が調和した階層的推論が、最高の意味レベルから最低の意味レベルまで逆方向に行われます。最後に、純意思決定は、人間の意思決定に匹敵する概念調和階層推論の形式として説明されます。一方、特徴学習のためのネット層構造は、階層的な視覚概念に基づいて説明できます。定量的および定性的実験では、インスタンスおよびクラスレベルでのチェーンの有効性を実証します。

Concept Whitening for Interpretable Image Recognition

解釈可能な画像認識のためのコンセプトホワイトニング

著者:Zhi Chen, Yijie Bei, Cynthia Rudin
URL:http://arxiv.org/abs/2002.01650v1

この論文の概要(機械翻訳による和訳)
ニューラルネットワークは、レイヤーを横断するときにコンセプトについて何をエンコードしますか?機械学習の解釈可能性は間違いなく重要ですが、ニューラルネットワークの計算を理解するのは非常に困難です。隠されたレイヤーの内側を見る試みは、誤解を招く、使用できない、または潜在的なスペースに依存して、所有していない可能性のあるプロパティを所有する可能性があります。この作業では、ニューラルネットワークを事後的に分析するのではなく、コンセプトホワイトニング(CW)と呼ばれるメカニズムを導入して、ネットワークの特定のレイヤーを変更し、そのレイヤーに至るまでの計算をよりよく理解できるようにします。コンセプトホワイトニングモジュールがCNNに追加されると、潜在空間の軸を目的のコンセプトに合わせることができます。実験により、CWを使用すると、予測パフォーマンスを損なうことなく、ネットワークがレイヤー上で概念を徐々に学習する方法をより明確に理解できることがわかります。

Solving Raven’s Progressive Matrices with Neural Networks

ニューラルネットワークを使用したRavenのプログレッシブ行列の解決

著者:Tao Zhuo, Mohan Kankanhalli
URL:http://arxiv.org/abs/2002.01646v2

この論文の概要(機械翻訳による和訳)
レイヴンのプログレッシブ行列(RPM)は、人間のIntelligenceQuotient(IQ)テストに広く使用されています。このペーパーでは、教師ありと教師なしの両方の方法でニューラルネットワークを使用してRPMを解決することを目指しています。まず、教師あり学習の過剰適合を減らすための戦略を調査します。モデルの一般化を改善するために、大規模なデータセットでディープレイヤーと事前トレーニングを行うニューラルネットワークの使用をお勧めします。 RAVENデータセットの実験では、教師ありアプローチの全体的な精度が人間レベルのパフォーマンスを上回っていることを示しています。 RPMの問題の場合。擬似ターゲットの設計に基づいて、MCPTは教師なし学習問題を教師付きタスクに変換します。実験は、MCPTがランダムな推測のテスト精度を2倍にすることを示しています。 28.50%対12.5%。最後に、今後、監視なしで説明可能な戦略でRPMを解決する問題について説明します。

Enhancing Feature Invariance with Learned Image Transformations for Image Retrieval

画像検索のための学習画像変換による特徴不変性の強化

著者:Osman Tursun, Simon Denman, Sridha Sridharan, Clinton Fookes
URL:http://arxiv.org/abs/2002.01642v1

この論文の概要(機械翻訳による和訳)
既製の畳み込みニューラルネットワーク機能は、多くの画像検索タスクで最先端の結果を達成します。ただし、それらの不変性はネットワークアーキテクチャとトレーニングデータによって事前に定義されています。この作業では、変換された画像から集約された機能を使用して、ネットワークを微調整したり変更したりすることなく、既製の機能の不変性を高めることを提案します。効果的な方法で強化学習を通じて有益な画像変換のアンサンブルを学習します。実験結果は、学習された変換のアンサンブルが効果的で譲渡可能であることを示しています。

Illumination adaptive person reid based on teacher-student model and adversarial training

教師-学生モデルと敵対的訓練に基づく照明適応型個人リード

著者:Ziyue Zhang, Richard YD Xu, Shuai Jiang, Yang Li, Congzhentao Huang, Chen Deng
URL:http://arxiv.org/abs/2002.01625v1

この論文の概要(機械翻訳による和訳)
人物の再識別(ReID)の既存の作品のほとんどは、照明が同じに保たれるか、変動がほとんどない設定に焦点を当てていますが、照明の程度の変化は、ReIDアルゴリズムの堅牢性に大きく影響する可能性があります。この問題に対処するために、ReIDのパフォーマンスを向上させるために、ReID機能を照明機能から分離できるTwo-StreamNetworkを提案しました。その革新は3つあります。(1)識別エントロピー損失を使用して、ReID機能に照明情報が含まれないようにします。 (2)ReID教師モデルは、ReID分類をガイドするために、「ニュートラル」照明条件の下で画像によってトレーニングされます。 (3)照明教師モデルは、照明の分類を導くために、照明調整画像と元の画像の違いによってトレーニングされます。最も人気のある2つのReIDベンチマークであるMarket1501とDukeMTMC-reIDで定義済みの照明条件のセットを総合的に変更することにより、2つの拡張データセットを構築します。実験は、私たちのアルゴリズムが他の最先端の作品よりも優れており、極端に暗い場所での画像の処理に特に有効であることを示しています。

Monocular 3D Object Detection with Decoupled Structured Polygon Estimation and Height-Guided Depth Estimation

分離構造化ポリゴン推定と高さ誘導深度推定による単眼3Dオブジェクト検出

著者:Yingjie Cai, Buyu Li, Zeyu Jiao, Hongsheng Li, Xingyu Zeng, Xiaogang Wang
URL:http://arxiv.org/abs/2002.01619v1

この論文の概要(機械翻訳による和訳)
単眼3Dオブジェクト検出タスクは、単眼RGB画像に基づいてオブジェクトの3Dバウンディングボックスを予測することを目的としています。 3D空間での位置の回復は深度情報がないため非常に難しいため、このペーパーでは、検出問題を構造化ポリゴン予測タスクと深度回復タスクに分解する新しい統合フレームワークを提案します。広く研究されている2Dバウンディングボックスとは異なり、提案されている2D画像の新しい構造化ポリゴンは、ターゲットオブジェクトの複数の投影面で構成されています。予測された2D構造化ポリゴンを3D物理世界の直方体に逆投影するために、次の深度回復タスクは、特定のカメラ投影行列で逆投影変換を完了する前にオブジェクトの高さを使用します。 3D検出結果をさらに修正することを提案しました。挑戦的なKITTIベンチマークで実験が行われ、この手法では最先端の検出精度が達成されます。

Crowdsourcing the Perception of Machine Teaching

機械教育の認識をクラウドソーシングする

著者:Jonggi Hong, Kyungjun Lee, June Xu, Hernisa Kacorri
URL:http://arxiv.org/abs/2002.01618v1

この論文の概要(機械翻訳による和訳)
教示可能なインターフェースは、適切なトレーニング例を明示的に提供することにより、エンドユーザーが機械学習システムをその特異な特性と環境に調整できるようにします。制御を促進する一方で、それらの有効性は、専門知識の欠如や誤解によって妨げられる可能性があります。 Amazon Mechanical Turkでモバイルティーチャブルテストベッドを展開することにより、ユーザーが機械学習の概念を考え、経験し、反映する方法を調査します。環境でいくつかのスナップショットを撮影して、堅牢な認識モデルをリアルタイムでトレーニングします。参加者は、サイズ、視点、場所、照明に関係なく人間が物体を認識する方法に似ていることから、例に多様性を組み込んでいることがわかります。誤解の多くは、推論の一貫性とモデル能力に関連しています。テストのバリエーションとエッジケースが限られているため、それらの大半は2回目のトレーニング試行で戦略を変更しません。

Generating Interpretable Poverty Maps using Object Detection in Satellite Images

衛星画像でのオブジェクト検出を使用した解釈可能な貧困マップの生成

著者:Kumar Ayush, Burak Uzkent, Marshall Burke, David Lobell, Stefano Ermon
URL:http://arxiv.org/abs/2002.01612v1

この論文の概要(機械翻訳による和訳)
正確な地方レベルの貧困測定は、政府および人道主義組織が生活の改善に向けた進捗を追跡し、乏しい資源を分配するために不可欠なタスクです。衛星画像を使用して貧困を予測する際の最近のコンピュータービジョンの進歩により、精度が向上していることが示されていますが、政策立案者が解釈できる機能を生成せず、実践者による採用を禁止しています。ここでは、オブジェクト検出器を高解像度(30cm)の衛星画像に適用することにより、地域レベルで貧困を正確に予測するための解釈可能な計算フレームワークを示します。オブジェクトの重み付きカウントを機能として使用して、ウガンダの村レベルの貧困を予測する0.539ピアソンのr ^ 2を達成します。これは、既存の(および解釈不能な)ベンチマークより31%向上しています。機能の重要性とアブレーション分析により、オブジェクト数と貧困予測の間の直感的な関係が明らかになりました。少なくともこの重要な領域では、解釈可能性がパフォーマンスを犠牲にする必要はないことが示唆されました。

Accelerating Object Detection by Erasing Background Activations

バックグラウンドアクティベーションの消去によるオブジェクト検出の高速化

著者:Byungseok Roh, Han-Cheol Cho, Myung-Ho Ju, Soon Hyung Pyo
URL:http://arxiv.org/abs/2002.01609v1

この論文の概要(機械翻訳による和訳)
ディープラーニングの最近の進歩により、複数のビジョンタスクで構成される複雑な実世界のユースケースが可能になり、ワークロード全体の前処理ステップとして検出タスクがエッジ側にシフトされています。しかし、リソースに制約のあるデバイスで深いモデルを実行することは難しいため、効率的なネットワークの設計が求められています。本論文では、対象物が存在しない背景領域の特徴マップ計算を回避することにより、検出速度を加速するための対象物認識対象物検出方法を提示する。この目標を達成するために、オブジェクト検出(OD)ネットワークの前に軽量オブジェクトネスマスク生成(OMG)ネットワークを組み込み、ODネットワークに入力される前に入力画像の背景領域をゼロにすることができます。したがって、推論速度はまばらな畳み込みで促進できます。アクティベーション全体でバックグラウンド領域をゼロに切り替えることで、ReLUアクティベーションを使用したMobileNetV2-SSDLiteのゼロ値の平均数がさらに増加し​​、推論ステップ中に36%から68%になります。さらに、実験結果では、ResNet101を使用したVGGやRetinaNet、および追加のデータセットであるPASCAL VOCなどの重いネットワークでも同様の傾向が示されています。コードがリリースされます。

Anomaly Detection by Latent Regularized Dual Adversarial Networks

潜在的な正則化二重敵対ネットワークによる異常検出

著者:Chengwei Chen, Pan Chen, Haichuan Song, Yiqing Tao, Yuan Xie, Shouhong Ding, Lizhuang Ma
URL:http://arxiv.org/abs/2002.01607v1

この論文の概要(機械翻訳による和訳)
異常検出は、多くの現実世界のアプリケーションを備えたコンピュータービジョン分野の基本的な問題です。何らかの分布から出現する、正常なクラスに属する広範囲の画像を考えると、このタスクの目的は、異常なインスタンスに属する分布外の画像を検出するようにモデルを構築することです。半教師付き生成敵対ネットワーク(GAN)ベースの方法は、最近異常検出タスクで人気を集めています。ただし、GANのトレーニングプロセスはまだ不安定で困難です。これらの問題を解決するために、トレーニングデータの基礎となる構造が潜在的な特徴空間でキャプチャされるだけでなく、判別可能な方法で潜在表現の空間でさらに制限され、より正確な検出器につながる、新しい敵対デュアルオートエンコーダネットワークが提案されます。さらに、識別器と見なされる補助オートエンコーダーは、より安定したトレーニングプロセスを取得できます。実験により、このモデルがGTSRB一時停止標識データセットだけでなく、MNISTおよびCIFAR10データセットで最先端の結果を達成していることがわかります。

Unsupervised Community Detection with a Potts Model Hamiltonian, an Efficient Algorithmic Solution, and Applications in Digital Pathology

ポッツモデルハミルトニアンによる教師なしコミュニティ検出、効率的なアルゴリズムソリューション、およびデジタル病理学への応用

著者:Brendon Lutnick, Wen Dong, Zohar Nussinov, Pinaki Sarder
URL:http://arxiv.org/abs/2002.01599v1

この論文の概要(機械翻訳による和訳)
ポッツモデルハミルトニアンを使用した大きな画像の教師なしセグメンテーションは、セグメンテーションが小さなクラスターに対する感度をスケーリングする解像度パラメーターによって支配されるという点でユニークです。ここでは、入力画像はまずグラフとしてモデル化され、グラフと各セグメントで定義されたハミルトニアンコスト関数を最小化することによってセグメント化されます。ただし、この最適化の閉じた形式の解決策は存在せず、以前の反復アルゴリズムの解決手法を使用すると、問題はInputLengthで二次的にスケーリングします。したがって、ポッツモデルのセグメンテーションは正確なセグメンテーションを提供しますが、教師なし学習手法としては十分に活用されていません。それぞれの色の特徴に基づいた入力画像ピクセルの高速な統計的ダウンサンプリングと、ピクセルとセグメントの関係を考慮したポッツモデルのエネルギーを最小化する新しい反復法を提案します。この方法は一般化可能で、画像ピクセルテクスチャ機能と空間機能に拡張できます。この新しい方法は非常に効率的であり、ポッツモデルベースの画像セグメンテーションの既存の方法よりも優れていることを実証します。医療顕微鏡画像のセグメンテーション;特に、腎病理学における腎糸球体微小環境のセグメンテーションにおける私たちの方法の応用を示しています。私たちの方法は、画像のセグメンテーションに限定されず、離散的な特徴を持つ任意のデータセットの任意の画像/データセグメンテーション/クラスタリングタスクに拡張できます。

Fine-Grained Urban Flow Inference

細粒度の都市フロー推論

著者:Kun Ouyang, Yuxuan Liang, Ye Liu, Zekun Tong, Sijie Ruan, Yu Zheng, David S. Rosenblum
URL:http://arxiv.org/abs/2002.02318v1

この論文の概要(機械翻訳による和訳)
都市の流れ監視システムにおける監視デバイスの遍在的な展開は、メンテナンスと運用に多大なコストをもたらします。展開されたデバイスの数を減らし、データの精度と粒度の劣化を防ぐための技術が必要です。この論文では、粗視化された観測に基づいて、acity全体のリアルタイムで細かな群集の流れを推測するためのアプローチを提示します。このタスクには、2つの課題があります。粗粒度と細粒度の都市フロー間の空間相関、および外部影響の複雑さです。これらの問題に対処するために、2つの主要な部分で構成される、UrbanFMというモデルを開発します。 2)さまざまな外部要因の影響を考慮することでパフォーマンスをさらに向上させる一般的な融合サブネット。この構造は、小規模なアップサンプリングに優れた効果と効率を提供します。ただし、UrbanFMで使用されるシングルパスアップサンプリングは、アップスケーリング率が高い場合には不十分です。したがって、元のタスクを複数のサブタスクに分解することにより、細粒度の都市フローの漸進的推論のためのカスケードモデルであるUrbanPyをさらに提示します。 UrbanFMと比較して、このような強化された構造は、大規模な推論タスクに適したパフォーマンスを示しています。

分野/キーワード:

論文ナビに登録すると・・・
①最新情報をメールでお届け!
  • 話題のニュース一覧
  • 注目のプレスリリース
  • 論文解説・最近のイベント
②論文解説記事の投稿
  • ご自身の論文の解説
  • 読んだ論文のメモ
  • 研究に関する情報のシェア
③セミナー情報の宣伝
  • ご自身が主催するイベント情報を投稿してシェア
  • ユーザーで作るセミナー日程まとめに参加
【併せて読みたい関連記事】
X
- Enter Your Location -
- or -
パスワード再発行
お気に入り
  • Total (0)
0