機械学習, 不均衡データ, データバランシング, 時系列データ

機械学習における不均衡データのためのデータバランシング手法


機械学習において連続値を推定する回帰問題は広く用いられており,科学やヘルスケアなど様々な分野において応用が盛んである.しかしながら実環境において収集した訓練データの分布には,しばしば 偏りが発生し,特に異常時のデータは平常時のデータと比較してサンプル数が少なくなる.このような正解ラベルの分布の偏りは,機械学習における推定器の性能の低下を招く.本研究では正解ラベルの分布が 偏った不均衡なデータセットに対し,機械学習を行う際の推定値の偏りを軽減するための損失関数を提案する.提案手法では,データの希少性を表すRelevance Functionを算出し,不均衡データのバランシングを行う.

  • Hiroki Yoshikawa, Akira Uchiyama, Teruo Higashino, "Time-Series Physiological Data Balancing for Regression," Proc. of the 2021 IEEE International Conference on Artificial Intelligence and Computer Applications (ICAICA 2021), Dalian, China, June 28-30, 2021. doi:https://doi.org/10.1109/ICAICA52286.2021.9498128


研究内容全体へ戻る