앙상블6 [Machine Learning] CatBoost Dr.TrillionBoosting알고리즘의 마지막은 CatBoost입니다. 이 모델은 제가 현재 재직중인 회사에서도 빈번하게 사용하는 모델인데요. 특히나 특별한 Hyper-parameter 튜닝이 필요하지 않은 것으로 알려져있죠. 어떤 특징이 있는지 한번 알아보겠습니다. 역시 서울대학교 강필성 교수님 강의를 많이 참고하였습니다. 더보기https://www.youtube.com/watch?v=2Yi_Jse_7JQ1. 기존 GBM의 문제점일단, CatBoost가 등장한 맥락을 먼저 살펴보겠습니다. 어떤 문제가 있었기에 CatBoost라는 것을 고안했는지 말이죠. (1) Prediction Shift :기존의 GBM에서는 Sampling을 통해서 Expectation을 계산하는데 당연하게도 Training .. 2024. 11. 17. [Machine Learning] Light Gradient Boosting Machine (LGBM) Dr.Trillion이번에는 Light GBM으로 Microsoft에서 2017년 개발한 GBM모델입니다. categorical 변수가 많을 때 성능이 좋다고 하네요. 기존의 GBM이 모든 Feature의 모든 Data instance를 스캔해서 가능한 split에 대한 IG(Information Gain)을 계산했다면 이 방법은 Exclusive Feature Bundling (EFB), Gradient-based One-Side Sampling (GOSS)라는 기법을 통해 이를 발전(대규모 데이터셋에서도 학습속도를 높이고 메모리 사용량 감소)시킵니다. 이번 포스팅 내용은 고려서울대학교 강필성 교수님의 강의 패스트캠퍼스 "실무 문제 해결을 위한 데이터사이언스" 를 참고하였습니다. 더보기https://w.. 2024. 11. 16. [Machine Learning] XGBoost Dr.Trillion 부스팅 시리즈 이번에는 XGBoost에 대해서 알아보겠습니다. GBM의 optimized version이 XGBoost라고 보시면 될 것 같은데요. GBM과 비교했을 때 XGBoost의 주요한 특징에 대해서 알아보겠습니다. 아래 논문을 많이 참고했습니다. Chen, Tianqi, and Carlos Guestrin. "Xgboost: A scalable tree boosting system." Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining. 2016. 1. XGBoost : CART를 baseline model로 사용하는 Boosting1) Concept.. 2024. 11. 15. [Machine Learning] AdaBoost Dr.Trillion Dr.Trillion Dr.Trillion Dr.Trillion Dr.TrillionAdaBoost 알고리즘은 부스팅에 대해 설명할 때 빈번하게 예시로 드는 알고리즘입니다. 아래서 보게 될 그림(Buffalo Univ.) 역시도 많이 접하셨을 거라 생각합니다. https://cse.buffalo.edu/~jcorso/t/CSE555/ Jason J. CorsoInstructor: Jason Corso (UBIT: jcorso) Course Webpage: http://www.cse.buffalo.edu/~jcorso/t/CSE555 or http://www.cse.buffalo.edu/~jcorso/t/CSE455 but this is just a link to the fir.. 2024. 11. 13. [Machine Learning] Random Forest Dr.Trillion지난 번에 앙상블 기법의 전반적인 얼개에 대해서 포스팅을 올린적이 있습니다. https://trillionver2.tistory.com/entry/%EC%95%99%EC%83%81%EB%B8%94Ensemble-%EA%B8%B0%EB%B2%95 [Machine Learning] 앙상블(Ensemble) 기법앙상블 기법이라는 것은 특정 모델 하나에 전적으로 의지 하지 않고 모델 여러개를 활용해서 일종의 '집단지성'을 발휘하는 방법이라고 이해하시면 좋을 것 같습니다. 사실 요새 대표적인 머신trillionver2.tistory.com 랜덤 포레스트의 특성 전반적인 얼개에서 좀 더 들어가서 구체적인 Random Forest, Adaboost, Gradient Boosting 등 현업에서 많.. 2024. 11. 12. [Machine Learning] 앙상블(Ensemble) 기법 앙상블 기법이라는 것은 특정 모델 하나에 전적으로 의지 하지 않고 모델 여러개를 활용해서 일종의 '집단지성'을 발휘하는 방법이라고 이해하시면 좋을 것 같습니다. 사실 요새 대표적인 머신러닝 기법으로 활용되는 Adaboost, Gradient Boost같은 방법들이 이 범주에 포함된다고 볼 수 있습니다. 만약에 회귀문제라면 여러 모델들의 결과값을 평균낸다든가 하는 방식으로 취합할 수 있고, 분류문제라면 다수결 등의 방법으로 취합할 수 있습니다. 앙상블의 종류에 대해서 한 번 알아볼까요? 딥러닝이 여러 분야에서 활약을 하고 있지만 실제 현업에서는 또 도깨비 방망이 같은 만능키는 아닌 것이 사실입니다. 실제로 많이 마주치게 되는 정형데이터들은 분석하기에 어려운 난관이 많죠... 대표적으로 label이 불균형해.. 2021. 11. 6. 이전 1 다음 728x90