부스팅3 [Machine Learning] CatBoost Dr.TrillionBoosting알고리즘의 마지막은 CatBoost입니다. 이 모델은 제가 현재 재직중인 회사에서도 빈번하게 사용하는 모델인데요. 특히나 특별한 Hyper-parameter 튜닝이 필요하지 않은 것으로 알려져있죠. 어떤 특징이 있는지 한번 알아보겠습니다. 역시 서울대학교 강필성 교수님 강의를 많이 참고하였습니다. 더보기https://www.youtube.com/watch?v=2Yi_Jse_7JQ1. 기존 GBM의 문제점일단, CatBoost가 등장한 맥락을 먼저 살펴보겠습니다. 어떤 문제가 있었기에 CatBoost라는 것을 고안했는지 말이죠. (1) Prediction Shift :기존의 GBM에서는 Sampling을 통해서 Expectation을 계산하는데 당연하게도 Training .. 2024. 11. 17. [Machine Learning] Light Gradient Boosting Machine (LGBM) Dr.Trillion이번에는 Light GBM으로 Microsoft에서 2017년 개발한 GBM모델입니다. categorical 변수가 많을 때 성능이 좋다고 하네요. 기존의 GBM이 모든 Feature의 모든 Data instance를 스캔해서 가능한 split에 대한 IG(Information Gain)을 계산했다면 이 방법은 Exclusive Feature Bundling (EFB), Gradient-based One-Side Sampling (GOSS)라는 기법을 통해 이를 발전(대규모 데이터셋에서도 학습속도를 높이고 메모리 사용량 감소)시킵니다. 이번 포스팅 내용은 고려서울대학교 강필성 교수님의 강의 패스트캠퍼스 "실무 문제 해결을 위한 데이터사이언스" 를 참고하였습니다. 더보기https://w.. 2024. 11. 16. [Machine Learning] AdaBoost Dr.Trillion Dr.Trillion Dr.Trillion Dr.Trillion Dr.TrillionAdaBoost 알고리즘은 부스팅에 대해 설명할 때 빈번하게 예시로 드는 알고리즘입니다. 아래서 보게 될 그림(Buffalo Univ.) 역시도 많이 접하셨을 거라 생각합니다. https://cse.buffalo.edu/~jcorso/t/CSE555/ Jason J. CorsoInstructor: Jason Corso (UBIT: jcorso) Course Webpage: http://www.cse.buffalo.edu/~jcorso/t/CSE555 or http://www.cse.buffalo.edu/~jcorso/t/CSE455 but this is just a link to the fir.. 2024. 11. 13. 이전 1 다음