Skip to main content
SUPERVISOR
محمد صنیعی آباده (استاد راهنما) محمدعلی منتظری (استاد راهنما)
 
STUDENT
Hamid Saberi
حمید صابری

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1388

TITLE

Designing and Implementation an Ensemble Algorithm Based on Decision Trees for Customer Credit Scoring
Credit scoring is a method that banks and financial institutions employ it, with the current and past information of applicants to evaluate the probability of not reimbursement of loans and also to grant them scores. Credit scoring models generally categorize credit applicants based on finanicial factors in to two classes: the "good credit" class that is able to perform financial commitment and the "bad credit" class that should not be granted credit due to the high probability of defaulting on the financial commitments. Credit scoring is an analytical technique for risk assessment. Credit risk is the most challenging risk to which financial institution are exposed. The huge amounts of waste or deferment loans indicate the lack of suitable models and systems to evalute and manage credit risks. Credit scoring system is one ot the main tools to manage and control credit risks. Regarding to the enoumous growth of information and experiences in banking industry, specially in two decades ago and also the growth of potentials credit applicants, it needs to develop more completed and sophisticated models that can automatically perform credit granting and supervise people finanical health. Since an improvement in accuracy even as a small percent might led into significant savings, more sophisticated models should be proposed for significantly improving the accuracy of the credit scoring models. In this thesis we have proposed a hybrid credit scoring model based on Adaboost and Decision Trees Algorithm (DTA). In this model several decision trees are aggregated and formed a powerfull classifier. This process is implemented sequentially. Adaboost assignes a coefficient to each tree base on classification accuracy of the tree and also improvement of previous trees deficiencies on samples classifications
امتیاز دهی اعتباری ، نظامی است که به وسیله آن بانک ها و موسسات اعتباری با استفاده از اطلاعات حال و گذشته متقاضی ، احتمال عدم بازپرداخت وام توسط وی را ارزیابی نموده و به او امتیاز می دهند. مدل های اعتبار سنجی متداول یا مدل های ارزیابی اعتبار، متقاضیان دریافت اعتبار را بر اساس فاکتور های مالی به دو گروه "وام گیرنده های خوش حساب" یعنی کسانی که توانایی پذیرش مسئولیت ها و تعهدات مالی را دارند و "وام گیرنده های بدحساب" یعنی کسانی که درآن ها احتمال نقض تعهدات مالی بسیار است، تقسیم بندی می کنند. امتیاز دهی اعتباری یک تکنیک تحلیلی برای ارزیابی ریسک می باشد. ریسک اعتباری مهم ترین ریسکی است که بانک ها و موسسات مالی با آن مواجه می باشند. حجم قابل ملاحظه ای از تسهیلات اعطایی سوخت شده یا معوقه بانک ها ، گویای فقدان مدل های مناسب اندازه گیری ریسک اعتباری و سیستم های مدیریت ریسک در شبکه های بانکی است . یکی از مهمترین ابزارهایی که بانک ها برای مدیریت و کنترل ریسک اعتباری بدان نیازمند می باشند، سیستم رتبه بندی اعتباری مشتریان است. با رشد بسیار زیاد داده ها و تجربیات خصوصا در دو دهه گذشته در صنعت مالی و اعتباری و نیز با بالا رفتن تعداد ومیزان پتانسیل افراد متقاضی، نیاز به توسعه مدل های کامل تر و پیچیده تر بیشتر نمایان شده است به طوری که بتوان رویه های اعطای اعتبارات را به صورت خودکار انجام داد و سلامت مالی افراد را نظارت کرد. از آنجا که یک افزایش دقت در تشخیص مشتریان حتی به اندازه درصدی کوچک ممکن است منجر به حفظ و ذخیره حجم عظیم منابع و منافع مالی شود، لذا باید مدل های کاملتر و خبره تری در این زمینه ارائه شوند تا به افزایش دقت در مدل های اعتبار سنجی بپردازند. در این پایان نامه یک مدل اعتبار سنجی ترکیبی از الگوریتم آدابوست و درخت تصمیم پیشنهاد داده شده است. در این مدل چندین درخت تصمیم به عنوان یادگیر های اولیه و ضعیف با هم تجمیع می شوند و یک درخت (دسته بند) و احد و قوی را تشکیل می دهند .آدابوست با توجه به توانایی دسته بندی هر درخت و نیز میزان توانایی هر درخت در تقویت نقاط ضعف درختان قبلی در تشخیص نمونه ها به هریک از درختان تصمیم یک ضریب وزنی اختصاص می دهد و این فرایند را به صورت ترتیبی انجام می دهد. دسته بند ایجاد شده بر اساس ضرایب وزنی درختان تصمیم سازنده آن به پیش بینی نمونه های جدید می پردازد.در واقع تمرکز الگوریتم آدابوست برروی انتخاب درختانی است که بهتر بتوانند نمونه هایی را که درختان تصمیم قبلی در مورد آن ها دقت کمتری داشته اند را دسته بندی کنند و به این ترتیب باعث افزایش دقت ، پایداری و کاهش overfitting نسبت به یادگیرهای اولیه می شوند.توانایی این مدل ترکیبی توسط معیارهای ارزیابی مانند نرخ دقت ، نرخ صحت ، نرخ اختصاصی، منحنی ( ROC) و سطح زیر منحنی (AUC) مورد سنجش قرار گرفته است. برای ارزیابی مدل از دو مجموعه داده ی اعتباری واقعی آلمان و استرالیا استفاده شده است . در راستای ارائه مدل پیشنهادی ، یک نرم افزار مبتنی بر زبان C# و پایگاه داده SqlServer طراحی و پیاده سازی شده است و تمامی الگوریتم ارزیابی در این نرم افزار فراهم آورده شده است. هم چنین این نرم افزار امکان ساخت هزار درخت تصمیم را فراهم آورده است .نتایج پیاده سازی نشان می دهد که مدل ترکیبی پیشنهادی، دقت طبقه بندی و کارایی بسیار بالاتری نسبت به اکثر الگوریتم های اعتبار سنجی مورد مقایسه در این تحقیق چه در حالت تک الگوریتم و چه به صورت ترکیبی دارد. مدل پیشنهادی به غیر از داده های اعتباری بر روی داده های مانند داده های پزشکی و مالی مورد ارزیابی قرار گرفته است. نتایج بدست آمده نشان می دهد نه تنها الگوریتم مورد نظر دارای توانایی و دقت بسیار زیاد در دسته بندی داده های اعتباری است بلکه داده های دیگر را نیز با دقت بسیار بالایی طبقه بندی می کند. کلمات کلیدی : 1- اعتبارسنجی 2-الگوریتم بوستینگ 3-درخت تصمیم 4-ارزیابی

ارتقاء امنیت وب با وف بومی