Skip to main content
SUPERVISOR
Reyhaneh Rikhtegaran,Zahra Saberi
ریحانه ریخته گران (استاد راهنما) زهرا صابری (استاد مشاور)
 
STUDENT
Amirabbas Mofidian
امیرعباس مفیدیان نائینی

FACULTY - DEPARTMENT

دانشکده ریاضی
DEGREE
Master of Science (MSc)
YEAR
1393

TITLE

Some applications of the semi-parametric approach of Dirichlet process to the clustering of subjects with longitudinal observations
Over the last decades, analysis of longitudinal data has been in the center of attention in a widespread research fields such as economy, medicine and social sciences. In this regard, mixed effects models aim to control the between- and within-subjects variability among observations by introducing random effects in the structure of regression models. In longitudinal studies, there is a possibility that some subjects show unusual behavior which makes them distinguishable from the other subjects. Detecting such subjects and introducing flexible models to analyze these types of data sets are important issues. To this aim, in this thesis, by the use of the semi-parametric approach of Dirichlet processes, besides proposing a flexible modeling structure, the clustering issue of subjects with longitudinal observations is also fulfilled. Specifically, subjects with unusual behavior can be detected by clustering longitudinal data. Indeed, a Dirichlet process introduces an unknown distribution G over the space of all possible distribution functions. A Dirichlet process has two parameters, a base distribution, G 0 , stating our guess about the true non-parametric shape of G , and a precision parameter, M , reflecting our belief about how similar G is to G 0 . Discreteness nature of the Dirichlet process enables us to cluster subjects in groups with some shared features. However, the Dirichlet process has the restriction of being almost surely discrete which makes it inapplicable in situations where continuous distributions are needed. Thus, the Dirichlet process mixture model is introduced to relax this restriction by adding a hierarchy level to the model. In Chapter 3, as an application of Dirichlet processes in modeling and clustering longitudinal data, the problem of analyzing longitudinal count data with missing values is considered. In such data sets, serial correlation and overdispersion make the analysis of longitudinal data more complicated. To handle these issues, auto-regressive time-varying random effects are considered in the structure of generalized linear models. Also, by modeling missingness mechanism, all the observations are used to analyze the underlying data. Moreover, to make the model capable to cluster subjects, the Dirichlet process is used as a prior for the random effects distribution. As another application of the semi-parametric approach of the Dirichlet process in fitting models to longitudinal data, the joint analysis of longitudinal and survival data is considered. In this regard, it is assumed that dependence between longitudinal data and time to event data could be due to the effects of same subjects. Thus, a shared-parameter model is used. Furthermore, to having a flexible modeling structure together with being able to cluster subjects, the semi-parametric approach of the Dirichlet process is used to analyze a real data example.
تحلیل داده‌های طولی در دهه‌های گذشته در طیف گسترده‌ای از زمینه‌های تحقیقاتی از جمله اقتصاد، پزشکی و جامعه‌شناسی مورد توجه قرار گرفته است. هدف از این‌گونه مطالعات، کنترل تغییرپذیری‌های درون‌گروهی و بین‌گروهی مشاهدات است. در این‌گونه مطالعات ممکن است برخی از واحدهای آزمایشی ساختار ناهمگنی داشته باشند و با رفتاری متمایز از ساختار جمعیت، منجر به به‌دست آمدن برآوردهای اریب برای پارامترهای مدل شوند. شناسایی چنین واحدهای آزمایشی و ارائه مدلی منعطف جهت تحلیل این‌گونه داده‌ها از اهمیت ویژه‌ای برخوردار است. به‌همین منظور در این پایان‌نامه سعی شده است، در چارچوب بیز سلسله مراتبی، با استفاده از رویکرد نیمه‌پارامتری فرآیند دیریکله، ضمن کنترل تغییرپذیری‌های درون‌گروهی و بین‌گروهی مشاهدات و به‌دست آوردن مدل‌هایی منعطف جهت تحلیل داده‌ها، به مسأله خوشه‌بندی واحدهای آزمایشی در داده‌های طولی نیز پرداخته شود. در این میان، سعی شده است با خوشه‌بندی، واحدهای آزمایشی با رفتار متمایز از سایر واحدها، شناسایی و از این‌رو مدل‌های کارآمدتری، جهت تحلیل داده‌ها ارائه شود. در این راستا، در فصل سوم، مسأله تحلیل داده‌های شمارشی طولی با مقادیر گم‌شده را مد نظر قرار داده‌ایم. در این نوع داده‌ها، همبستگی پیاپی و مسأله بیش‌پراکنش علاوه بر وجود مقادیر گم‌شده، باعث پیچیدگی تحلیل داده‌ها می‌گردد. به منظور رفع این مشکل از ساختار اتو-رگرسیو برای اثرات تصادفی زمان متغیر در مدل خطی تعمیم‌یافته استفاده شده است. همچنین با مدل‌سازی مکانیسم گم‌شدگی، از تمامی اطلاعات موجود، جهت تحلیل داده‌ها استفاده کرده‌ایم. به منظور ایجاد توانایی در مدل جهت خوشه‌بندی واحدهای آزمایشی و نیز تشخیص واحدهای آزمایشی با رفتار متمایز، از پیشین فرآیند دیریکله برای توزیع اثرات تصادفی استفاده شده است. عملکرد مدل توسط مطالعه شبیه‌سازی بررسی شده است. به عنوان کاربردی دیگر از رویکرد نیم‌پارامتری فرآیند دیریکله در مدل‌سازی داده‌های طولی، مسأله تحلیل توأم داده‌های طولی و زمان بقا را مد نظر قرار داده‌ایم. در این رابطه درنظر گرفته‌ایم که وابستگی میان زمان بقا و متغیر طولی به دلیل تأثیرپذیری آنها از واحدهای آزمایشی یکسان بوده است. سپس از مدل پارامتر مشترک جهت مدل‌سازی توأم داده‌های طولی و بقا استفاده کرده‌ایم. همچنین از فرآیند دیریکله به عنوان پیشین برای توزیع اثرات تصادفی مدل جهت به‌دست آوردن مدلی منعطف و نیز خوشه‌بندی واحدهای آزمایشی استفاده شده است. نحوه عملکرد مدل توسط برازش مجموعه داده واقعی مورد ارزیابی قرار گرفته است.

ارتقاء امنیت وب با وف بومی