Saturday 22 July 2017

Moving Average Autocovariance


Fungsi Autokorelasi Perhatikan bahwa 0 adalah varians dari proses stokastik. Fungsi autocovariance pada lag k. Untuk k 0, deret waktu ditentukan oleh fungsi autokorelasi (ACF) pada lag k. Untuk k 0, deret waktu ditentukan oleh varians dari deret waktu adalah r 0. Sebuah plot r k terhadap k dikenal sebagai correlogram. Pengamatan. Definisi autocovariance yang diberikan di atas sedikit berbeda dari definisi kovarians yang biasa antara 1. , Y n-k dan k 1. , Y n dalam dua hal: (1) kita membagi dengan n bukan nk dan kita kurangi keseluruhan mean dan bukan mean 1. , Y n-k dan k 1. , Masing-masing. Untuk nilai n yang besar berkenaan dengan k. Perbedaannya akan kecil. Contoh 1. Hitung s 2 dan r 2 untuk data di kisaran B4: B19 Gambar 1. Gambar 1 ACF pada lag 2 Rumus untuk menghitung s 2 dan r 2 menggunakan fungsi COVARIANCE. S dan CORREL yang biasa ditunjukkan pada sel G4 dan G5. Rumus untuk s 0. S 2 dan r 2 dari Definisi 2 ditunjukkan pada sel G8, G11 dan G12 (bersama dengan formula alternatif di G13). Perhatikan bahwa nilai untuk s 2 di sel E4 dan E11 tidak terlalu berbeda, demikian juga nilai r 2 yang ditunjukkan pada sel E5 dan E12 semakin besar sampel, semakin besar kemungkinan nilai-nilai ini serupa Fungsi Statistik Nyata. Paket Sumber Daya Real Statis memasok fungsi berikut: ACF (R1, k) nilai ACF pada lag k untuk deret waktu di kisaran R1 ACVF (R1, k) autcovariance pada lag k untuk deret waktu di kisaran R1 Perhatikan bahwa ACF (R1, k) setara dengan SUMPRODUCT (R1,0,0, COUNT (R1) - k) - AVERAGE (R1), OFFSET (R1, k, 0, COUNT (R1) - k) - AVERAGE (R1 )) Pengamatan DEVSQ (R1). Ada keuntungan teoritis untuk menggunakan pembagian dengan n bukan nk dalam definisi s k. Yaitu bahwa kovarians dan matriks korelasi akan selalu definitif tidak negatif (lihat Matriks Definitif Positif). Pengamatan. Meskipun definisi autokorelasi sedikit berbeda dari korelasi, k (atau r k) masih membutuhkan nilai antara -1 dan 1, seperti yang kita lihat di Properti 2. Contoh 2. Tentukan ACF untuk lag 1 sampai 10 untuk rata-rata penutupan Dow Jones untuk bulan Oktober 2015, seperti yang ditunjukkan pada kolom A dan B pada Gambar 2 dan buat korelogram yang sesuai. Hasilnya ditunjukkan pada Gambar 2. Nilai pada kolom E dihitung dengan menempatkan rumus ACF (B4: B25, D5) pada sel E5, menyoroti rentang E5: E14 dan menekan Ctrl-D. Gambar 2 ACF dan Correlogram Seperti dapat dilihat dari nilai pada kolom E atau grafik, nilai ACF turun perlahan menuju nol. Ini khas proses autoregresif. Pengamatan. Aturan praktis adalah melakukan proses di atas untuk lag 1 ke n 3 atau n 4, yang untuk data di atas adalah 224 6 atau 223 7. Tujuan kami adalah untuk melihat apakah saat ini ACF signifikan (secara statistik berbeda Dari nol). Kita bisa melakukan ini dengan menggunakan properti berikut. Properti 3 (Bartlett): Dalam contoh besar, jika deret waktu ukuran n murni acak maka untuk semua k Contoh 3. Tentukan apakah ACF pada lag 7 signifikan untuk data dari Contoh 2. Seperti yang dapat kita lihat dari Gambar 3, nilai kritis untuk pengujian di Property 3 adalah 0,417866. Karena r 7.303809 lt .417866, kita simpulkan bahwa tidak berbeda secara signifikan dari nol. Gambar 3 Uji Bartletts Perhatikan bahwa nilai k sampai dengan 5 signifikan dan yang lebih tinggi dari 5 tidak signifikan. Versi Property 4 yang lebih bertenaga statistik, terutama untuk sampel yang lebih kecil, diberikan oleh properti berikutnya. Contoh 4. Gunakan statistik Box-Pierce dan Ljung-Box untuk menentukan apakah nilai ACF pada Contoh 2 secara statistik sama dengan nol untuk semua lag kurang dari atau sama dengan 5 (hipotesis nol). Hasilnya ditunjukkan pada Gambar 4. Gambar 4 Uji Box-Pierce dan Ljung-Box Kami melihat dari pengujian ini bahwa ACF (k) berbeda secara signifikan dari nol untuk setidaknya satu k 5, yang konsisten dengan correlogram pada Gambar 2. Fungsi Statistik Riil. The Real Statistics Resource Pack menyediakan fungsi berikut untuk melakukan tes yang dijelaskan oleh properti di atas. BARTEST (r, n, lag) p-value dari uji Bartletts untuk koefisien korelasi r berdasarkan deret waktu n ukuran lag tertentu. BARTEST (R1 lag) BARTEST (r, n, lag) di mana n jumlah elemen pada kisaran R1 dan r ACF (R1, lag) PIERCE (R1 ,, lag) Statistik Box-Pierce Q untuk rentang R1 dan lag yang ditentukan BPTEST (R1 ,, lag) p-value untuk uji Box-Pierce untuk range R1 dan lag lag LJUNG (R1 ,, lag) statistik Ljung-Box Q untuk range R1 dan lag yang ditentukan LBTEST (R1 ,, lag) p - nilai untuk uji Ljung-Box untuk rentang R1 dan lag yang ditentukan Pada fungsi di atas dimana argumen kedua hilang, pengujian dilakukan dengan menggunakan koefisien autokorelasi (ACF). Jika nilai yang diberikan adalah 1 atau pacf maka pengujian dilakukan dengan menggunakan koefisien autokorelasi parsial (PACF) seperti yang dijelaskan pada bagian selanjutnya. Sebenarnya jika argumen kedua mengambil nilai apapun kecuali 1 atau pacf, maka nilai ACF digunakan. Misalnya. BARTEST (.303809,22,7) .07708 untuk Contoh 3 dan LBTEST (B4: B25, acf, 5) 1.81E-06 untuk Contoh 4.GEOS 585A, Analisis Seri Waktu Terapan Telepon: (520) 621-3457 Faks: (520) 621-8229 Jam kerja Jumat, 1: 00-6: 00 (silahkan email ke pertemuan jadwal) Deskripsi Kursus Alat analisis di domain waktu dan frekuensi diperkenalkan dalam konteks seri waktu sampel. Saya menggunakan dataset dari seri waktu sampel untuk mengilustrasikan metode, dan mengubah dataset setiap semester kursus ditawarkan. Tahun ini dataset sampel berasal dari proyek NSF mengenai variabilitas snowpack di American River Basin of California. Dataset ini mencakup kronologi ring pohon, indeks iklim, catatan arus sungai, dan rangkaian waktu setara salju yang diukur di stasiun kursus salju. Anda akan mengumpulkan deret waktu Anda sendiri untuk digunakan dalam kursus. Ini mungkin berasal dari proyek penelitian Anda sendiri. Kembali ke Atas Halaman Ini adalah kursus pengantar, dengan penekanan pada aspek praktis dari analisis deret waktu. Metode diperkenalkan secara hierarkis - dimulai dengan grafis terminologi dan eksplorasi, beralih ke statistik deskriptif, dan diakhiri dengan prosedur pemodelan dasar. Topik meliputi detrending, filtering, autoregressive modeling, spektral analysis dan regression. Anda menghabiskan dua minggu pertama menginstal Matlab di laptop Anda, mendapatkan pengenalan dasar tentang Matlab, dan mengumpulkan dataset Anda untuk seri waktu kursus. Dua belas topik, atau pelajaran kemudian ditutup, masing-masing diberikan seminggu, atau dua periode kelas. Dua belas tugas kelas mengikuti topik. Penugasan terdiri dari penerapan metode dengan menjalankan skrip Matlab pra-tulisan (program) pada deret waktu Anda dan menafsirkan hasilnya. Kursus 3 kredit untuk siswa di kampus di University of Arizona di Tucson, dan 1 kredit untuk siswa online. Setiap deret waktu dengan kenaikan waktu konstan (misalnya hari, bulan, tahun) adalah kandidat untuk digunakan dalam kursus. Contohnya adalah pengukuran curah hujan setiap hari, aliran arus total musiman, suhu udara rata-rata musim panas, indeks pertumbuhan pohon tahunan, indeks suhu permukaan laut, dan kenaikan harian semak semak. Sebagai hasil dari mengikuti kursus, Anda harus: memahami konsep dan terminologi time series dasar dapat memilih metode time series yang sesuai dengan tujuan dapat mengevaluasi secara kritis literatur ilmiah yang menggunakan metode time series yang dibahas telah meningkatkan pemahaman tentang sifat deret waktu dari Dataset sendiri dapat ringkas merangkum hasil analisis deret waktu secara tertulis Prasyarat Kursus statistik pendahuluan Akses ke komputer laptop yang mampu menginstal Matlab di dalamnya Izin para instruktur (mahasiswa sarjana dan mahasiswa online) Persyaratan Lain Jika Anda berada di Universitas Mahasiswa Arizona (UA) di kampus di Tucson, Anda memiliki akses ke Matlab dan kotak peralatan yang dibutuhkan melalui lisensi situs UA karena tidak memerlukan perangkat lunak biaya. Tidak ada pengalaman sebelumnya dengan Matlab yang dibutuhkan, dan pemrograman komputer bukan bagian dari kursus. Jika Anda online, bukan di kampus UA, Anda akan bisa mengikuti kursus semester musim semi 2017 sebagai iCourse. Anda harus memastikan bahwa Anda memiliki akses ke Matlab dan kotak peralatan yang diperlukan (lihat di bawah) di lokasi Anda. Akses ke internet. Tidak ada pertukaran kertas dalam kursus. Catatan dan tugas ditukar secara elektronik dan selesai diserahkan secara elektronik melalui sistem University of Arizona Desire2Learn (D2L). Versi matlab Saya memperbarui skrip dan fungsi sekarang dan kemudian menggunakan rilis lisensi situs saat ini dari Matlab, dan pembaruannya mungkin menggunakan fitur Matlab yang tidak tersedia dalam rilis Matlab sebelumnya. Untuk 2017, saya menggunakan Matlab Version 9.1.0.441655 (R2016b). Jika Anda menggunakan rilis sebelumnya, pastikan itu Matlab Release 2007b atau lebih tinggi. Selain paket Matlab utama, empat toolboxes digunakan: Statistik, Pengolahan Sinyal, Identifikasi Sistem, dan Spline (Matlab Release 2010a atau sebelumnya), atau Curve Fitting (Matlab Release 2010b atau yang lebih baru) Ketersediaan Kursus ini ditawarkan di Semester Musim Semi Setiap tahun (2015, 2017, dst.). Ini terbuka untuk mahasiswa pascasarjana dan mungkin juga diambil oleh para manula senior dengan izin instruktur. Pendaftaran siswa UA tinggal ditutup pada usia 18 untuk Semester Musim Semi 2017. Sejumlah kecil siswa online juga biasanya diakomodasi dengan menawarkan kursus dengan berbagai cara. Caranya sekarang adalah tempat iCourse yang dijelaskan di atas. Kembali ke Atas Halaman Garis Besar Kursus (Pelajaran) Jadwal biasanya memungkinkan sekitar dua minggu untuk mengumpulkan data dan menjadi terbiasa dengan Matlab. Kemudian satu minggu (dua periode kelas) dikhususkan untuk masing-masing dari 12 pelajaran atau topik. Kelas bertemu pada hari Selasa dan Kamis. Topik baru diperkenalkan pada hari Selasa, dan dilanjutkan pada hari Kamis berikutnya. Kelas hari Kamis diakhiri dengan sebuah tugas dan demonstrasi menjalankan skrip pada data sampel saya. Tugasnya jatuh tempo (harus diunggah oleh Anda ke D2L) sebelum kelas pada hari Selasa berikutnya. 12 jam pertama kelas hari Selasa itu digunakan untuk penilaian diri yang dipandu dan penilaian tugas dan pengunggahan tugas dinilai (dinilai) ke D2L. Sisanya 45 menit digunakan untuk mengenalkan topik selanjutnya. Anda harus membawa laptop Anda ke kelas pada hari Selasa. 12 pelajaran atau topik yang dibahas dalam kursus tercantum dalam garis besar kelas. Siswa online diharapkan mengikuti jadwal penyerahan tugas yang sama dengan siswa residen, namun tidak memiliki akses ke ceramah. Tugas yang dikirim dari siswa online tidak dinilai sendiri, namun dinilai oleh saya. Siswa online harus memiliki akses ke D2L untuk mengirimkan tugas. Semester musim semi 2017 Kelas bertemu dua kali seminggu selama 75 menit, 9: 00-10: 15 AM TTh, di kamar 424 (Ruang Konferensi) Gedung Cincin Pohon Bryant Bannister (bangunan 45B). Hari pertama kelas adalah 12 Januari (Kam). Hari terakhir kelas adalah 2 Mei (sel). Tidak ada kelas selama minggu Spring Break (Mar 11-19). Anda menganalisis data pilihan Anda sendiri di kelas tugas. Sebagaimana tercantum dalam ikhtisar kursus. Ada banyak fleksibilitas dalam pemilihan deret waktu. Saya akan membuat katalog rangkaian waktu yang sesuai, tapi yang terbaik adalah memfokuskan kursus pada kumpulan data Anda sendiri. Tugas pertama melibatkan menjalankan skrip yang menyimpan data dan metadata yang telah Anda kumpulkan di file mat, format asli Matlab. Tugas selanjutnya menarik data dari file mat untuk analisis deret waktu. Tugas 12 topik dibahas secara berurutan sepanjang semester, yang mencakup sekitar 15 minggu. Tentang dua minggu pertama (pertemuan kelas 4-5) digunakan untuk beberapa bahan pengantar, menentukan dan mengumpulkan deret waktu Anda, dan menyiapkan Matlab di laptop Anda. Setiap minggu setelah itu dikhususkan untuk salah satu dari 12 topik topik. Setiap tugas terdiri dari membaca bab catatan, menjalankan skrip Matlab terkait yang menerapkan metode analisis time series pilihan ke data Anda, dan menuliskan interpretasi Anda terhadap hasilnya. Tugas memerlukan pemahaman tentang topik kuliah serta kemampuan untuk menggunakan komputer dan perangkat lunak. Anda mengirimkan tugas dengan mengunggahnya ke D2L sebelum kelas Selasa saat topik berikutnya diperkenalkan. Semester pertama kelas Selasa itu digunakan untuk penilaian diri yang dipandu oleh penugasan tersebut, termasuk mengunggah PDF dengan self-grade ke D2L. Saya memeriksa satu atau lebih tugas yang dinilai sendiri setiap minggu (secara acak), dan mungkin mengubah nilainya. Untuk mengetahui cara mengakses tugas, klik file tugas. Bacaan terdiri dari catatan kelas. Ada dua belas set. pdf mencatat file. Satu untuk masing-masing topik kursus. File. pdf ini dapat diakses melalui Web. Informasi lebih lanjut tentang berbagai topik yang dibahas dalam kursus dapat ditemukan melalui referensi yang tercantum di akhir setiap bab catatan kelas. Kelas didasarkan sepenuhnya pada kinerja pada tugas, masing-masing bernilai 10 poin. Tidak ada ujian. Jumlah total poin yang mungkin untuk 12 topik adalah 12 x 10 120. Nilai A yang dibutuhkan 90-100 persen dari poin yang mungkin. Nilai B membutuhkan 80-90 persen. Nilai C membutuhkan 70-80 persen, dan sebagainya. Nilai diberikan dengan penilaian diri yang dipandu oleh rubrik yang disajikan di kelas. Jumlah poin yang diterima harus ditandai di bagian atas setiap tugas bergradasi. Markup penugasan Anda harus menyertakan anotasi dari setiap penurunan harga dengan mengacu pada rubrik yang diilustrasikan di kelas (misalnya -0,5, rp3 menunjukkan pengurangan sebesar -0,5 karena kesalahan yang terkait dengan rubrik poin 3) Tugas, diberikan di kelas pada hari Kamis, akan Karena (diunggah ke D2L oleh Anda) sebelum memulai kelas pada hari Selasa berikutnya. Semester pertama dari periode pertemuan hari Selasa akan didedikasikan untuk presentasi rubrik penilaian, penilaian sendiri atas penugasan selesai, dan pengunggahan tugas yang dinilai sendiri ke D2L. Jadwal ini memberi Anda waktu 4 hari untuk menyelesaikan dan mengunggah tugas ke D2L sebelum pukul 09:00 hari Selasa. D2L mencatat waktu penugasan diupload, dan tidak ada hukuman yang dinilai selama diunggah sebelum pukul 09:00 pada hari Selasa tanggal jatuh tempo. Jika Anda memiliki beberapa jadwal yang harus jauh dari kelas (misalnya, kehadiran di sebuah konferensi), Anda bertanggung jawab untuk mengunggah tugas sebelum pukul 09:00 hari Selasa karena waktunya, dan untuk mengunggah versi self-graded pada pukul 10:15 pagi. hari yang sama. Dengan kata lain, jadwalnya sama dengan siswa yang berada di kelas. Jika keadaan darurat muncul (misalnya Anda terkena flu) dan tidak dapat melakukan tugas atau penilaian sesuai jadwal, kirimkan saya email dan kami akan sampai di akomodasi. Jika tidak, denda 5 poin (setengah dari total poin yang tersedia untuk latihan) akan dinilai. Pengenalan data pengorganisasian rangkaian waktu untuk analisis Suatu deret waktu didefinisikan secara luas sebagai serangkaian pengukuran yang dilakukan pada waktu yang berbeda. Beberapa kategori deskriptif dasar deret waktu adalah 1) panjang vs pendek, 2) bahkan langkah waktu vs langkah waktu yang tidak rata, 3) diskrit vs kontinu, 4) periodik vs aperiodik, 5) stasioner vs nonstasioner, dan 6) univariat vs multivariat . Sifat-sifat ini dan juga tumpang tindih temporal dari beberapa seri, harus dipertimbangkan dalam memilih kumpulan data untuk analisis dalam kursus ini. Anda akan menganalisis deret waktu Anda sendiri di kursus. Langkah pertama adalah memilih seri tersebut dan menyimpannya dalam struktur di file tikar. Keseragaman dalam penyimpanan pada awalnya sangat sesuai untuk kelas ini sehingga perhatian kemudian dapat difokuskan pada pemahaman metode deret waktu, bukan debug kode komputer untuk menyiapkan data untuk analisis. Struktur adalah variabel Matlab yang mirip dengan database sehingga isinya diakses oleh penanda lapangan teks. Struktur dapat menyimpan data dari berbagai bentuk. Sebagai contoh, satu bidang mungkin merupakan matriks deret waktu numerik, yang lain mungkin berupa teks yang menjelaskan sumber data, dan lain-lain. Dalam tugas pertama Anda akan menjalankan skrip Matlab yang membaca rangkaian waktu dan metadata Anda dari file teks ascii yang Anda siapkan sebelumnya dan Menyimpan data di struktur Matlab dalam file matrik tunggal. Dalam tugas selanjutnya Anda akan menerapkan metode time series ke data dengan menjalankan skrip dan fungsi Matlab yang memuat file mat dan mengoperasikan struktur tersebut. Pilih data sampel yang akan digunakan untuk tugas selama kursus Baca: (1) Notes1.pdf, (2) Persiapan, dapat diakses dari menu bantuan MATLAB Jawab: Jalankan script geosa1.m dan jawablah pertanyaan yang tercantum dalam file di a1.pdf Bagaimana membedakan kategori deret waktu Bagaimana memulai dan berhenti MATLAB Bagaimana cara memasukkan perintah MATLAB pada command prompt Bagaimana membuat gambar di jendela gambar Bagaimana cara mengekspor gambar ke pengolah kata Anda Perbedaan antara skrip dan fungsi MATLAB Bagaimana cara menjalankan skrip dan fungsi Bentuk variabel struktur MATLAB Bagaimana menerapkan skrip geosa1.m untuk mendapatkan serangkaian rangkaian waktu dan metadata ke dalam struktur MATLAB Distribusi probabilitas deret waktu menggambarkan probabilitas bahwa pengamatan masuk ke dalam kisaran nilai tertentu. Distribusi probabilitas empiris untuk deret waktu dapat dicapai dengan memilah dan memberi peringkat nilai dari seri. Quantiles dan persentil adalah statistik yang berguna yang dapat diambil secara langsung dari distribusi probabilitas empiris. Banyak uji statistik parametrik mengasumsikan deret waktu adalah sampel dari populasi dengan distribusi probabilitas populasi tertentu. Seringkali penduduk dianggap normal. Bab ini menyajikan beberapa definisi dasar, statistik dan plot yang terkait dengan distribusi probabilitas. Sebagai tambahan, sebuah tes (uji Lilliefors) diperkenalkan untuk menguji apakah sampel berasal dari distribusi normal dengan mean dan varians yang tidak ditentukan. Jawaban: Jalankan skrip geosa2.m dan jawab pertanyaan yang tercantum dalam file di a2.pdf Definisi istilah: deret waktu, stasioneritas, kepadatan probabilitas, fungsi distribisi, quantile, spread, lokasi, mean, standar deviasi, dan condong Bagaimana menafsirkan Grafik paling berharga dalam analisis deret waktu - deret seri waktu Bagaimana menafsirkan kotak petak, histogram dan plot probabilitas normal Parameter dan bentuk dari distribusi normal Uji Lilliefors untuk normalitas: deskripsi grafis, asumsi, hipotesis nol dan alternatif Peringatan pada interpretasi Tingkat signifikansi uji statistik ketika deret waktu tidak acak dalam waktu Bagaimana cara mendaftar geosa2.m untuk memeriksa properti distribusi rangkaian waktu dan menguji seri untuk normalitas Autokorelasi mengacu pada korelasi deret waktu dengan nilai masa lalu dan masa depannya sendiri. Autokorelasi juga kadang disebut korelasi tertinggal atau korelasi serial. Yang mengacu pada korelasi antara anggota dari serangkaian angka yang disusun pada waktunya. Autokorelasi positif bisa dianggap sebagai bentuk ketekunan yang spesifik. Kecenderungan sebuah sistem untuk tetap berada dalam keadaan yang sama dari satu pengamatan ke pengamatan berikutnya. Misalnya, kemungkinan masa depan hujan lebih besar jika hari ini hujan daripada jika hari ini kering. Seri waktu geofisika sering kali autokorelasi karena proses inersia atau carryover dalam sistem fisik. Misalnya, sistem tekanan rendah yang berkembang perlahan dan bergerak di atmosfer bisa memberi ketekunan pada curah hujan harian. Atau drainase yang lambat dari cadangan air tanah mungkin memberi korelasi dengan arus tahunan sungai yang berturut-turut. Atau fotosintat yang tersimpan mungkin memberi korelasi dengan nilai tahunan indeks cincin-pohon berturut-turut. Autokorelasi mempersulit penerapan uji statistik dengan mengurangi jumlah pengamatan independen. Autokorelasi juga dapat mempersulit identifikasi kovariansi signifikan atau korelasi antara deret waktu (misalnya presipitasi dengan deret pohon). Autokorelasi dapat dimanfaatkan untuk prediksi: deret waktu autokorelasi dapat diprediksi, probabilistik, karena nilai masa depan bergantung pada nilai arus dan masa lalu. Tiga alat untuk menilai autokorelasi deret waktu adalah (1) rangkaian deret waktu, (2) scatterplot yang tertinggal, dan (3) fungsi autokorelasi. Jawaban: Jalankan skrip geosa3.m dan jawab pertanyaan yang tercantum dalam file di a3.pdf Definisi: autokorelasi, ketekunan, korelasi serial, fungsi autokorelasi (acf), fungsi autocovariance (acvf), ukuran sampel efektif Bagaimana mengenali autokorelasi dalam deret waktu Plot Bagaimana menggunakan scatterplots yang tertinggal untuk menilai autokorelasi Bagaimana menafsirkan acf diplot Bagaimana menyesuaikan ukuran sampel untuk autokorelasi Definisi matematis dari fungsi autokorelasi Persyaratan yang mempengaruhi lebar pita kepercayaan dihitung dari acf Perbedaan antara satu sisi dan dua - dari uji autokorelasi lag-1 yang signifikan Bagaimana menerapkan geos3.m untuk mempelajari autokorelasi deret waktu Spektrum deret waktu adalah distribusi varians rangkaian sebagai fungsi frekuensi. Objek analisis spektral adalah untuk memperkirakan dan mempelajari spektrum. Spektrum tidak mengandung informasi baru selain fungsi autocovariance (acvf), dan kenyataannya spektrumnya dapat dihitung secara matematis dengan transformasi acvf. Tapi spektrum dan acvf menyajikan informasi tentang varians deret waktu dari sudut pandang komplementer. Acf merangkum informasi dalam domain waktu dan spektrum dalam domain frekuensi. Jawaban: Jalankan skrip geosa4.m dan jawab pertanyaan yang tercantum dalam file di a4.pdf Definisi: frekuensi, periode, panjang gelombang, spektrum, frekuensi Nyquist, frekuensi Fourier, bandwidth Alasan untuk menganalisis spektrum Bagaimana menafsirkan spektrum diplot dalam hal distribusi Varians Perbedaan antara spektrum dan spektrum normal Definisi jendela lag seperti yang digunakan dalam memperkirakan spektrum dengan metode Blackman-Tukey Bagaimana pilihan jendela lag mempengaruhi bandwidth dan varians spektrum perkiraan Bagaimana menentukan spektrum suara putih Dan spektrum autoregresif Bagaimana membuat sketsa beberapa bentuk spektral yang khas: white noise, autoregressive, quasi-periodic, frekuensi rendah, frekuensi tinggi Bagaimana cara menerapkan geosa4.m untuk menganalisis spektrum deret waktu dengan metode Blackman-Tukey Autoregressive-Moving Model rata-rata (ARMA) model Autoregressive-moving-average (ARMA) adalah model matematis dari ketekunan, atau autokorelasi, dalam deret waktu. Model ARMA banyak digunakan dalam hidrologi, dendrochronologi, ekonometri, dan bidang lainnya. Ada beberapa kemungkinan alasan pemasangan model ARMA pada data. Pemodelan dapat berkontribusi untuk memahami sistem fisik dengan mengungkapkan sesuatu tentang proses fisik yang membangun ketekunan ke dalam rangkaian. Sebagai contoh, model keseimbangan air fisik sederhana yang terdiri dari istilah untuk input presipitasi, penguapan, infiltrasi, dan penyimpanan air tanah dapat ditunjukkan untuk menghasilkan rangkaian aliran arus yang mengikuti bentuk model ARMA tertentu. Model ARMA juga bisa digunakan untuk memprediksi perilaku deret waktu dari nilai masa lalu saja. Prediksi tersebut dapat digunakan sebagai dasar untuk mengevaluasi kemungkinan kemungkinan variabel lain terhadap sistem. Model ARMA banyak digunakan untuk prediksi deret waktu ekonomi dan industri. Model ARMA juga bisa digunakan untuk menghilangkan ketekunan. Dalam dendrochronology, misalnya, pemodelan ARMA diterapkan secara rutin untuk menghasilkan kronik waktu residu indeks ring-width tanpa ketergantungan pada nilai masa lalu. Operasi ini, yang disebut prewhitening, dimaksudkan untuk menghilangkan kegigihan yang terkait secara biologis dari rangkaian sehingga residu lebih sesuai untuk mempelajari pengaruh iklim dan faktor lingkungan luar lainnya terhadap pertumbuhan pohon. Jawaban: Jalankan skrip geosa5.m dan jawablah pertanyaan yang tercantum dalam file di a5.pdf Bentuk fungsional model AR dan ARMA yang paling sederhana Mengapa model seperti itu disebut sebagai autoregressive atau moving average Tiga langkah dalam pemodelan ARMA Pola diagnostik dari Autokorelasi dan fungsi autokorelasi parsial untuk rangkaian waktu AR (1) Definisi kesalahan prediksi akhir (FPE) dan bagaimana FPE digunakan untuk memilih model ARMA terbaik Definisi statistik Portmanteau, dan bagaimana dan residu residu dapat Digunakan untuk menilai apakah model ARMA secara efektif memodelkan ketekunan dalam rangkaian Bagaimana prinsip parsimoni diterapkan dalam pemodelan ARMA Definisi prewhitening Bagaimana pengaruh sebelum perang mempengaruhi (1) kemunculan deret waktu, dan (2) spektrum deret waktu Bagaimana menerapkan geosa5.m ke ARMA-model rangkaian waktu Analisis spektral - Metode periodogram merapikan Ada banyak metode yang tersedia untuk memperkirakan spektrum deret waktu. Dalam pelajaran 4 kita melihat metode Blackman-Tukey, yang didasarkan pada transformasi Fourier dari fungsi autocovariance yang merapikan dan dipotong. Metode periodogram merapikan mengeliminasi transformasi acf dengan transformasi Fourier langsung dari deret waktu dan perhitungan periodogram mentah, sebuah fungsi yang pertama kali diperkenalkan pada tahun 1800 untuk mempelajari deret waktu. Periodogram mentah diratakan dengan menerapkan kombinasi atau rentang satu atau lebih filter untuk menghasilkan spektrum yang diperkirakan. Kelancaran, resolusi dan varians perkiraan spektral dikendalikan oleh pilihan filter. Pemulusan periodogram baku yang lebih ditekankan menghasilkan spektrum yang bervariasi, atau kontinum null yang mendasari, yang dengannya puncak spektral dapat diuji signifikansinya. Pendekatan ini adalah alternatif dari spesifikasi bentuk fungsional dari kontinum null (misalnya spektrum AR). Jawaban: Jalankan skrip geosa6.m dan jawab pertanyaan yang tercantum dalam file di a6.pdf Definisi: periodogram mentah, filter Daniell, rentang filter, kelanjutan kontinuitas null, stabilitas dan resolusi spektrum meruncing, padding, kebocoran Empat langkah utama dalam memperkirakan Spektrum oleh periodogram yang merapikan Bagaimana pengaruh pilihan bentang filter pada kelancaran, stabilitas dan resolusi spektrum Bagaimana kontinum null digunakan dalam pengujian untuk kepentingan puncak spektral Bagaimana menerapkan geosa6.m untuk memperkirakan spektrum suatu waktu Seri dengan metode periodogram merapikan dan uji periodisitas pada frekuensi tertentu Tren dalam deret waktu adalah perubahan bertahap dan lambat dalam beberapa properti seri selama keseluruhan interval yang sedang diselidiki. Trend kadang-kadang didefinisikan secara longgar sebagai perubahan jangka panjang dalam mean (Gambar 7.1), namun juga dapat merujuk pada perubahan pada sifat statistik lainnya. Misalnya, rangkaian cincin pohon dari lebar cincin yang diukur sering memiliki kecenderungan yang berbeda dan juga mean (Gambar 7.2). Dalam analisis deret waktu tradisional, deret waktu didekomposisi menjadi tren, komponen musiman atau periodik, dan fluktuasi yang tidak teratur, dan berbagai bagian dipelajari secara terpisah. Teknik analisis modern sering memperlakukan seri tanpa dekomposisi rutin seperti itu, namun pertimbangan tren yang terpisah masih sering dibutuhkan. Detrending adalah operasi statistik atau matematis untuk menghilangkan tren dari rangkaian. Detrending sering diterapkan untuk menghilangkan fitur yang diduga mendistorsi atau mengaburkan hubungan yang diminati. Dalam klimatologi, misalnya, tren suhu akibat pemanasan kota mungkin mengaburkan hubungan antara keruh dan suhu udara. Detrending juga kadang-kadang digunakan sebagai langkah preprocessing untuk mempersiapkan time series untuk analisis dengan metode yang mengasumsikan stationarity. Banyak metode alternatif tersedia untuk detrending. Tren linier sederhana dalam mean dapat dihapus dengan mengurangkan garis lurus kuadrat terkecil. Tren yang lebih rumit mungkin memerlukan prosedur yang berbeda. Sebagai contoh, spline smoothing kubik biasanya digunakan dalam dendrochronology agar sesuai dan menghilangkan tren ring-width yang mungkin tidak linier, atau bahkan tidak meningkat secara monoton atau menurun seiring berjalannya waktu. Dalam mempelajari dan menghilangkan kecenderungan, penting untuk memahami efek detrending pada sifat spektral deret waktu. Efek ini dapat diringkas dengan respon frekuensi fungsi detrending. Jawaban: Jalankan skrip geosa7.m dan jawab pertanyaan yang tercantum dalam file di a7.pdf Definisi: respons frekuensi, spline, spline kubik spline Pro dan kontra rasio vs perbedaan detrending Interpretasi istilah dalam persamaan untuk parameter spline Bagaimana memilih Spline secara interaktif dari respons frekuensi yang diinginkan Bagaimana spektrum dipengaruhi oleh detrending Bagaimana mengukur pentingnya komponen tren dalam deret waktu Bagaimana menerapkan geosa7.m untuk secara interaktif memilih fungsi detrending spline dan detrend time series Perkiraan spektrum suatu waktu Series memberikan distribusi varians sebagai fungsi frekuensi. Bergantung pada tujuan analisis, beberapa frekuensi mungkin lebih menarik daripada yang lain, dan ini mungkin berguna untuk mengurangi amplitudo variasi pada frekuensi lain dengan menyaringnya secara statistik sebelum melihat dan menganalisis rangkaian. Misalnya, variasi frekuensi tinggi (dari tahun ke tahun) dalam catatan debit terukur dari daerah aliran sungai mungkin relatif tidak penting untuk persediaan air di baskom dengan waduk besar yang dapat menyimpan beberapa tahun limpasan rata-rata tahunan. Bila variasi frekuensi rendah menjadi perhatian utama, diharapkan untuk memperlancar catatan debit untuk menghilangkan atau mengurangi fluktuasi periode pendek sebelum menggunakan catatan debit untuk mempelajari pentingnya variasi iklim terhadap persediaan air. Smoothing adalah bentuk penyaringan yang menghasilkan deret waktu di mana pentingnya komponen spektral pada frekuensi tinggi berkurang. Insinyur listrik menyebut filter jenis filter low-pass ini, karena variasi frekuensi rendah diperbolehkan melewati filter. Pada filter low-pass, frekuensi rendah (periode lama) ombak hampir tidak terpengaruh oleh smoothing. Hal ini juga memungkinkan untuk menyaring rangkaian sedemikian rupa sehingga variasi frekuensi rendah berkurang dan variasi frekuensi tinggi tidak terpengaruh. Filter jenis ini disebut filter high-pass. Detrending adalah bentuk high-pass filtering: garis tren yang dipasang melacak frekuensi terendah, dan residu dari garis tren memiliki frekuensi rendah yang dilepaskan. Jenis filter ketiga, yang disebut penyaringan band-pass, mengurangi atau menyaring frekuensi tinggi dan rendah, dan meninggalkan beberapa pita frekuensi menengah yang relatif tidak terpengaruh. Dalam pelajaran ini, kita membahas beberapa metode perataan, atau penyaringan low-pass. Kita sudah membahas bagaimana spline smoothing kubik mungkin berguna untuk tujuan ini. Empat jenis filter lainnya dibahas di sini: 1) simple moving average, 2) binomial, 3) Gaussian, dan 4) windowing (metode Hamming). Pertimbangan dalam memilih jenis filter low-pass adalah respons frekuensi yang diinginkan dan rentang, atau lebar filter. Jawaban: Jalankan skrip geosa8.m dan jawab pertanyaan yang tercantum dalam file di a8.pdf Definisi: filter, bobot filter, rentang filter, filter low-pass, filter high-pass, tanggapan frekuensi filter band-pass filter Bagaimana Gaussian Filter berhubungan dengan distribusi Gaussian Bagaimana membangun sebuah filter binomial sederhana secara manual (tanpa komputer) Bagaimana menggambarkan fungsi respons frekuensi dalam hal sistem dengan input dan output sinusoidal Bagaimana menerapkan geosa8.m untuk merancang secara interaktif Gaussian, binomial Atau filter lowpass Hamming-window untuk rangkaian waktu Koefisien korelasi product moment Pearson mungkin merupakan statistik tunggal yang paling banyak digunakan untuk meringkas hubungan antara dua variabel. Signifikansi statistik dan peringatan interpretasi koefisien korelasi sebagaimana diterapkan pada deret waktu adalah topik pelajaran ini. Dengan asumsi tertentu, signifikansi statistik dari koefisien korelasi bergantung hanya pada ukuran sampel, yang didefinisikan sebagai jumlah pengamatan independen. Jika deret waktu diautokorelasi, ukuran sampel efektif, lebih rendah dari ukuran sampel sebenarnya, harus digunakan saat mengevaluasi signifikansi. Hubungan transien atau palsu dapat menghasilkan korelasi yang signifikan untuk beberapa periode dan bukan untuk yang lain. Variasi waktu kekuatan korelasi linier dapat diperiksa dengan plot korelasi yang dihitung untuk jendela geser. Tetapi jika banyak koefisien korelasi dievaluasi secara bersamaan, interval kepercayaan harus disesuaikan (penyesuaian Bonferroni) untuk mengkompensasi kemungkinan peningkatan pengamatan beberapa korelasi tinggi dimana tidak ada hubungan. Interpretasi korelasi geser juga dapat dipersulit oleh variasi waktu mean dan varians dari seri, karena korelasi geser mencerminkan kovariat dalam hal penyampaian standar dari mean pada jendela waktu yang diminati, yang mungkin berbeda dari mean jangka panjang. Akhirnya, perlu ditekankan bahwa koefisien korelasi Pearson mengukur kekuatan hubungan linier. Scatterplots berguna untuk memeriksa apakah hubungan itu linier. Jawaban: Jalankan skrip geosa9.m ​​dan jawab pertanyaan yang tercantum dalam file di a9.pdf Definisi matematika dari koefisien korelasi Asumsi dan hipotesis untuk uji signifikansi koefisien korelasi Bagaimana menghitung tingkat signifikansi koefisien korelasi dan untuk menyesuaikan tingkat signifikansi untuk autokorelasi dalam Seri waktu individu Peringatan untuk interpretasi koefisien korelasi Bonferroni penyesuaian terhadap tingkat signficance korelasi di bawah beberapa perbandingan Inflasi varians estimasi koefisien korelasi ketika deret waktu autokorelasi Kemungkinan efek transformasi data pada korelasi Bagaimana menafsirkan plot dari korelasi geser Bagaimana cara menerapkan geosa9. M untuk menganalisis korelasi dan korelasi geser antara pasangan deret waktu Hubungan tertinggal adalah karakteristik dari banyak sistem fisik alami. Korelasi tertunda mengacu pada korelasi antara dua deret waktu yang bergeser dalam waktu relatif terhadap satu sama lain. Korelasi tertunda penting dalam mempelajari hubungan antara deret waktu karena dua alasan. Pertama, satu seri mungkin memiliki respons tertunda terhadap seri lainnya, atau mungkin respons tertunda terhadap stimulus umum yang mempengaruhi kedua seri. Kedua, respon dari satu seri ke rangkaian lainnya atau stimulus luar dapat diolesi pada waktunya, sehingga stimulus yang dibatasi pada satu pengamatan menghasilkan respons pada beberapa pengamatan. Misalnya, karena penyimpanan di waduk, gletser, dan lain-lain, pelepasan volume sungai dalam satu tahun mungkin bergantung pada curah hujan pada beberapa tahun sebelumnya. Atau karena perubahan pada kepadatan mahkota dan penyimpanan fotosintat, lebar cincin pohon dalam satu tahun mungkin bergantung pada iklim beberapa tahun sebelumnya. Koefisien korelasi sederhana antara kedua seri yang selaras dengan tepat waktu tidak mencukupi untuk mengkarakterisasi hubungan dalam situasi seperti itu. Fungsi yang berguna yang akan kita ulas sebagai alternatif untuk koefisien korelasi sederhana adalah fungsi cross-correlation dan fungsi respon impuls. Fungsi cross-correlation adalah korelasi antara seri bergeser satu sama lain sebagai fungsi dari jumlah pengamatan offset. Jika seri individu diautokorelasi, fungsi korelasi silang diperkirakan dapat terdistorsi dan menyesatkan sebagai ukuran hubungan yang tertinggal. Kita akan melihat dua pendekatan untuk mengklarifikasi pola korelasi silang. Salah satunya adalah untuk secara individu menghilangkan ketekunan dari, atau prewhiten, seri sebelum estimasi korelasi silang. Dalam pendekatan ini, kedua seri pada dasarnya dianggap setara. Alternatifnya adalah pendekatan sistem: lihat seri sebagai sistem linier dinamis - satu seri input dan output lainnya - dan perkirakan fungsi respons impuls. Fungsi respon impuls adalah respon output pada saat ini dan masa depan terhadap pulsa input hipotetis yang dibatasi pada waktu saat ini. Answer: Run script geosa10.m and answer questions listed in the file in a10.pdf Definitions: cross-covariance function, cross-correlation function, impulse response function, lagged correlation, causal, linear How autocorrelation can distort the pattern of cross-correlations and how prewhitening is used to clarify the pattern The distinction between the equal footing and systems approaches to lagged bivariate relationships Which types of situations the impulse response function (irf) is an appropriate tool How to represent the causal system treated by the irf in a flow diagram How to apply geos10.m to analyze the lagged cross-correlation structure of a a pair of time series Multiple linear regression Multiple linear regression (MLR) is a method used to model the linear relationship between a dependent variable and one or more independent variables. The dependent variable is sometimes also called the predictand, and the independent variables the predictors. MLR is based on least squares: the model is fit such that the sum-of-squares of differences of observed and predicted values is minimized. MLR is probably the most widely used method in dendroclimatology for developing models to reconstruct climate variables from tree-ring series. Typically, a climatic variable is defined as the predictand and tree-ring variables from one or more sites are defined as predictors. The model is fit to a period -- the calibration period -- for which climatic and tree-ring data overlap. In the process of fitting, or estimating, the model, statistics are computed that summarize the accuracy of the regression model for the calibration period. The performance of the model on data not used to fit the model is usually checked in some way by a process called validation. Finally, tree-ring data from before the calibration period are substituted into the prediction equation to get a reconstruction of the predictand. The reconstruction is a prediction in the sense that the regression model is applied to generate estimates of the predictand variable outside the period used to fit the data. The uncertainty in the reconstruction is summarized by confidence intervals, which can be computed by various alternative ways. Answer: Run script geosa11.m (Part 1) and answer questions listed in the file in a11.pdf The equation for the MLR model Assumptions for the MLR model Definitions of MLR statistics: coefficient of determination, sums-of-squares terms, overall-F for the regression equation, standard error of the estimate, adjusted R-squared, pool of potential predictors The steps in an analysis of residuals How to apply geosa11.m (part 1) to fit a MLR regression model to predict one variable from a set of several predictor variables Validating the regression model Regression R-squared, even if adjusted for loss of degrees of freedom due to the number of predictors in the model, can give a misleading, overly optimistic view of accuracy of prediction when the model is applied outside the calibration period. Application outside the calibration period is the rule rather than the exception in dendroclimatology. The calibration-period statistics are typically biased because the model is tuned for maximum agreement in the calibration period. Sometimes too large a pool of potential predictors is used in automated procedures to select final predictors. Another possible problem is that the calibration period itself may be anomalous in terms of the relationships between the variables: modeled relationships may hold up for some periods of time but not for others. It is advisable therefore to validate the regression model by testing the model on data not used to fit the model. Several approaches to validation are available. Among these are cross-validation and split-sample validation. In cross-validation, a series of regression models is fit, each time deleting a different observation from the calibration set and using the model to predict the predictand for the deleted observation. The merged series of predictions for deleted observations is then checked for accuracy against the observed data. In split-sample calibration, the model is fit to some portion of the data (say, the second half), and accuracy is measured on the predictions for the other half of the data. The calibration and validation periods are then exchanged and the process repeated. In any regression problem it is also important to keep in mind that modeled relationships may not be valid for periods when the predictors are outside their ranges for the calibration period: the multivariate distribution of the predictors for some observations outside the calibration period may have no analog in the calibration period. The distinction of predictions as extrapolations versus interpolations is useful in flagging such occurrences. Answer: Run script geosa11.m (Part 2) and answer questions listed in the file in a12.pdf Definitions: validation, cross-validation, split-sample validation, mean square error (MSE), root-mean-square error (RMSE) standard error of prediction, PRESS statistic, hat matrix, extrapolation vs interpolation Advantages of cross-validation over alternative validation methods How to apply geosa11.m (part 2) for cross-validated MLR modeling of the relationship between a predictand and predictors, including generation of a reconstruction and confidence bands Downloading Files -- tsfiles. zip The Matlab class scripts and user-written functions are zipped in a file called tsfiles. zip. To get the files, first create an empty directory on your computer. This is where you will store all functions, scripts and data used in the course. Go to D2L, or click on tsfiles. zip to download the zip file to that directory and unzip it there. When you run matlab, be sure that directory is your current matlab working directory. Powerpoint lecture outlines miscellaneous files. Downloadable file other. zip has miscellaneous files used in lectures. Included are Matlab demo scripts, sample data files, user-written functions used by demo scripts, and powerpoint presentations, as pdfs (lect1a. pdf, lect1b. pdf, etc.) used in on-campus lectures. I update other. zip over the semester, and add the presentation for the current lecture within a couple of days after that lecture is given. To run the Matlab scripts for the assignments, you must have your data, the class scripts, and the user-written Matlab functions called by the scripts in a single directory on your computer. The name of this directory is unimportant. Under Windows, it might be something like C:geos585a. The functions and scripts provided for the course should not require any tailoring, but some changes can be made for convenience. For example, scripts and functions will typically prompt you for the name of your input data file and present Spring17 as the default. That is because Ive stored the sample data in Spring17.mat. If you want to avoid having to type over Spring17 with the name of your own data file each time you run the script, edit the matlab script with the Matlab editordebugger to change one line. In the editor, search for the string Spring17 and replace it with the name of your. mat storage file (e. g. Smith2017), then be sure to re-save the edited script. STA101 Introduction to Probability and Statistics STA102 Exploratory Data Analysis STA103 Principles of Sample Surveys STA121 Programming Methodology STA122 Computational Methods and Data Analysis I SMA101 Basic Mathematics SMA103 Calculus I SMA104 Calculus II SMA106 Calculus III STA 101: Introduction to Probability and Statistics Frequency distributions, relative and cumulative distributions, various frequency curves, mean, mode, median, quartiles and percentiles, standard deviation, symmetrical and skewed distributions. Probability: sample space and events definition of probability, properties of probability random variables probability distributions expected values of random variables. Elements of Markov chains. Co-requisites . SMA101, SMA103 STA 102: Exploratory Data Analysis Data, grouping data, graphs and charts, standard leaf diagrams, Box and Whisker diagrams. Variables and their frequency distributions, summary measures. The comparison problem - an exploratory view. An exploratory look at association. The staircase and the short cut to inference. Distributions and their troubles. Kinds of nonnormality and robustness. The role of vague concepts. Indication, determination or inference. Indication and indicators. Data analysis and computer graphics. Graphs on determination and inference. Methods of assessing real uncertainty, Bayesian ideas, empirical priors, Bayes theorem. Prior information for normal data binomial data and beta priors Poisson data and gamma priors. Binomial probability paper the normal probability paper. STA 103: Principles of Sample Surveys Uses, scope and advantages of sample survey types of survey survey organisation sample survey design. Purposive, probability and quota sampling. Simple random sampling stratified sampling systematic sampling multistage sampling and pps selections. Estimation of means, totals and proportions variance calculations. Sampling error. Sources of error, nonresponse. Management of surveys. STA 121: Programming Methodology Principles of computer organisation. Information storage. Bits, bytes, words, ordinary and floating point representation of numbers. Character codes. Structured programming using high level language e. g. Pascal. FORTRAN, C programme structure. Abstract data types. Mathematical expressions and operations. Logical expressions and operations. Control structures. Functions. Procedures. Report and display design, library procedures. Types of problems computers can solve. General structure of installation mainframe versus stand alone micro computers: networking operating systems, compiler systems and utilities. STA 122: Computational Methods and Data Analysis I Computer graphics. Statistical packages and libraries. Role of computers in data bases. Survey applications. Number systems errors and accuracy interpolation finite differences difference equations successive approximation or iterative techniques. Numerical solution of non-linear equations. Writing programs to implement numerical algorithms. Application of numerical analysis, software packages such as NAG. Pre-requisites: STA121, STA103, SMA103 STA201 Probability and Statistics I STA202 Principles of Statistical Inference STA221 Economic and Social Statistics STA222 Introduction to Time Series Analysis STA223 Operations Research I STA224 Computational Methods and Data Analysis II SMA201 Advanced Calculus SMA203 Linear Algebra I SMA204 Linear Algebra II SMA205 Introduction to Algebra SMA208 Ordinary Differential Equations STA201: Probability and Statistics I Particular distributions: Bernoulli, binomial, Poisson, geometric, hypergeometric, uniform, exponential and normal random variables and their distributions. Bivariate frequency distributions. Joint probability tables and marginal probabilities. Moments and moment generating function. Markov and Chebychev inequalities. Special univariate distributions. Bivariate probability distributions joint marginal and conditional distributions Independence Bivariate expectation Regression and Correlation Calculation of regression and correlation coefficients for bivariate data. STA202: Introduction to Statistical Inference Meaning of statistics, objectives of statistical investigation. Statistical decision problems, basic concepts of inference. Role of normal distribution in statistics. Random samples, use of random number tables. Inference about population means: point and interval estimates, simple one sample and two sample tests. Linear regression and correlation analysis. Analysis of variance. Analysis of frequency data. Simple nonparametric tests. STA221: Economic and Social Statistics Economic Statistics: Gross domestic product, index numbers, retail price index, consumer price index, product index balance of payments and trade statistics. Demography: Scope, uses and sources of demographic and socio-economic data methods of enumeration demographic concepts and measures current and cohort methods of description and analysis rates and ratios standardisation construction of life tables. Measurement of fertility, mortality and nuptiality. Determinants of age structure and the intrinsic growth rate. Survey data interpretation of demographic statistics, tests of consistency and reliability. Social Statistics: Nature of social statistics sources of social statistics conceptual problems validity and reliability concepts definition and classification. Measurement problems in social surveys socio-economic indicators. Studies in the integration of social statistics. History of Statistics development in Kenya. Sources and methods in official statistics in Kenya. STA222 Introduction to Time Series Analysis An introduction to time series in time domain and spectral domain. Estimation of trends and seasonal effects, autoregressive moving average models, forecasting, indicators, harmonic analysis, spectra. STA223: Operations Research I Linear programming: Formulation of LP problems. The simplex algorithms duality theory and economic interpretations. Post optimality (sensitivity) analysis. Introduction to transportation and assignment problems. Survey of continuous optimisation problems. Unconstrained optimisation problems and methods of solution. Introduction to constrained optimisation. Integer programming methods of integer programming. STA224: Computational Methods and Data Analysis II Numerical solution of linear systems numerical evaluation of eigenvalues and eigenvectors. Numerical integration and differentiation. Data structures, arrays and their implementation, strings application and implementation of stacks, queues, linked lists, trees and graphs: Survey application, questionnaire design data processing, data editing and correction editing and imputation principles writing of edit specification, use of an edit specification, use of an edit package. Tabulation, table design, writing of a table specification use of a tabulation package. Writing programs to implement numerical algorithms. Application of numerical analysis software package such as NAG. Simulation: random and pseudo random numbers generation of uniform variates outline of tests, mention of physical devices for uniform generators generation of variates from standard distributions e. g. normal, exponential etc. Pre-requisites: STA122, STA201 STA301 Probability and Statistics II STA302 Linear Modelling I STA303 Theory of Estimation STA304 Testing Hypotheses STA305 Probability Modelling STA306 Applied Time Series Analysis I STA307 Analysis of Experimental Designs I STA308 Sample Survey Theory and Methods I STA321 Operations Research II STA322 Computational Methods and Data Analysis III STA318 Statistical Inference I STA301: Probability and Statistics II Distribution functions of random variables bivariate normal distribution. Derived distributions such as chi-square, t and F. Statistical independence. Random samples. Multinomial distributions. Functions of several random variables. The independence of and S 2 in normal samples. Order statistics. Convergence and limit theorems. STA302: Linear Modelling I Linear models: linear regression analysis, analysis of variance and covariance, diagnostics of residuals, transformations. Non-linear regression: use of transformations, polynomial regression. Large sample theory for non-normal linear models. Collinearity. Outliers. Random effects models estimation of variance components in one-way and two-way models. GLIM package. Pre-requisite . STA303 Co-requisite: STA304 STA303: Theory of Estimation Properties of point estimators. Sufficient statistics, the factorisation criterion complete statistics. Minimum variance unbiased estimators Cramer-Rao inequality Fisher information efficient estimators. Maximum likelihood estimators and their properties. Interval estimation. Least squares estimation in linear models: simple linear model, the general linear model weighted least squares interval estimation in linear models. STA304: Testing Hypotheses Concepts of statistical hypothesis and statistical test optimal tests, Neyman Pearson lemma properties of tests unbiasedness, consistency confidence sets and tests generalised likelihood ratio tests tests for correlation and regression, general linear hypotheses. STA305: Probability Modelling Stochastic processes, definition and examples. Bernoulli process: probability model, waiting times. Markov chains: discrete time Markov chains, holding times, stationary distributions, classification of states. Birth and death processes, stationary distributions. Queuing models: deterministic approximations, examples of queuing systems, application to arrival and departure processes, heavy traffic etc. STA306: Applied Time Series Analysis I Stationary time series, removal of trend and seasonal differences, moments and autocorrelation. Simple autoregressive and moving average models, moments and autocorrelations, the conditions of stationarity invertibility. Mixed (ARMA) models and the AR representation of MA and ARMA models. Fitting and testing time series models. Forecasting, methods of forecasting, scientific forecasting, basic forecasting models, forecasting criteria. Model building and identification. Series used as examples: simulated series, stock market prices etc. STA307: Analysis of Experimental Designs I General principles: randomisation, replication, blocking, covariates, orthogonality, balance, logical control or error, sequential design. Estimation of treatment contrasts and their precision, treatment structure comparison with a control. Some common designs: completely randomised design, randomised complete block design, rationale for blocking latin squares, rationale, randomisation, analysis relative merits of designs. Introduction to factorial experiments: 2 2 and 2 3 designs calculation and interpretation of effects and interactions. Incomplete block design, optimality criteria. Crossed and nested block structures. Pre-requisite: STA202, Co-requisites STA302, STA304 STA308: Sample Survey Theory and Methods I Review of general principles of survey design. Populations and sampling frames. Simple random sampling properties of estimates, determination of sample size. Ratio and regression estimation. Stratification, optimality considerations. One-stage and two-stage cluster sampling. Systematic sampling. Multistage designs. Criteria for choosing sampling designs. Pre-requisites: STA201, STA103. STA318: Statistical Inference I Properties of point estimators: unbiasedness, sufficiency, minimal sufficiency, consistency, relative efficiency, minimum variance unbiased estimators evaluating the goodness of a point estimator. Method of moments, maximum likelihood estimators and their properties. Confidence intervals, large and small sample intervals. Concepts of statistical hypothesis and statistical test optimal tests, calculation of size and power of a test finding the sample size. Neyman Pearson lemma properties of tests - unbiasedness, consistency. Likelihood ratio tests-common large sample tests. Bayesian estimation Bayesian tests and confidence sets. Fundamental aspects of nonparametric inference such as rank, permutation and goodness of fit tests nonparametric estimation of quantiles and density functions robust estimation of location and scale parameters. Pre-requisites: STA202, STA301 Note: STA318 must not be taken together with STA303 andor STA304 STA321: Operations Research II Aims and scope of stochastic modelling. Decisions under risk, decision trees, decisions under uncertainty. Markov decision processes, dynamic programming models linear programming solution of the Markovian decision problem. Queuing models, types of queues roles of Poisson and exponential probability models queues with combined arrivals and departures queues with priorities of service. Traffic flow models. Inventory models, practical stock systems types of inventory scheduling policies storage models. Simulation models, roles of random numbers simulation experiments Monte Carlo calculus and variance reduction techniques, simulation as estimation, control variates, antithetic variates, stratified and importance sampling choice of sampling size. Analogue simulation systems e. g. queues, inventories, traffic networks, storage systems. Pre-requisites: STA223, STA201 STA322: Computational Methods and Data Analysis III Application of statistical packages (e. g. GLIM, SPSS, SPLUS, GENSTAT, etc) in statistical data analysis. Simulation of simple deterministic and stochastic systems simulation of inventory and stock control systems, queuing systems, traffic networks etc. Polynomial interpolation, spline approximation, solution of ordinary differential equations. Stability and efficiency concepts. Monte Carlo methods. Management information systems management of information systems. File systems and database systems database design. Project management and implementation use of computer development tools, Case studies. Report writing, presentations. Data communication and networks, applications case studies. Pre-requisite: STA 224 STA401 Measure, Probability and Integration STA402 Bayesian Inference and Decision Theory STA403 Nonparametric Methods STA404 Applied Multivariate Methods STA420 Project in Statistics Statistical Theory and Methods STA405 Linear Modelling II STA406 Applied Stochastic Processes STA407 Analysis of Experimental Designs II STA408 Robust Methods and Nonparametrics STA409 Applied Time Series Analysis II STA410 Sample Survey Theory and Methods II STA419 Statistical Inference II Applied Statistical Methods STA421 Operations Research III STA422 Stochastic Models for Social Processes STA423 Stochastic Models for Biological Processes STA424 Statistical Methods for Industrial Processes STA425 Statistical Demography STA426 Applied Population Analysis STA428 Applied Demography STA429 Econometric Models I STA430 Econometric Models II STA432 Applied Econometrics STA434 Survey Research Methods STA435 Biometrics Methods I STA436 Biometrics Methods II STA437 Survival Analysis STA 4 01: Measure, Probability and Integration Measure and integration: Measurable functions, measures, measure space integration, monotone convergence theorem, Fatous lemma convergence theorems Radon Nikodym theorem Lebesgue decomposition. Probability Theory: Probability as a measure probability space random variables distribution functions and characteristic functions. Sums of random variables, independence. Modes of convergence of sequences of random variables. Borel-Canteli lemmas and the zero-one laws, laws of large numbers and central limit theorem. Pre-requisites . SMA206, STA301 STA 402: Bayesian Inference and Decision Theory Elements of decision theory: Statistical games the no data problem. Loss and regret, mixed actions, the minimax principle, Bayes actions decision with sample data decision rules, risk function, Bayes decision rules. Bayesian inference: Problems associated with classical approach Bayes approach: prior and posteri distributions specification of prior distribution Bayesian estimation, properties of Bayes estimators Bayesian tests and confidence sets examples of situations where Bayesian and classical approaches give equivalent or nearly equivalent results. One-parameter and multiparameter models, predictive checking and sensitivity analysis. Simulation of probability distributions. Sequential methods: Sequential probability ratio test Stein fixed width confidence intervals. Current methodological issues in Statistics. Pre-requisites: STA301, STA304 STA403: Non parametric Methods Nonparametric inference, simple one-sample tests order statistics, empirical distribution function, ranks and runs general nature of nonparametric tests, allocation of scores, confidence intervals efficiency and robustness considerations dealing with tied observations. Goodness of fit tests. General two-sample and c-sample problems linear rank tests Wilcoxons rank sum test use of rank sum procedures for assessing symmetry and in analysis of variance Friedman test, two-sample tests of dispersion. Measures and tests for association analysis of contingency tables Kendalls t, Spearmans rank correlation coefficient of concordance. Efficiency of nonparametric procedures. STA404: Applied Multivariate Methods Practical Examples of multivariate data summarising multivariate data, mean vectors and covariance matrices, correlation matrix. The multinormal distribution. Sampling from the multinormal, MLEs and tests for the mean vector simultaneous confidence intervals tests of structural relationship. Testing equality of two population means. MLEs of partial and multiple correlations and tests testing for complete independence canonical correlations and variates, test of canonical correlation and reduction in dimensionality. Classification into one of two populations. Calculation and interpretation of principal components. Elements of multivariate analysis of variance, one-way grouping and two-way grouping without interaction. STA405: Linear Modelling II Analysis of the general linear model: model building, model selection and validation, variable selection stepwise and best subset regression. Introduction to response surface methodology. Modelling under prior and additional information, ridge regression. Modelling of nonnormal data. Treatment of outliers in regression models. Robustness, graphical techniques. Generalised linear models, measurement of association in two-way tables log-linear and other models for contingency tables logit, probit, categorical data, score tests, case studies. STA406: Applied Stochastic Processes Review of Random phenomena in time and space, mention of point processes, distributions, stationarity. Theory of recurrent events. Martingales, stopping times. Markov processes. Brownian motion. Renewal theory, the key renewal theorem the renewal equation. Stochastic differential equations. STA407: Analysis of Experimental Designs II Review of experimental and statistical objectives. General 2 n design, confounding of one or more effects, partial confounding: fractional replication block compositions. Factors at 3 levels 3 2 and 3 3 experiments with and without confounding, estimation of effects. Split plot designs. Incomplete block designs: nature and need for incomplete blocks types of designs, balanced designs, balanced incomplete block design, intra and inter block analysis partially balanced incomplete blocks-two associate classes only. Youden squares lattice designs relative merits of designs. Planning of experiments choice of design, economic considerations, treatment design experimental design. Determination of optimum plotblock size and shape. STA408: Robust Methods and Nonparametrics Distribution-free methods permutation theory. Robust estimation influence functions. Semi-empirical inference, Monte-Carlo methods, simulation models Jacknife and bootstrapping. Robust regression. Pre-requisites: STA403, STA405 STA409: Applied Time Series Analysis II Probability models for time series, stationary processes, the autocorrelation function pure random process, MA and AR processes mixed models, integrated models the general linear process, continuous processes. Model identification and estimation, estimating the autocovariance and autocorrelation functions fitting AR and MA processes estimating the parameters of mixed and integrated models the Box-Jenkins seasonal model residual analysis. Forecasting, univariate and multivariate procedure prediction theory. Spectral theory, the spectral density function Fourier analysis and harmonic decompositions periodogram analysis spectral analysis, effects of linear filters estimation of spectra confidence intervals for the spectrum. STA410: Sample Survey Theory and Methods II The history of survey sampling. Techniques of sample design: multiphase designs selection with probability proportional to size (PPS) general aspects of replicated and successive sampling panel design model based sampling. Bias and nonresponse: sources of survey errors, non-coverage, nonresponse. African household survey capability program: scope, types of surveys undertaken, sampling techniques used, issues and problems. Use of appropriate software to calculate standard errors. STA419: Statistical Inference II Elements of Statistical decision theory. Bayesian methods: prior and posterior distribution. Bayesian estimation. properties of Bayes estimators, one-parameter and multiparameter models, hierarchical models, predictive checking and sensitivity analysis. Simulation of probability distributions. Nonparametric inference: Order statistics, empirical distribution functions, ranks and runs confidence intervals. Linear rank tests. Measures and tests of association analysis of contingency tables. Efficiency of nonparametric procedures. Pre-requisite . STA318 Note: STA419 Must not be taken with STA402 andor STA403 STA 420: Project in Statistics The project is undertaken during the second semester in the fourth year of study and is equivalent to one course unit. A satisfactory report must be completed, marked by both the students supervisor(s) and the external examiner, and presented in a final oral examination. The project shall be graded independently out of a maximum of 100 marks distributed as follows: 70 for project report and 30 for oral presentation. STA 421: Operations Research III Dynamic programming and heuristics. Project scheduling probability and cost considerations in project scheduling project control. Critical path analysis. Reliability problems replacement and maintenance costs discounting group replacement, renewal process formulation, application of dynamic programming. Queuing theory in practice: obstacles in modelling queuing systems, data gathering and testing, queuing decision models, case studies. Game theory, matrix games minimax strategies, saddle points, mixed strategies, solution of a game. Behavioural decision theory, descriptive models of human decision making the use of decision analysis in practice. STA422: Stochastic Models For Social Processes The statistical analysis for labour turnover Markov chains and renewal models for manpower forecasting and control career prospects, demand forecasting. Models for size and duration, open and closed Markov models for social and occupational mobility, models for the diffusion of news and rumours and competition for social groups. Criteria for establishing priorities in planning in advanced and developing countries. Methods for forecasting the demand for education and the demand and supply of teachers. Methods of forecasting manpower requirement. Computable models for the education system. STA423: Stochastic Models for Biological Processes Basic laws of genetics mutation, inherited defects in man, their persistence and geographical variation genetic counselling measures of relationship and identity effects of inbreeding genetic linkage Markov models in population genetics. Recovery, relapse, and death due to disease cell survival after irradiation compartmental analysis. Epidemic models, deterministic and stochastic versions models for the control of infectious diseases models for the management of insect pest populations. Leslie matrix models, application in management of natural resources. STA424: Statistical Methods for Industrial Processes Tolerance limits process control. R, p and c charts, their construction and use cusum charts, V-mask and decision interval procedures and their properties. Acceptance sampling for attributes and variables operating characteristic curve and average run length single, double, sequential plans choice in light of producers and consumers risks and by decision theory approach. Models of systems running in time. Stock control models. Reliability problems. STA425: Statistical Demography Simple models of population growth analysis of mortality using life tables model life tables continuous and multiple decrement formulations statistical properties of life table estimators proportional hazards and multistate life tables. Stable and stationary populations and their use for estimation of demographic parameters continuous formulation of population dynamics equation solutions of renewal equation. Discrete formulation of population projections. Parity progression ratios. Mathematical models for fertility and mortality schedules. Quantitative models of nuptiality models of reproductivity and measurement of fecundability. Analytic and simulation approaches to reproductivity and household structure. Sources of demographic data. Pre-requisite . SMA106, SMA208, STA221 STA426: Applied Population Analysis This course is intended to deal with the use of demographic concepts and techniques in social, economic, and medical planning and research. Examples of topics to be dealt with include: The use of population projections at national level studies of provision of places in higher education the momentum of population growth in developing countries the application of regional and local projections in planning housing, schooling etc manpower planning household and family structure and composition impact of contraception and abortion on fertility the use of survey data in assessing family planning programmes womens participation in labour force the impact of breast feeding on fertility and infant mortality inputs to planning of primary health care occupational mortality unemployment and mortality. STA428: Applied Demography Collection of demographic data: Historical development of demographic statistics stages involved in planning a census content of census and survey schedules basic response errors structure of census organisations vital registration, types of demographic sample survey the World Fertility Survey Programme. Demographic sampling and survey design: Applications of principles of statistical sampling to demographic surveys types of demographic sample survey designs questionnaire and schedule design. Evaluation of family planning programmes: Aims of programmes methods of evaluation evaluation of programmes demographic impact, methods of analysis case studies. Report Writing on analysis of demographic data: Evaluation of data analysis and checking for consistency and convergence of parameters interpretations of findings implications for planning and policy formulation conclusions. STA429: Econometric Models I Sources of data, national accounts, price indices. Econometrics methods and applications aggregated and desegregated models models of the national economy, models of sectors. The linear model: multiple regression, t - and F-tests, dummy variables, multicollinearity, general linear restrictions, dynamic models. Time series autoregressive models, seasonal adjustment, generalised least squares, serial correlation, heteroscedasticity, distributed lags, simultaneous equation systems, instrumental variables and two-stage least squares. General linear model, model specification, autocorrelation in linear models. Pre-requisites: STA221, STA302 STA430: Econometric Models II Structural and reduced forms, lagged endogenous variables identifiability, global and local identifiablility, multicollinearity estimation of simultaneous equation systems, subsystems, and single equations types of estimators, their asymptotic properties hypothesis testing, types of tests and their asymptotic properties, testing over-identifying constraints testing for misspecification. STA432: Applied Econometrics Econometric model building and testing probit and tobit analysis use of econometric concepts and techniques in economic and development planning and research models for plan preparation at the enterprise and national levels derivation and use of shadow prices in development planning and project scheduling demand analysis labour market behaviour models of unemployment econometric analysis of inflation monetarist models rational expectations and the natural rate hypotheses models of consumer and investment behaviour use of the standard computer packages in econometrics including practical exercises case studies. STA434: Survey Research Methods This course is intended to deal with the practical issues in the planning, design, execution and management of sample surveys. The course work will consist of several assignments of practical problems. Course Outline: Problems of measurement and scaling attitude measurement study design methods of data collection interviewing techniques questionnaire design response errors structure of interviewer effects problems of and procedures for compensation for non-response. STA435: Biometrics Methods I Biological assay: direct and indirect assays dilution assays dose response relationships parallel line and slope ratio assays multiple assays assays based on quantal responses. Agricultural trials crop weather modelling plot sampling techniques lay out of field experiments combining analyses over sites and seasons planning future experiments. Sampling and estimating biological populations. Longitudinal data analysis: Design considerations exploring longitudinal data generalised linear models for longitudinal data. Pre-requisites: STA302, STA307 STA 436: Biometrics Methods II Clinical trials: protocal design parallel studies cross over designs drop outs and protocal violators repeated measurements multi-centre trials sequential methods. Epidemiological studies: descriptive epidemiology investigative epidemiology causation, case control and cohort studies outbreak investigations community diagnosis sources of bias in epidemiological studies. STA437: Survival Analysis Survival function hazard function cumulative hazard function censoring Kaplan-Meier survival curve parametric and nonparametric representation of the survival and hazard distributions. Two-sample and k-sample tests proportional hazard models accelerated failure time models models for grouped survival data inclusion of covariates - Coxs P. H model applications of model checking competing risks - extensions of Coxs model. Frailty models. Pre-requisites: STA304, STA403.odels II STA432 Applied Econometrics STA434 Survey Research Methods STA435 Biometrics Methods I STA436 Biometrics Methods II STA437 Survival Analysis The complete course requires 8 semesters each of 15 weeks. Flexible registration rules allow students to control their own pace of progress through the programme. The minimum number of units a student may take in one semester is three. The total number of units required in the course is 44. A candidate may be exempted from some course units and credit transferred from approved institutions, subject to the following conditions. (i)Request for exemption should be made in writing, on admission, addressed to the Dean of the Faculty of Science and must be accompanied by officially endorsed supporting documents including the institutions syllabuses for the relevant courses. (ii)Satisfactory performance in applicable examinations in the relevant courses. (iii)Payment of appropriate exemption fees. (iv) No candidate shall be exempted from more than one third of the total number of units required in the course. (v)A candidate may be required to sit and pass applicable University of Nairobi examinations in the relevant course units, provided they have paid the appropriate examinations fees. This is a distinctive feature of the training programme. It consists of a series of practical exercises for each of which students write a report and take part in a class discussion All applicants should hold one of the following minimum qualification or equivalent: (i)Mean grade C at KCSE plus at least grade B in Mathematics. (ii) Diploma in Statistics (iii) Diploma in Computer Studies (iv) Diploma in Education, with mathematics as a major subject. (v) A-level: 2 Principal passes in mathsphysics, mathschem. mathsgeog, mathsecon. (vi) A degree in a mathematical subject from a recognised university. The subject of statistical science is concerned with the application of probability and modern mathematical methods to solve complex and practical problems which involve uncertainty. These uncertainties are usually associated with scientific, technological, economic, biological or environmental problems. The methodology employed draws upon mathematics and probability to establish a theoretical foundation, computing resources for handling data, and an understanding of the scientific method for meaningful application. The B. Sc. course is designed to provide broad education in the basic theory and methods of statistics, that would enable the student to apply the knowledge acquired to a wide range of practical problems in research, industry, economic and social development, agriculture and medical research, etc. The programme provides for four main areas of specialisation: Mathematical Statistics, Economic Statistics, Demography and Social Statistics, and Biometry People trained in Statistical science work in research teams performing such tasks as: Design of survey programmes Econometric modelling of development plans Epidemiological investigations of disease Clinical trials of newly developed drugs Field trials of new crop varieties Surveys of adoption of novel farming methods Modelling in population and quantitative genetics To succeed, statisticians must have a definite competence in mathematics. Mathematical ability is not the sole criterion for success. Statisticians must be able to communicate effectively with investigators untrained in statistical science. The teaching is organised via a combination of lectures, compulsory reading, laboratories and homework. Class attendance is required. Courses are taught in English. Examinations are held at the end of every semester Exploratory Data Analysis Description. Data, grouping data, graphs and charts, standard leaf diagrams, Box and Whisker diagrams. Variables and their frequency distributions, summary measures. The comparison problem - an exploratory view. An exploratory look at association. The staircase and the short cut to inference. Distributions and their troubles. Kinds of nonnormality and robustness. The role of vague concepts. Indication, determination or inference. Indication and indicators. Data analysis and computer graphics. Graphs on determination and inference. Methods of assessing real uncertainty, Bayesian ideas, empirical priors, Bayes theorem. Prior information for normal data binomial data and beta priors Poisson data and gamma priors. Binomial probability paper the normal probability paper. Pre-requisite: STA10 Programming Methodology Description. Principles of computer organisation. Information storage. Bits, bytes, words, ordinary and floating point representation of numbers. Character codes. Structured programming using high level language e. g. Pascal. FORTRAN, C programme structure. Abstract data types. Mathematical expressions and operations. Logical expressions and operations. Control structures. Functions. Procedures. Report and display design, library procedures. Types of problems computers can solve. General structure of installation mainframe versus stand alone micro computers: networking operating systems, compiler systems and utilities. Co-requisite: SMA 101 Probability And Statistics I Description. Particular distributions: Bernoulli, binomial, Poisson, geometric, hypergeometric, uniform, exponential and normal random variables and their distributions. Bivariate frequency distributions. Joint probability tables and marginal probabilities. Moments and moment generating function. Markov and Chebychev inequalities. Special univariate distributions. Bivariate probability distributions joint marginal and conditional distributions Independence Bivariate expectation Regression and Correlation Calculation of regression and correlation coefficients for bivariate data. Pre-requisite: STA101. Economic And Social Science Description. Economic Statistics: Gross domestic product, index numbers, retail price index, consumer price index, product index balance of payments and trade statistics. Demography: Scope, uses and sources of demographic and socio-economic data methods of enumeration demographic concepts and measures current and cohort methods of description and analysis rates and ratios standardisation construction of life tables. Measurement of fertility, mortality and nuptiality. Determinants of age structure and the intrinsic growth rate. Survey data interpretation of demographic statistics, tests of consistency and reliability. Social Statistics: Nature of social statistics sources of social statistics conceptual problems validity and reliability concepts definition and classification. Measurement problems in social surveys socio-economic indicators. Studies in the integration of social statistics. History of Statistics development in Kenya. Sources and methods in official statistics in Kenya. Operations Research I Description. Linear programming: Formulation of LP problems. The simplex algorithms duality theory and economic interpretations. Post optimality (sensitivity) analysis. Introduction to transportation and assignment problems. Survey of continuous optimisation problems. Unconstrained optimisation problems and methods of solution. Introduction to constrained optimisation. Integer programming methods of integer programming. Computational Methods And Data Analysis Ii Description. Numerical solution of linear systems numerical evaluation of eigenvalues and eigenvectors. Numerical integration and differentiation. Data structures, arrays and their implementation, strings application and implementation of stacks, queues, linked lists, trees and graphs: Survey application, questionnaire design data processing, data editing and correction editing and imputation principles writing of edit specification, use of an edit specification, use of an edit package. Tabulation, table design, writing of a table specification use of a tabulation package. Writing programs to implement numerical algorithms. Application of numerical analysis software package such as NAG. Simulation: random and pseudo random numbers generation of uniform variates outline of tests, mention of physical devices for uniform generators generation of variates from standard distributions e. g. normal, exponential etc. Pre-requisites: STA122, STA201 Principles Of Statistical Inference Description. Meaning of statistics, objectives of statistical investigation. Statistical decision problems, basic concepts of inference. Role of normal distribution in statistics. Random samples, use of random number tables. Inference about population means: point and interval estimates, simple one sample and two sample tests. Linear regression and correlation analysis. Analysis of variance. Analysis of frequency data. Simple nonparametric tests. Probability And Statistics Ii Description. Distribution functions of random variables bivariate normal distribution. Derived distributions such as chi-square, t and F. Statistical independence. Random samples. Multinomial distributions. Functions of several random variables. The independence of and S 2 in normal samples. Order statistics. Convergence and limit theorems. Pre-requisite: STA201 Theory Of Estimation Description. Properties of point estimators. Sufficient statistics, the factorisation criterion complete statistics. Minimum variance unbiased estimators Cramer-Rao inequality Fisher information efficient estimators. Maximum likelihood estimators and their properties. Interval estimation. Least squares estimation in linear models: simple linear model, the general linear model weighted least squares interval estimation in linear models. Pre-requisite:STA201 Probability Modelling Description. Stochastic processes, definition and examples. Bernoulli process: probability model, waiting times. Markov chains: discrete time Markov chains, holding times, stationary distributions, classification of states. Birth and death processes, stationary distributions. Queuing models: deterministic approximations, examples of queuing systems, application to arrival and departure processes, heavy traffic etc. Pre-requisite: STA201, Co-requisite: STA301 Analysis Of Experimental Designs I Description. General principles: randomisation, replication, blocking, covariates, orthogonality, balance, logical control or error, sequential design. Estimation of treatment contrasts and their precision, treatment structure comparison with a control. Some common designs: completely randomised design, randomised complete block design, rationale for blocking latin squares, rationale, randomisation, analysis relative merits of designs. Introduction to factorial experiments: 2 2 and 2 3 designs calculation and interpretation of effects and interactions. Incomplete block design, optimality criteria. Crossed and nested block structures. Operations Research Ii Description. Aims and scope of stochastic modelling. Decisions under risk, decision trees, decisions under uncertainty. Markov decision processes, dynamic programming models linear programming solution of the Markovian decision problem. Queuing models, types of queues roles of Poisson and exponential probability models queues with combined arrivals and departures queues with priorities of service. Traffic flow models. Inventory models, practical stock systems types of inventory scheduling policies storage models. Simulation models, roles of random numbers simulation experiments Monte Carlo calculus and variance reduction techniques, simulation as estimation, control variates, antithetic variates, stratified and importance sampling choice of sampling size. Analogue simulation systems e. g. queues, inventories, traffic networks, storage systems. Computational Methods And Data Analysis Iii Description. Application of statistical packages (e. g. GLIM, SPSS, SPLUS, GENSTAT, etc) in statistical data analysis. Simulation of simple deterministic and stochastic systems simulation of inventory and stock control systems, queuing systems, traffic networks etc. Polynomial interpolation, spline approximation, solution of ordinary differential equations. Stability and efficiency concepts. Monte Carlo methods. Management information systems management of information systems. File systems and database systems database design. Project management and implementation use of computer development tools, Case studies. Report writing, presentations. Data communication and networks, applications case studies. Measure, Probabilty And Integration Description. Measure and integration: Measurable functions, measures, measure space integration, monotone convergence theorem, Fatous lemma convergence theorems Radon Nikodym theorem Lebesgue decomposition. Probability Theory: Probability as a measure probability space random variables distribution functions and characteristic functions. Sums of random variables, independence. Modes of convergence of sequences of random variables. Borel-Canteli lemmas and the zero-one laws, laws of large numbers and central limit theorem. Linear Modelling Ii Description. Analysis of the general linear model: model building, model selection and validation, variable selection stepwise and best subset regression. Introduction to response surface methodology. Modelling under prior and additional information, ridge regression. Modelling of nonnormal data. Treatment of outliers in regression models. Robustness, graphical techniques. Generalised linear models, measurement of association in two-way tables log-linear and other models for contingency tables logit, probit, categorical data, score tests, case studies. Analysis Of Experimental Designs Ii Description. Review of experimental and statistical objectives. General 2 n design, confounding of one or more effects, partial confounding: fractional replication block compositions. Factors at 3 levels 3 2 and 3 3 experiments with and without confounding, estimation of effects. Split plot designs. Incomplete block designs: nature and need for incomplete blocks types of designs, balanced designs, balanced incomplete block design, intra and inter block analysis partially balanced incomplete blocks-two associate classes only. Youden squares lattice designs relative merits of designs. Planning of experiments choice of design, economic considerations, treatment design experimental design. Determination of optimum plotblock size and shape. Pre-requisite: STA307 Applied Time Series Analysis Ii Description. Probability models for time series, stationary processes, the autocorrelation function pure random process, MA and AR processes mixed models, integrated models the general linear process, continuous processes. Model identification and estimation, estimating the autocovariance and autocorrelation functions fitting AR and MA processes estimating the parameters of mixed and integrated models the Box-Jenkins seasonal model residual analysis. Forecasting, univariate and multivariate procedure prediction theory. Spectral theory, the spectral density function Fourier analysis and harmonic decompositions periodogram analysis spectral analysis, effects of linear filters estimation of spectra confidence intervals for the spectrum.

No comments:

Post a Comment