#FinTechNite Big Data is a Game Changer

Financial Technology (FinTech) merupakan area bisnis yang sangat menggoda rasa ingin tahu banyak praktisi maupun akademisi. Bidang ini berpeluang besar untuk berkembang secara eksponensial. Belum adanya regulasi dari pemerintah dan keniscayaan bahwa TIK menjadi dasar untuk melakukan aktivitas finansial, membuat FInTech menjadi pilihan yang penting, terutama untuk generasi milenial yang selalu ingin kepraktisan dalam segala hal. Urusan perbankan, seperti antri di teller, atau menunggu di customer service untuk membuka rekening sudah bukan jamannya lagi. Demikian juga aktivitas investasi, peminjaman, dan lain sebagainya.

Tanggal 27.09.2018 (tanggal pas saya ulang tahun), saya diundang ke acara #FinTechNite yang diadakan oleh UnionSpace (suatu coworking space) dan BizNet gio (bisnis cloud computing dari Biznet). Tema acara ini adalah “Big Data is a Game Changer”. Seperti biasa, saya diundang dalam kapasitas sebagai narasumber tidak jauh dari tema Big Data dan Data Analytics. Narasumber lainnya adalah Mas Hendra, seorang data scientist dari Bukalapak, dan Mbak Maria dari Tiket.com. Peserta yang hadir kebanyakan anak anak muda yang antusias belajar tentang FinTech dan Big Data. Suasana tempat FintechSpace dari UnionSpace juga cukup cozy untuk sharing dan berdiskusi secara Informal. Oh ya di acara ini sekaligus jadi ajang reunian saya dengan mantan mahasiswa alumni Lab. Social Computing dan Big Data (SCBD) yang kebanyakan bekerja di Jakarta, juga temen kuliah, dan beberapa temen kantor lama. 

Hari itu saya pulang balik Bandung-Jakarta-Bandung, sesuatu hal yang jarang saya lakukan. Berangkat dari Bandung pukul 2 siang, sampai Jakarta jam 5 sore, jam 7 acaranya, dan jam 10 malem saya sudah balik ke stasiun Gambir untuk naik kereta jam 11 malam. Kenapa saya harus maksa balik malem itu juga, ini karena besok pagi saya harus menjadi moderator acara kuliah umumnya Pak Gubernur Jawa Barat, Kang Emil yang berbicara tentang Smart City, di acara Bandung ICT Expo. Postingan tentang acara ini nanti disambung di entry blog terpisah. 

43024841 10156434772655202 4924678457293537280 n

43045085 10156434772735202 254210747653947392 n

43178788 10156434772805202 7888599834523860992 n

43131563 10156434772875202 2853261669402935296 o

43112855 10156434773020202 4352718091981946880 o

43066082 10156434773365202 8702337944880414720 o

43053698 10156434773110202 2948205138411520000 o

42961468 10156434773470202 6010670172266823680 o

42982614 10156434772950202 1915122627341451264 o

43016006 10156434773220202 8437799183859056640 o

 

 

Pelatihan Social Media Analytics

Saat ini banyak organisasi termasuk bisnis dan pemerintahan yang penasaran dengan proses analitik pada data di media sosial. Pada umumnya mereka sudah mengerti manfaat pengumpulan data pada media sosial yang umumnya berupa data tidak terstruktur atau istilah awamnya Big Data. Mencari pola pengetahuan pada data tidak terstruktur merupakan hal yang cukup kompleks dilakukan. Seringnya eksperimen dan penelitian pada domain permasalahan yang berbeda beda membuat lab. Social Computing dan Big Data mempunyai pengalaman yang mumpuni. Oleh karenanya pelatihan bagaimana menggunakan metode metode untuk memproses data data tidak terstruktur tersebut sangat diperlukan, sehingga muncullah pelatihan “Social Media Analytics” ini.

Pelatihan tanggal 19-20 september ini khusus dilakukan untuk karyawan direktorat jendral pajak pusat, khususnya pada bagian operasional IT. Dengan mengenal Social Media Analytics diharapkan mereka bisa implementasi ekstrasi pengetahuan di media sosial untuk operasional kerja sehari hari. Materi yang dibawakan adalah: 1. Social Media Analytics Workflow. 2. Modelling and Machine Learning. 3. Data Collection. 4. Network Data. 5. Social Network Analysis. 6. Text Network Analysis. 7. Sentiment Analysis. 8. Topic Modelling.

Berikut foto foto acara tersebut: 

IMG 20180919 094607

42247774 10156402308065202 3069643350136061952 n

IMG 20180919 085035

IMG 20180919 082808

IMG 20180919 131107

 

 

 

 

 

 

 

 

 

 

 

Tulisan Big Data di Koran Pikiran Rakyat

Sudah sekian lama tidak menulis di media massa, akhirnya pada tanggal 23 April 2018 tulisan saya bersama dengan bu Lia Yuldinawati muncul di koran Pikiran Rakyat. Judul tulisan ini adalah “Di Era Big Data Internet Menjadi Kebutuhan Mendasar”. Tulisan ini menggambarkan bagaimana Big Data dapat diimplementasikan dalam segala lini kehidupan masyarakat untuk mendapatkan gambaran akurat mengenai gejolak sosial yang ada. Selama ini saya punya hardcopy artikelnya jadi belum sempet saya tuliskan di blog, tapi berkat bantuan rekan rekan dari Labtek Indie akhirnya saya mendapatkan softcopy tulisan tersebut. Monggo silahkan di klik gambar di bawah ini (ukuran 6 MB) untuk membaca artikelnya.

Image uploaded from iOS31144055 10156048637080202 7372322053127628631 n31143894 10156048637110202 6074305054173965283 n

National Data Days 2017

kegiatan tahunan data days diluncurkan pertama kali bulan november tahun lalu oleh fakultas eknomi dan bisnis (FEB), universitas telkom. tahun 2017 ini, data days 2017 diberi nama lengkap sebagai national data days 2017 (NDD17). NDD17 terdiri dari kegiatan seminar, workshop, kompetisi, dan eksibisi. tema NDD17 ini adalah “data for better indonesia”.

seminar akan menghadirkan pembicara seperti pak gadang ramantoko (ekonomi digital), pak setia pramana (data di bidang kesehatan), pak mahmoud syaltout (data bidang politik dan bisnis), dan mas kamal hasan (praktisi data). workshop menghadirkan pemateri pemateri handal dari akademisi seperti pak taufik sutanto, dari industri data seperti midtrans, i-811, mediawave, presentasi beberapa hasil riset mhs FEB dan mahasiswa sekolah tinggi ilmu statistika.

silahkan datang tanggal 21-22 november 2017

Sharing KickScraper (KickStarter Scrap using Ruby) sebagai Pemahaman Proses Pengumpulan Data

Lab Social Computing & Big Data mulai semester ganjil 2017/2018 ini diisi dengan personil personil baru mahasiswa angkatan 2014. Mereka akan mengadakan kegiatan riset, melayani pelatihan / asistensi mata kuliah Big Data dan Data Analytics, serta mengadakan acara sharing ilmu / akademik setiap minggu. Untuk minggu pertama ini kegiatan sharing diisi topik mengenai KickScraper, yaitu bagaimana melakukan web scrapping terhadap website Kickstarter dengan menggunakan script bahasa Ruby. Pemateri acara kali ini adalah Tri Buono, mahasiswa angkatan 2013. Teknik yang disharing oleh dia berkaitan dengan risetnya mengenai pengenalan pola pola investasi pada perusahaan startup. Acara ini dihadiri mahasiswa lab dan juga dosen dosen KK dan pengajar matkul Big Data & Data Analytics

Terdapat dua problem mendasar pada kegiatan data analytics yaitu yang pertama data collection dan yang kedua aktivitas data analytics sendiri. Kegiatan data collection sendiri merupakan masalah besar di Indonesia pada umumnya, dimana jarang sekali individu / organisasi yang memahami pentingnya semangat Open Data, sehingga data masing masing instansi / organisasi berdiri sendiri sendiri dan tidak teintegrasi, akibatnya banyak pekerjaan atau kebijaksanaan yang saling tumpang tindih, tidak konvergen mencapai tujuan bersama. Saya pernah punya pengalaman buruk mengenai open data dengan pemkot, dimana walikota klaim bahwa data pemkot terbuka untuk umum, tapi begitu mahasiswa saya mempelajari polanya, ternyata data tersebut tidak ‘berbunyi’ sehingga tidak bisa dicari polanya, tidak bisa didapat informasi atau pengetahuan. Pernyataan bahwa data sudah terbukapun  perlu diperiksa lagi, karena kita belum tahu seberapa lengkap data yang dimiliki.

Pada sharing kali ini, tujuan utama yang ingin dicapai bukanlah mengajarkan teknik mengambil datanya, tapi pemahaman bagaimana proses perolehan data. Kickscraper mengambil data web Kickstarter menggunakan API. Berbeda dengan teknik klasik web scrapping menggunakan layanan seperti import.io ataupun parsehub, maka pengambilan data menggunakan API lebih fleksibel, lebih powerful dan bisa mengambil hidden data kalau penyedia layanan mengijinkan. Kerugiannya adalah kita tidak tahu sampai kapan API tersebut tersedia (secara gratis). Jadi proses data collection merupakan proses yang dinamis, apa yang kita ketahui hari ini belum tentu besok masih bisa dilakukan. Oleh karenanya pesan yang saya sampaikan adalah yang paling penting memahami proses, klasifikasi jenis / teknik pengamnilan data, serta membiasakan mahasiswa mahasiswa manajemen bisnis ini untuk ngoding …. yah bahasa koding ini bahasa yang paling penting dipelajari selain bahasa inggris. Beberapa mahasiswa memang tidak biasa dengan pengoperasian terminal di mac atau  windows shell, bahkan belum tahu bagaimana menjalankan ruby (ataupun python dan sejenisnya), sehingga acara sharing ini merupakan sarana bagus untuk memperkenalkan hal hal tersebut. 

 

IMG 8452

IMG 1082

IMG 0102

IMG 8369

IMG 5349

IMG 3885

Sharing Big Data ke ITERA

Pada tanggal 31 Januari 2017, Saya memberikan materi tentang Data Science Business Perspective pada acara meetup komunitas idBigData dan Asosiasi Ilmuwan Data Indonesia (AIDI) di Institut Teknologi Sumatra (ITERA) – Lampung. Kesempatan ini adalah pertama kalinya saya mengunjungi ITERA. Saya sudah mendengar mengenai kampus ini sejak 2-3 tahun yang lalu, yang mana pada saat itu mereka sedang gencar gencarnya membuka lowongan dosen. Acara di ITERA ini adalah juga acara Big Data pertama kali yang saya ikuti di luar jawa. Hal ini sangat menarik karena kita juga perlu memeratakan pengetahuan mengenai Big Data di kampus kampus di luar pulau jawa.

Acara idBigData meetup ini sudah diadakan 12 kali, setiap bulan rutin diadakan dengan bersafari ke kampus kampus di seluruh Indonesia. Kali ini acara cukup istimewa karena AIDI yang baru dibentuk bulan november 2016 ikut berperan serta. Sebagai info idBigData berkonsentrasi kepada metodologi komputasi Big Data sedangkan AIDI berkonsetrasi kepada aktivitas analytics Big Data.

Selain saya yang mewakili AIDI, pemateri lainnya adalah Ibu Masayu (ITB / ITERA) yang membawakan materi peringkasan text bahasa indonesia, Pak Beno (Solusi247) mengenai kedaulatan data Indonesia, Pak Sigit (idBigData) mengenai engine Big Data Yava. Peserta yang hadir adalah mahasiswa dan dosen ITERA, dan juga industri, pemerintah, dan mahasiswa lampung di luar ITERA. Ini sangat menarik melihat keragaman peserta yang ikut hadir pada acara ini.

Streaming video materi saya dan foto fotonya bisa dilihat berikut ini :

FullSizeRender 3

IMG 0777

Partisipasi di Bandung ICT Expo 2016

Pada kesempatan kali ini Lab. Data Analytics FEB Telkom University ikut berpartisipasi dalam acara Bandung ICT Expo & Anja 2016 pada tanggal 19-21 oktober 2016 di Telkom University. Event ini adalah berisi Exhibition, Seminar, Contest dan lain lain. Informasi detail tentang acara ini bisa dilihat di tautan website diatas. Beberapa bidang perusahaan yang berpartisipasi di dalam expo ini adalah perusahaan Content (animation, visual production), Telco (broadband, internet services, wireless), Cloud, Mobile, Power, Security, dll

Booth Lab. Data Analytics ada di dalam booth FEB Telkom University, karena Lab. Data Analytics berada dalam salah satu kelompok keahlian di FEB. Dari Lab, kami menampilkan poster yang berkaitan dengan riset riset yang sudah kami lakukan, serta kami juga menyediakan demo data crawling di website maupun media sosial sebagai aktivitas krusial sumber data riset Lab. kami. Sebetulnya banyak sekali riset yang ingin kami tampilkan dalam bentuk poster atau demo / presentasi, akan tetapi karena keterbatasan ruang dan personil, maka kami hanya memilih 3 poster,  walaupun milihnya juga sulit. Bukan berarti 3 yang ditampilkan adalah yang terbaik, akan tetapi lebih karena faktor kepraktisan saja. 

Saya sendiri tidak bisa menghadiri acara ini karena ada kesibukan dengan pekerjaan lainnya. Mia dan Caca adalah dua personil lab yang akan standby di booth untuk memberikan informasi tentang aktivitas riset dan mendemokan proses data crawling. Please visit us !! 

IMG 2016 10 19 09 31 58

Mia dan Caca di Booth FEB Telkom University

Untitled 1

Poster riset Lab. Data Analytics

Generate Data Penghasilan Menggunakan Metode Monte Carlo

Berawal dari kesulitan salah satu mahasiswa bimbingan saya untuk melengkapi datanya, maka saya mencoba mencari metode yang mengatasi hal tersebut. Ceritanya penelitian mahasiswa bimbingan saya membuat pengelompokan data pelanggan Telkom berdasarkan jumlah tagihan bulanan dan penghasilan. Tentu saja data penghasilan  tidak akan dipunyai Telkom, dan juga sulit ditemukan dari sumber lain,  maka untuk itu perlu suatu usaha untuk membuat / generate data menggunakan suatu generator tertentu.

Ide awal dari Statistical Inference yang intinya membuat prediksi data populasi dari data sample dan asumsi yang kita punyai, maka kemudian muncul pertanyaan bagaimana kita men generate data penghasilan berdasarkan data dan asumsi yang kita punyai, sehingga data penghasilan yang dihasilkan oleh generator tidak akan berbeda jauh (tingkat error yang rendah) jika dibandingkan dengan penghasilan sebenarnya yang tidak kita ketahui. Asumsi yang kita punyai adalah beberapa wilayah dalam suatu kota akan mempunyai tingkat kesejahteraan yang berbeda. Sebagai contoh seseorang di wilayah A meskipun mempunyai tagihan telkom sama dengan seseorang di wilayah B, belum tentu tingkat penghasilan mereka sama. Besarnya wilayah dalam satu kota tergantung pada definisi yang kita tentukan, apakah setingkat kelurahan, kecamatan, atau berdasarkan nama jalan jalan yang memang terkenal sebagai daerah “kaya”. Sedangkan data yang kita punyai adalah hasil wawancara ke pihak berwenang (pemkot, BPS, dll) untuk menentukan rata rata penghasilan dari suatu wilayah.

Metode Monte Carlo adalah metode untuk men generate data acak berdasarkan input berupa mean, standard deviation dan distribution. Dari ketiga input tersebut, kita sudah mempuyai data mean (rata rata) penghasilan suatu wilayah. Untuk standard deviasi kita tentukan nilai antara 1 sampai 5 yang kita atur berdasarkan kewajaran distribusi penghasilan di satu wilayah tertentu. Untuk distribusi kita tentukan distribusi normal, karena seperti asumsi statistik pada umumnya distribusi yang digunakan adalah distribusi normal. Pertanyaan kemudian muncul, kenapa kita tidak mengambil bilangan acak antara bilangan (penghasilan) minimum dan maksimum ?, jawabannya karena sebaran data penghasilan yang kita peroleh akan menjadi sangat acak (lihat uniform random sampling ) dan terlihat tidak wajar / tidak representatif terhadap penghasilan asli. Video ilustrasi metode Monte Carlo bisa dilihat dibawah ini

Ada banyak software menyediakan simulasi metode Monte Carlo, seperti Mathlab, Wolfram Mathematica, Python, R, dan bahkan Excel. Tapi saya baru mencoba menggunakan Wolfram Mathematica dan Excel.

Perintah di Wolfram Mathematica adalah

rnorms1 = RandomVariate[NormalDistribution[mean, standard deviation], iteration]

Perintah di Excel adalah

=NORMINV(RAND(),mean,standard deviation)

Hasilnya bisa dilihat digambar berikut ini. Dengan nilai mean 3 dan standard deviasi 1, kita peroleh nilai acak tersebut. Sekarang kita bisa bayangkan jika nilai nilai tersebut dikalikan satu juta, maka kita peroleh interval penghasilan disekitar nilai rata rata gaji 3 juta. Cukup sederhana dan masuk akal bukan data penghasilan yang kita peroleh ? ..

Screen Shot 2016 10 01 at 8 54 38 PM

hasil dengan Wolfram Mathematica

Screen Shot 2016 10 01 at 8 57 09 PM

hasil dengan Microsoft Excel

Pengelompokan Top 1000 Universitas Dunia #Clustering #DataMining

Sabtu pagi ini iseng iseng browsing dataset dan menemukan dataset yang cukup menarik, yaitu World University Ranking dari Kaggle. Dataset ini menggambarkan peringkat 1000 universitas di dunia berdasarkan yang dibuat oleh Times Higher Education University Ranking. Dari 1000 daftar universitas dunia, 229 diantaranya berada di USA, dan sisanya di negara negara lain di dunia, sayangnya Universitas di Indonesia tidak ada satupun yang masuk dalam daftar tersebut. Pengelompokan universitas menggunakan metode Clustering / Klaster k-means yang mana merupakan metoda yang paling sederhana, akan tetapi cukup intuitif untuk menjelaskan bagaimana nilai fitur satu entitas (dalam hal ini universitas) berdekatan dengan entitas lainnya sehingga mereka dianggap mempunyai satu kesamaan / satu kelompok. 

Data yang saya gunakan adalah data peringkat universitas pada tahun 2015. Saya menggunakan RStudio untuk perhitungan proses cluster dan Orange untuk visualisasi cluster tersebut dalam berbagai aspek fitur yang berbeda. Fitur yang ada pada dataset tersebut antara lain adalah : world rank (peringkat universitas di dunia), university name (nama universitas), country (asal negara), national rank (peringkat nasional), quality of education (peringkat kualitas pendidikan), alumni employment (peringkat alumni yang sudah bekerja), quality of faculty (kualitas fakultas), publications (peringkat publikasi), influence (peringkat pengaruh), citations (peringkat sitasi), broad impact (peringkat untuk impact dalam skala luas), patents (peringkat paten), score (total nilai dalam penentuan peringkat dunia).

Semua atribut fitur merupakan data kontinu, kecuali nama universitas dan negara merupakan data diskrit. Berdasarkan analisa awal untuk algoritma k-means dengan inisialisasi awal kmeans++ dengan jumlah kelompok antara 3-8, diperoleh yang paling tinggi scorenya adalah jumlah 3 kelompok. Oleh karena itu pengelompokan Top 1000 universitas menggunakan tiga kelompok. Hasil perhitungan bisa diunduh di table excel berikut ini 

Secara umum dapat kita simpulkan terjadi hubungan linear semakin tinggi peringkat suatu universitas maka semakin tinggi pula jumlah publikasi, jumlah sitasi, jumlah alumni employment, jumlah patent dan lain lainnya, seperti yang terlihat pada gambar dibawah ini. Warna yang berbeda menunjukkan kelompok yang berbeda. Semakin besar ukuran point (silang, segitiga, lingkaran) maka semakin besar pula nilai influence dari satu universitas. 

Sekian share pagi ini, monggo dimain mainkan dataset diatas untuk algoritma lain ataupun untuk keperluan lainnya … salam ..

 

InfluenceVsWorldRankPublicationsvsWorldRankPublicationsVsCitationsWorldRankvsAlumniEmploymentWorldRankvsCitationWorldRankvsPatent

pengelompok antar beberapa fitur data (lihat sumbu x dan sumbu y)

 

Screen Shot 2016 09 17 at 10 37 23 AM  2

Hasil pengelompokan Top 1000 Universitas dalam 3 kelompok besar