Pemetaan Profesi Data Scientist

Big Data

Saking seringnya ngobrol tentang Big Data dengan beberapa kalangan, lama lama saya mulai bisa memetakan kebingungan, kegalauan, dan pemahaman masyarakat mengenai topik ini. Kebanyakan masyarakat yang awam dengan Big Data, sering tidak bisa mendefinisikan dengan tepat apa itu Big Data. Mereka hanya tahu bagian input dan output saja ..  proses di tengahnya gelap seperti blackbox. Bahkan beberapa rekan dosen yang masih awam bilang, coba selesaikan masalah penelitian dengan Big Data (maksudnya sih mengambil data dari media sosial), sementara yang lain menggangap bahwa Big Data itu metode pengganti statistik yang lebih canggih. Tentu saja anggapan anggapan tersebut tidak benar, kita semua mengenal istilah Big Data ini, karena ada peluang tersedianya data dalam jumlah besar, sehingga muncul peluang untuk memanfaatkannya. Perkara apakah hasil riset menggunakan Big Data akan lebih baik dari hasil metode konvensional (statistik), yah belum tentu juga.

Jadi Big Data itu apa ?, metode, alat, media atau yang hal lainnya yang kompleks,  tidak masuk dalam kategori yang bisa dipahami (rumit), maka dimasukkan ke dalam Big Data. Lucunya ini kenyataan lho, bahkan misalkan proses optimasi, simulasi, dan model matematika yang sudah ada sejak dulu, sering dianggap sebagai bagian Big Data juga, hanya karena metode itu saat ini sering digunakan (untuk menyelesaikan masalah kompleks) karena ketersediaan data yang semakin mudah. Sisi bagusnya adalah metode metode seperti artificial neural network, simulasi monte carlo, simulated annealing, dan lain lainnya semakin sering dipergunakan dan semakin dikenal.

Data Science

Supaya tidak terjebak istilah Big Data yang ambigu, maka saya sarankan kita bicaranya dari sisi Data Science saja. Data Science adalah suatu ilmu yang berpusat pada data sebagai komoditi utamanya. Beberapa metode dan kepentingan dari latar belakang kelimuan yang berbeda digunakan. Ilmu ilmu tersebut antara lain adalah ilmu komputer, matematika / statistika, bisnis, dan domain / konteks permasalahan.  Orang / talentanya disebut sebagai Data Scientist, dalam bahasa Indonesia adalah Ilmuwan Data. Kebetulan saya dan beberapa rekan ilmuwan serta praktisi membuat wadah Asosiasi Ilmuwan Data Indonesia (AIDI) (silahkan dicek,  boleh kok bergabung). Masih ingat postingan saya beberapa tahun yang lalu tentang tulisan Davenport dan DJ Patil di HBR bahwa “Data Scientist is the most sexiest job in 21th century” pada tahun 2012. Ternyata 5 – 6  tahun kemudian tetap sexy lho, cek disini dan disini.

Karena begitu sexy nya profesi ini, maka saya mulai melakukan riset kecil kecilan, kenapa profesi ini begitu dicari. Industri begitu kesulitan, dan bahkan putus asa mencari talenta yang bisa melakukan analisa, menceritakan pola dari data, dan membuat prediksi. Karena latar belakang pendidikan lulusan universitas pada umumnya sering terkotak kotak pada kelompok keilmuan tertentu, dan belum bisa berkomunikasi dengan bidang lain. Sebagai gambaran, daripada memberi gaji 1x ke programmer, 1x ke modeler, dan 1x ke orang bisnis (total 3x gaji), lebih baik perusahaan memberikan gaji 5x ke 1 orang yang menguasai ketiga domain tersebut. Nah talenta / orang ini yang disebut sebagai Data Scientist.

Pemetaan Data Scientist

Data Analytics Body of Knowledge

Data Science Knowledge Area

 

Data Engineering Body of Knowledge

 

Hasil baca sana sini, diperolah bahwa seorang Data Scientist itu harus mempunyai Knowledge Area (area pengetahuan) di bidang Data Analytics, Data Engineering, Data Management, Research Methodology, Project Management, Business Analytics, dan Domain Knowledge. Masing masing dari area pengetahuan diatas dibagi lagi menjadi keilmuan keilmuan kecil yang disebut sebagai Body of Knowledge (BoK) yang diselaraskan dengan cabang keilmuan, sehingga kita bisa identifikasi keilmuan besarnya masuk ke dalam ilmu apa. Peta sementara dari 3 gambar diatas, menunjukkan betapa kompleksnya keilmuan data tersebut, tidak salah kalo memang pekerjaan ini disebut pekerjaan sexy.

Oh ya sebagai penutup blog singkat ini.  Dari segitu banyak “maunya” industri mencari talenta Data Scientist yang canggih, sampai saat ini belum terlihat adanya daftar / framework kompetensi dari seorang Data Scientist yang diinginkan oleh industri, atau bahkan kompetensi secara global. Ini menjadi PR penting dalam rangka mengurangi gap antara lulusan universitas dan industri.

Dinamika Pilkada DKI 2017 menggunakan Jejaring Sosial

Pilkada DKI 2017 merupakan event yang menjadi magnet bagi bangsa Indonesia, bukan hanya ekslusif untuk warga DKI saja. Event ini sangat menarik untuk dianalisa, terutama buat saya yang selama ini mendalami keilmuan jejaring sosial, dimana konsentrasi pergerakan sosial atas isu isu tertentu bisa menjadi bahan untuk memahami perilaku sosial bangsa kita. Perilaku pada media sosial menunjukkan bagaimana opini nyata tiap individu, pembentukan kelompok sosial, dan juga rekayasa opini (termasuk hoax dan lain lainnya). Pada entri kali ini saya melihat dinamika percakapan masyarakat Indonesia di media sosial membahas berbagai topik berkaitan dengan Pilgub DKI 2017. Sebagai disclaimer saya tegaskan politik bukan merupakan domain yang saya pahami sepenuhnya. Pada entri blog ini tidak ada tendensi untuk mendukung calon manapun, dan lagian saya bukan warga DKI juga 😛

 

Saya mengambil data di Twitter sebagai sample, karena di media sosial ini perilaku sosial terkait pilkada terlihat jelas. Facebook juga menunjukkan kecenderungan serupa dengan Twitter, tetapi karena di Facebook tidak mungkin bagi kita untuk mengambil semesta data, dan hanya mungkin mengambil data dari lingkungan pertemanan kita, maka Twitter merupakan media yang tepat dari sisi pencapaian pengambilan data dan keterwakilan sample.

 

Profil Data :

Data percakapan di Twitter diambil mulai dari tanggal 8-11 februari 2017, tepat selama 60 jam. Durasi ini melewati acara debatcagub ke 3 yang diadakan pada tanggal 10 februari malam.  Sebelum acara debat yang dilaksanakan tweet yang terkumpul adalah sebanyak 18077 tweet (nomer1), 23656 tweet (nomer2), dan 41053 tweet(nomer3). Setelah acara debat terlihat lonjakan jumlah tweet menjadi 35380 tweet (nomer1), 49028 tweet(nomer2), dan 82185 tweet(nomer3). Total keseluruhan tweet yang diambil adalah sebanyak 166593 tweet dengan total data space mendekati 1 GB. Keyword / Hashtag disesuaikan untuk tiap tiap paslon, sesuai dengan hashtag yang paling banyak diadopsi oleh publik dan pendukungnya. Hashtag hashtag tersebut antara lain 

 

nomer 1 : #jakartauntukrakyat #ahyfordki1 #MuslimberSatupilihno1 #AgusSylviKonsisten #SATUkanjakarta #JakartaForAll

nomer 2 : #perjuanganbelumselesai #coblosbadjanomor2 #FreeAhok #BadjaMelaju #SekuatBadja #Gue2 #Badjajuara #salamduajari

nomer 3 : #salambersama #TerbuktiOkOce #majubersama #CoblosPecinya #AniesSandiCintaUlama

 

Nomer1


Dari paslon nomer 1 saya memperoleh 35380 tweet, dimana didalamnya terdapat 8505 aktor yang terlibat percakapan, dengan sejumlah 29836 percakapan antar aktor tersebut. Pola percakapan dari gambar dibawah memperlihatkan bahwa terdapat 3 kelompok besar  (ungu, hijau, biru) yang mendominasi 60% percakapan. Aktor aktor utama jaringan ini adalah @AgusYudhoyono @Abaaah @SBYudhoyono. Terdapat beberapa situs berita yang dominan yaitu @Metro_TV @kompscom @detikcom dll. keseluruhan top 50 aktor bisa dilihat di gambar dibawah. Kelompok terbesar adalah kelompok berwarna ungu dengan ukuran 27% (cukup besar) dari keseluruhan jaringan.  Kelompok terbesar ini berisi tokoh tokoh utama dari paslon 1, kelompok kedua sebesar 13% berisi akun akun pendukung utama seperi @AhyCenter @agusylviDKI @ZaraZettiraZZ @Umar_Hasibuan @panca66. 

 

 

1

 

1detail

 

1top

 

11

Nomer2

 

Dari paslon nomer 2 diperoleh 49028 tweet, dimana percakapan tersebut melibatkan 15745 aktor dan 44834 percakapan antar aktor aktor tersebut. DI jejaring nomer 2 ini kelompok terlihat lebih menyebar dengan kelompok terbesar berwarna ungu mempunyai ukuran hanya 10,9%, dilanjutkan dengan kelompok warna hijau tua (9,5%), dan disusul warna biru (8,39%). Aktor aktor utama nya bisa dilihat pada gambar dibawah (top-50), terlihat bahwa aktor aktor dominan tersebut berada pada kelompok yang berbeda (terlihat dari warna node yang berbeda). 

 

 

2

 

2detail

 

2top

 

21

 

 Nomer3

 

Paslon 3 mempunyai data tweet yang paling banyak dibandingkan paslon lainnya. 82185 tweet terambil dalam periode pengambilan, yang melibatkan 12744 aktor dan 22565 interaksi percakapan. Dengan sejumlah 22565 tweet interaksi dibandingkan dengan total 82185 tweet yang terambil, maka rasio percakapan / diskusi dalam jaringan ini sangat kecil dibandingkan paslon lain. Sebagian besar tweet adalah indivdual tweet atau tweet yang tidak mengenerate percakapan.Seperti paslon 1, kelompok di jaringan ini didominasi oleh 3 kelompok utama yaitu kelompok ungu (26,76%), hijau (23,67%), dan biru (18,51%). Total tiga kelompok tersebut sudah sangat mendominasi dengan mencakup 69% percakapan. 

 

 

3

 

3detail

 

3top

 

31

Analisa

 

Dari pengukuran average degree (rata rata koneksi dari seorang aktor) dan network diameter (besar jaringan)  ketiga jejaring sosial tidak mempunyai perbedaan yang signifikan. Pada pengukuran .graph density (kepadatan percakapan), Nomor 1 dan 2 lebih baik dari Nomor 3, kepadatan yang baik lebih disukai, ini mengindikasikan bagaimana banyaknya interaksi dalam suatu jejaring sosial. Perbedaan yang signifikan terlihat dari dinamika terbentuknya kelompok dan pengukuran kecenderungan pengelompokan dengan menggunakan metric modularity. Nomer 1 dan nomer 3 mempunyai nilai modularity yang lebih tinggi dari Nomer 2, yang artinya kelompok yang terbentuk benar benar terpisah dengan jelas. Kelompok kelompok pada paslon nomor  2, masih berhubungan erat dengan keompok lain dalam jejaring sosialnya.  Bisa disimpulkan bahwa percakapan paslon nomor 2 lebih di generate oleh massa, sehingga kelompok percakapan yang terbentuk terlihat lebih natural, sedangkan kelompok pada nomor 1 dan nomor 3 dikendalikan secara sistematik oleh aktor aktor utama.

 

Analisa jejaring sosial adalah analisa cepat untuk melihat dinamika struktur jaringan. Untuk supaya bisa memodelkan dan membuat prediksi siapa pemenang pilkada, tentunya butuh analisa faktor lain, contohnya seperti analisa konten tweet (sentiment analysis atau opinion mining). Saya pernah mengusulkan analsia konten dengan cara cepat menggunakan network text analysis seperti yang saya tulis di paper saya ini dan paper saya yang ini. Untuk analisa konten tersebut, dibutuhkan data raw twitter, berhubung data tersebut berukuran sangat besar 1 GB dan berada di komputer lab., plus  sayanya sedang mobile (weekendan), maka saya hanya mengambil ekstrak data jejaring sosial yang hasilnya saya jabarkan dalam blog ini.

 

Bila ada yang tertarik untuk menganalisa topik ini lebih mendalam, terutama yang ahli dibidang politik, silahkan kontak saya untuk berdiskusi atau bahkan mungkin mendapatkan datanya. 

 

 

 

Asosiasi Ilmuwan Data Indonesia (AIDI)

Pada acara Data Science Days bulan November 2016 yang diselenggarakan oleh Fakultas Ekonomi dan Bisnis, Universitas Telkom, telah dideklarasikan terbentuknya Asosiasi Ilmuwan Data Indonesia (disingkat AIDI). Latar belakang pembentukan AIDI adalah perlunya membangun suatu ekosistem Data Science (+Big Data) yang aman, bermanfaat sejahtera, berdaya saing, berkelanjutan untuk mendukung pembangunan bangsa dan kedaulatan data Indonesia. Perlunya perkumpulan / gerakan ini, kami rasakan sejak bermunculannya layanan berbasis internet (dari luar negeri) yang mengumpulkan data data dari pengguna internet Indonesia. Kita mengenal penyedia layanan tersebut dengan sebutan Over The Top content (OTT), contohnya yah penyedia layanan jejaring sosial yang populer di Indonesia (Facebook, Twitter, Instagram, Path, dll), layanan terintegrasi seperti Google (email, maps, search engine..), layanan pengetahuan (wikipedia, imdb), layanan berita, layanan perjodohan, layanan chatting, dan lain lain

Kurang mampu bersaingnya aplikasi nasional / OTT lokal (atau mungkin kurang populernya) membuat data data yang diproduksi dari aktivitas online terkirim ke penyedia layanan di luar negeri. Walaupun saat ini sudah mulai banyak penyedia layanan seperti forum diskusi (kaskus), ecommerce (tokopedia, bukalapak, blibli, dll), akan tetapi sebagian besar pengguna internet indonesia masih menggunakan aplikasi buatan luar dalam mendukung aktivitas sehari hari. Kondisi ini mendorong pentingnya suatu asosiasi yang turut berperan aktif dalam memberikan edukasi baik dari sisi pengembang maupun pengguna sehingga data data yang dihasilkan bisa digunakan untuk mendukung perekonomian dan pembangunan bangsa.

Inisiator dari AIDI terdiri dari para akademisi, pelaku industri, pemerintahan, dan komunitas. Tercatat dari akademisi adalah wakil dari Universitas Telkom, ITB, UNPAD, UNS, UGM, STIS. Dari Industri ada beberapa perusahaan seperti Solusi 247, Mediawave, NoLimit, Bahasa Kita, Zamrud Technology, PasarLaut. Dari pemerintahan diwakili oleh Kemenkominfo dan BPPT. Dari komunitas adalah dua komunitas besar di bidang Data Science + Big Data yaitu Komunitas Data Science Indonesia dan Komunitas IdBigData.

Banyak sekali permasalahan data-related yang membutuhkan aturan dan kebijaksanaan yang terintegrasi, contohnya Open Data dan Smart City. AIDI diharapkan akan berperan aktif dalam pembuatan draft regulasi yang berkaitan dengan data sebagai komoditas strategis. Dorongan perkembangan ICT dan keilmuan Data Mining, Machine Learning, dan Keseluruhan aktivitas Data Analytics membuat data menjadi komoditas yang sangat penting. Produksi data melimpah seiring dengan masifnya pengguna internet Indonesia membuat aktivitas disekitar data harus segera diatur dan dibuatkan roadmapnya.

Saat ini AIDI sedang melakukan konsolidasi organisasi dan menyusun program kerja, diharapkan dalam waktu tidak terlalu lama AIDI akan segera aktif berkontribusi untuk perkembangan Data Science + Big Data di Indonesia. Untuk informasi lebih lanjut dan update terkini bisa akses website AIDI yaitu www.aidi.id

IMG 2017 01 12 00 20 30

Para inisiator AIDI berfoto bersama, setelah penandatanganan deklarasi

Konferensi Big Data 2016 (KBI2016)

Komunitas IDBigData kembali menyelenggarakan konferensi Big Data (KBI) 2016 di gedung BPPT Jakarta, pada tanggal 7-8 desember 2016. Konferensi ini adalah lanjutan dari KBI KBI sebelumnya contohnya pada tahun 2015 ( link blog saya, link blog saya, link website resmi). KBI 2016 adalah KBI ke 3 yang diselenggarakan oleh komunitas IDBigData. Tema besar konferensi ini adalah adalah “Leveraging National Capacities and Capabilities”.

Saya sendiri ikut berpartisipasi di acara KBI sejak KBI ke 2 tahun kemarin di Bandung dengan menjadi salah satu narasumber untuk topik “Social Network Analysis” (video).  sebelumnya saya juga pernah ikut berpartisipasi di IDBigData #4 (video). Untuk tahun ini saya akan berpartisipasi di talkshow / panel, dengan topik “Tantangan dan Daya Saing Big Data Indonesia”. Saya akan mewakili Asosiasi Ilmuwan Data Indonesia (AIDI). Mengenai Asosiasi akan saya tuliskan di blog terpisah ya…

Topik KBI tahun ini menurut saya akan sangat menarik, selama beberapa tahun terakhir ini industri, pemerintahan, dan akademisi sibuk dengan solusi solusi untuk menyelesaikan problem problem Big Data, akan tetapi gambaran besar, visi, misi pembangunan yang bertumpu akan kemampuan menganalisa Big Data masih kurang banyak dibicarakan. Nah melalui konferensi ini diharapkan kita bisa mengumpulkan berbagai macam ide yang pada akhirnya membawa kesamaan tujuan.

Indonesia adalah negara yang sangat besar potensi alam dan rakyatnya. Kemampuan menjinakkan Big Data bisa menjadi solusi yang efektif dan efisien dalam mendukung daya saing bangsa, perekonomian, dan pemerataan pembangunan. Kesadaran akan data collection, open data, open audit akan membuat pemerintahan lebih transparan, akuntabel, dan pro keadilan sosial bagi seluruh rakyat Indonesia

Come and join this conference

PS : my schedule is on the first day, first talk show at 13:00 WIB

IMG 2016 11 30 07 52 03

Screen Shot 2016 11 30 at 7 49 43 AM  2

Screen Shot 2016 11 30 at 7 50 04 AM  2