Project otak atik Discourse Network Analysis (DNA) Skala Besar pada Berita Global Coronavirus

DNA digunakan untuk mencari maksud/tujuan, agenda, motivasi, selain juga aktor advokasi, dan koalisi /persekongkolan (bisa yang tertulis pada dokumen, bisa dari debat verbal, dan bisa juga dari pidato). DNA merupakan kombinasi studi kualitatif analisa konten dan studi kuantitatif analisa struktur jejaring sosial (SNA) / aktor. Analisa kualitatif dokumen skala besar sangat sulit dilakukan, maka dari itu dimulai dari analisa kuantitatif dulu untuk menyaring/mereduksi dokumen menjadi topik topik penting menggunakan analisa jejaring teks.

Sumber data : https://blog.aylien.com/free-coronavirus-news-dataset/

Jumlah berita : 550.000 berita bahasa inggris

Durasi : 1 november 2019 – 5 april 2020

Topik / tema : berita yang berkaitan dengan coronavirus

Sumber : 400 media internasional

Ukuran file : 7.6 GB

Dari sumber berita diatas diperoleh jejaring teks sebesar 270.616 kata dan 14.277.297 hubungan antar kata tersebut, wow sangat besar jaringannya. Sepertinya butuh HPC atau pake kekuatan komputer cloud. Berhubung lagi WFH, sehingga ga bisa ke lab kampus, yah udah dikerjain perhitungannya di rumah pake modifan koding setengah inget setengah lupa pas disertasi dulu (python dan neo4J).

Topik 1 (kata dominan china-pandemic-public) : menceritakan bagaimana pandemic diawali di china, kemudian muncul anjuran social-distancing, karena ada isu dengan emergency-healthcare yang overload. yang menarik dari topik ini ada pola dibelakang yang tidak terlihat jelas (non-obvious), yaitu trump-political-law dan necessary-measures-serious-risk menunjukkan berita pernyataan trump menanggapi munculnya pandemic saat itu.

Topik 2 (kata dominan market-global-economy-business ) : isu ekonomi dominan pada topik ini sebagai akibat dari lockdown yang terjadi hampir diseluruh negara di dunia. ada dua klaster berdekatan america-shares-domestic dan investment-interest-expect menunjukan harapan iklim investasi di USA (growing) meskipun ada ancaman pandemic. selain itu terdapat klaster berita negatif, dengan kata decline-reduce aktivitas ekonomi yang berakibat unemployment, sayang kata tersebut tidak mencapai Top50 di topik ini.

Topik 3 (kata dominan coronavirus-medical-health-infected-quarantine) : isu kesehatan dominan pada topik ini, termasuk berita kematian, dan upaya untuk mereduksi penyebarannya government-flight-suspended dan school-hospital-isolation. berita banyak memunculkan kondisi kesehatan pada beberapa kota/negara di dunia, seperti wuhan-london-italy-australia.

Topik 4 (kata dominan provided-mask-food-important) : fokus pada anjuran untuk pencegahan penyebaran virus dan menjaga daya tahan tubuh muncul dari kata kata distance-touch-directly, check-physical-app, keeping-healthy-sense-clean, dan wearing-protective-cover. Akhirnya ketemu 4 topik atau agenda utama yang dominan dari ratusan ribu berita diatas.

Analisa aktornya belum dilakukan, monggo yang berminat silahkan barengan ngulik dataset diatas. kalo dapat cerita menarik, kita jadikan publikasi ilmiah. cara analisanya aktornya bebas, barangkali ada yang mempunyai ide ide brilian untuk data skala besar tersebut, tapi jangan minta saya untuk ngajarin lho ya, biar ketemu cara yang berbeda (bahkan lebih baik mungkin).

Modularity0blacklogoModularity1blacklogoModularity2blacklogoModularity3blacklogo