Membuat Ringkasan Berita Dari Situs Berita Nasional – Website Crawl

Bagi kebanyakan dari kita membaca berita merupakan aktivitas rutin bahkan mungkin wajib, tetapi sebaliknya banyak yang menganggap membaca berita adalah aktivitas yang istimewa karena mereka susah punya waktu cukup luang untuk membaca berita di koran maupun di situs berita online. Untuk orang yang tidak mempunyai waktu yang cukup, maka membaca ringkasan berita akan sangat membantu. Membuat ringkasan berita merupakan ide yang sudah lama saya pikirkan dan mungkin sudah dilakukan oleh banyak orang. Berbagai macam teknik diperkenalkan yang tujuan akhirnya membuat ringkasan berita pada satu periode tertentu misal berita harian, berita mingguan, berita bulanan dan seterusnya berdasarkan topik topik tertentu.

Salah satu teknik yang paling umum dilakukan adalah melakukan “crawling” situs berita online. Aktivitas “crawling” ini tidak mudah, diperlukan pengetahuan programming dan layout halaman web (HTML, CSS, JS dll). Dengan kebutuhan yang tinggi maka aktivitas ekstraksi situs berita akan menjadi lama dan biaya mahal (biaya programmer, komputer, internet dan lain lain). Representasi bentuk ringkasan berita pun bisa bermacam macam, contohnya bisa saja dilakukan proses kompleks menggunakan text miningnetwork text analysis ataupun yang sederhana seperti word cloud / tag cloud

Untungnya saat ini terdapat cara untuk membuat API online sehingga proses “crawling” ini bisa dilakukan dengan cepat dan mudah. Mahasiswa saya Rio memberitahu saya mengenai aplikasi import.io untuk membuat API crawling website menjadi lebih mudah. Saya mencoba eksperimen dengan situs berita antara , dimana saya ambil berita nasional selama satu bulan terakhir (2 september 2015 – 2 oktober 2015), dan saya peroleh 1495 berita. Atribut informasi yang saya ekstrak adalah judul berita, isi berita, quote berita, waktu berita di post dan identitas wartawan penulis. Kemudian hasilnya saya tampilkan dalam ringkasan sederhana yaitu  word cloud / tag cloud.

Kalo anda ingin membuat ringkasan / ekstraksi informasi dari website, maka bisa melakukannya dengan cara ini, baik website berita, ecommerce, forum online, dan lain lain. Jika ingin bantuan mendetail atau tidak mau repot repot otak atik dan cuma butuh datanya saja bisa kontak Rio.  Cek screenshot dari eksperimen saya dibawah ini. Semoga sharing ini bermanfaat ..

1

 

2

 

proses crawling url website pada situs berita antara

3

 

proses penentuan informasi apa yang akan diambil dari suatu situs, import.io membuatnya sangat mudah

 

4

 

proses konstruksi API import.io

 

5

 

wordcloud dari isi situs berita antara sub berita nasional periode 2 september 2015 – 2 oktober 2015

#HBDJokowi

Hari ini presiden kita Pak Joko Widodo merayakan ulang tahunnya yang ke 54. Jagad twitter pun seharian ramai sekali. Bagaimana ringkasan suara dunia twitland tentang ulang tahun Pak Jokowi ? .. Berikut ini adalah summary nya

#takenfrom12000tweets

Screen Shot 2015 06 21 at 7 21 35 PM  2

Intisari Konten Percakapan Jurnalistik Warga Bandung #SuaraNetizen

Pada entry blog sebelumnya dibahas interaksi pada komunitas jurnalistik warga bandung Netizen PRFM Photo di Facebook yang membentuk jejaring sosial. Dari data crawling kami peroleh 175 post / laporan #SuaraNetizen dalam kurun waktu 2 bulan (21 April 2015 – 21 Juni 2015). Dengan menggunakan teknik wordcloud kami peroleh summary atau intisari singkat dari apa yang disuarakan netizen bandung.

Hasil intisari #SuaraNetizen tersebut tidak terlalu detail, karena saya tidak melakukan proses filtering (stemming) dan proses proses lainnya untuk mengerucutkan hasil intisari. Meskipun proses ini menggunakan wordcloud, tapi saya cenderung menamakannya dengan sentence cloud, karena implementasi proses wordcloud agak sulit pada bahasa indonesia, dengan banyaknya kata sambung dominan seperti : dengan, yang, dari, ke, pada, atau dan lain lain .. 

Berikut ini intisari dari topik topik tersebut yang saya namakan awan kalimat, semakin besar hurufnya berarti semakin populer topik / laporan / percakapan/ post yang mengandung kalimat kalimat tersebut di bawah. Untuk interpretasinya silahkan disimpulkan sendiri yaa …

Awankalimat