IORG 以可公開驗證的資料科學方法研究「資訊操弄」(information manipulation),從中揭露「資訊作戰」(information operation),所以需要各式各樣的資料。Facebook、微博,是台灣、中國重要的社交平台,但取得資料卻比想像中還要困難。在建立爬蟲系統的過程中,IORG 面臨各式各樣的挑戰,包括取得目標列表、反制阻擋機制、控制爬蟲速度、訂定資料欄位、提高資料儲存及搜尋效率。我們是如何解決這些挑戰,確保系統持續運作的?軟硬整合的爬蟲系統,怎麼開源?
對 IORG 來說,g0v 社群長久以來持續累積的開放資料,是超級有價值的研究基礎。「Cofacts 真的假的」有 LINE 的可疑訊息資料、「鄉民看電視」有電視新聞資料、「0archive 零時檔案局」有靜態網站、PTT 的文章。加上 Facebook、微博的貼文,我們必須擴充 0archive 的開放資料標準、連結各種資料,實作儲存、索引、搜尋的方法,並且公開這些資料。這個龐大而複雜的公開資料庫,現在長成什麼樣子了?
要怎麼從龐大的資料中,找到、觀察一則謠言的生命週期和傳播網絡?除了複製貼上、分享連結之外,謠言也可能在傳播的途中變形、合併。要怎麼知道哪些訊息是屬於同一則謠言?IORG 提出「屬於同一則謠言」的數學定義,以及快速打包謠言的演算法。而在打包之後,就能嘗試 mapping 謠言的傳播網絡,我們準備了一些案例,想與大家分享。
IORG 研究成果授權公開相關資訊,請參考 https://iorg.tw/open
About chihao
ID 是 chihao,g0v 貢獻者、IORG 共同主持人。內容管理系統是治理機制、組織價值的具體呈現。
About 林玿弘
台大政治學碩士
IORG 資料工程師