Як OSINT допомагає у виявленні епідемій

Щоб врятувати людей, потрібна швидкість. Та відкриті джерела даних якраз дозволяють цю швидкість отримати. OSINT дає можливість стежити за новими даними в режимі реального часу і дізнаватися про епідемії на 1-2 тижні раніше офіційних оголошень. А у випадку, коли кожен день може забирати тисячі життів, це критично важливо.

У свою чергу традиційний варіант моніторингу епідемій є більш тривалим і дорогим, хоча одночасно і більш точним. Заразившемуся потрібно зрозуміти, що з ним щось не так, прийти в лікарню, здати аналізи. Лікарі повинні поставити діагноз, а після виявлення якогось небезпечного захворювання надіслати дані охорони здоров’я органи для вжиття заходів.
В країнах традиційна система моніторингу захворювань може і зовсім бути відсутнім або бути дуже неефективною. У цьому випадку OSINT взагалі стає єдиною можливістю запобігти або знизити ефект спалаху епідемії.

Крім швидкості, плюсом OSINT є те, що він доступний більшості. Це дає населенню можливість стежити за ймовірними спалахами в своєму регіоні і, в разі чого, вчасно убезпечити себе і близьких.

Проте відкриті дані — це не чари, який всіх врятує. OSINT не допоможе передбачити появу вірусу, але на основі пари виявлених випадків можна спрогнозувати можливу епідемію і постаратися її запобігти. А якщо поширення хвороби вже в самому розпалі, відкриті дані допоможуть зменшити кількість хворих.

Підбираємо правильні джерела

Соціальні мережі

Twitter — одна з найпоширеніших соціальних мереж для раннього виявлення епідемій. Часто в коротких повідомленнях люди діляться своїм самопочуттям і використовують ключові слова, які як раз таки і потрібні для моніторингу. До того ж, у цій мережі відносно відкрита політика з доступом до 1 % випадкової вибірки твітів.

Пошук натяків на епідемію в Twitter може виглядати наступним чином. Твіти, вивантажені за певний період часу, фільтруються у класифікаторі SVM за:
— ключовими словами на кшталт «застуда» (або інше захворювання) мовою регіону. Також добре додати фільтр на твіти, в яких людина пише про себе («я», «мені», «мене») і про те, що саме він заразився («підхопив»), а не просто боїться.
— конкретного регіону (більш точними будуть локальні дані — на рівні населених пунктів). Для цього є система геолокаціі в Twitter — Carmen.
А ще потрібно виключити ретвіти, новини та посилання.

Чому у виявленні епідемій моніторинг Twitter виявляється таким ефективним? В одному дослідженні дані по твітів за період з жовтня 2012 р. по травень 2013 показали кореляцію 0.93 у співвідношенні з офіційними даними Центрів з контролю і профілактики захворювань в США. У той час як навіть дані Міністерства охорони здоров’я і соціальних служб США були менш точними — кореляція 0.75. І варто розуміти, що Twitter можна моніторити щодня і дізнаватися інформацію з перших рук. А користувачі там можуть писати про своє здоров’я досить відверто.

Звичайно ж, Twitter не повинен бути єдиним джерелом моніторингу. Щомісяця там сидять ~4% населення землі. Але на Twitter варто звернути особливу увагу в регіонах, де він має найбільшу кількість активних користувачів.

Крім Twitter для досягнення початкової мети буде корисно моніторити та інші соціальні мережі.

Наприклад, був цікавий випадок з WeСhat (якраз по COVID-19). У них є ресурс WeChat Index, який дозволяє визначати частоту згадок тих чи інших ключових слів. Так от, в період з 17.11.2019 за 30.12.2019 (за кілька тижнів до офіційного оголошення і лабораторного підтвердження) WeChat Index наповнився словами «грип», «брак дихання», «діарея», «новий коронавірус».

Не менш ефективним може виявитися Facebook. Наприклад, визначають місця найбільш сильних спалахів по мережі контактів. Для цього є платформа Facebook Data For Good. Там можна отримати доступ до сервісу Social Connectedness Index (тільки для НДО та дослідників), який покаже регіони з найбільш тісними зв’язками. Сервіс визначає співвідношення між дружніми зв’язками в Facebook і місцезнаходженням людей. Це дозволяє зрозуміти, де люди більше контактують між собою, і де потрібно ввести більш суворий карантин.

Пошукові запити в Google

Тенденція до епідемії визначається за кількістю запитів, що належать до симптомів, назві захворювання, визначеним ліків і тд. На сьогоднішній день самий доступний інструменти для цього способу — Google Trends.

Двоє перших хворих коронавірусом в Росії були зафіксовані 31 січня. А Google Trends показує, що підвищений інтерес до вірусу в пошуковику по країні почав проявлятися за 2 тижні до цього.

Дослідники з Індії пішли ще далі і провели кореляцію між двома джерелами відкритих даних між даними про 4-х захворюваннях від Проекту комплексного нагляду за хворобами і від Google Trends і Correlate. І за їх результатами деякі спалахи можна було передбачити аж за 4 тижні.

Крім передбачення спалахів, аналіз пошукових запитів допоможе приблизно визначити, коли епідемія йде на спад.

Аналітика по запитам може бути менш точною і давати результати з запізненням (дані оновлюються щотижня). Тому особливо хороша в поєднанні з іншими способами.

Популярність статей у Вікіпедії

Результатом пошуку інформації в Google найчастіше стає сторінка у Вікіпедії. У той час як Google показує нам, які теми зараз шукають найбільше, Вікіпедія — в яких темах люди реально зацікавлені (що навіть зайшли на ресурс про них почитати).

Вікіпедія надає можливість відслідковувати кількість переглядів статті за певні проміжки часу. Це означає, що можна простежити, коли стаття стає більш популярною. Інформація надається швидко, так як оновлюється щогодини. Переглянути її можна тут або (більш простий варіант, але лише за місяць) зайти на конкретну статтю → ” ліворуч «інструментах» натиснути «інформація про сторінку» → на сторінці, в першій табличці внизу буде «кількість переглядів сторінок за останні 30 днів» → праворуч від нього цифра, на яку натискаєте і бачите статистику за місяць.

Ось, наприклад, статистика за статтею COVID-19 російською.

В теорії, нічого не заважає нам щодня збирати таку відкриту статистику по всіх сторінок з хворобами яким-небудь скриптом для визначення свої трендів на додаток до Google Trends. Ми, звичайно, не зможемо простежити за статтею про якийсь рідкісної і незвичайної хвороби, але статті про найбільш часто виникають заразних хворобах можна досить просто моніторити.

Детальну статистику по різних параметрах можна дивитися тут. Наприклад, популярні статті фільтруються по місяцях і днях, а також із зазначенням конкретної мови. Для цього потрібно зайти в «Total Page Views», зліва натиснути «Top viewed articles» і вибрати мову і період часу. Ось, наприклад, топові статті російською за січень 2020.

Якщо раптом якісь статті про захворювання (особливо заразних) починають вибиватися вперед — можливо це тривожний дзвінок.

Вікіпедія дає змогу стежити за даними в реальному часі, тобто теж дає інформацію швидше, ніж офіційні оголошення, в середньому на 2 тижні.

Отримання даних через краудсорсінг

У середовищі OSINT ніхто не забороняє створювати нові джерела інформації шляхом залучення зацікавлених у цій інформації людей. У цьому випадку користувач сам приходить на наш ресурс і залишає дані про своє здоров’я. Все це анонімно, але допомагає визначити розташування нових спалахів. Тобто в онлайн-режимі можна подивитися, де з’явилися випадки захворювань і де їх найбільше.

Такий формат хороший тим, що людина може не мати можливості чи не хотіти йти до лікаря. А з допомогою готових краудсорсинговых платформ він може допомогти у швидкому виявленні нових спалахів і отримати деякі корисні рекомендації. До того ж, це майже 100% точність даних без участі лабораторії, чого, наприклад, аналіз запитів в пошукових системах вже точно дати не може. А поганий цей спосіб тим, що люди можуть не дізнатися про це ресурсі своєчасно.

Платформа для США: Flu Near You. На сайті анонімно можна розповісти про своє самопочуття. Дані відразу ж візуалізуються на карту так, що інші можуть зайти і подивитися, в яких регіонах є хворі люди.

Для 10 європейських країн: Influenzanet. Тут можна заповнити анкету з питаннями про симптоми, географічних даних. Після цього, щотижня учасникам нагадують повідомляти про нові симптоми і як змінюється їх стан. Все теж анонімно. Отримані дані відображаються на графіках і щотижня оновлюються.

Моніторинг місцевих новин

Регулярний моніторинг локальних новин може реально прискорити реакцію держави на епідемію. Розглянемо кілька платформ, які цим займаються.

Наприклад, канадський державний ресурс GPHIN. За ключовими словами інформаційна мережа аналізує дані з різних новинних інтернет-джерел. Він доступний тільки по платній підписці і зазвичай його використовують міжнародні та некомерційні організації, держави, деякі приватні компанії.

Вперше GPHIN успішно допоміг у виявленні незвичайного вірусу в Китаї наприкінці 2002-на 3 місяці(!) раніше традиційної системи моніторингу через якусь місцеву газетку в провінції Гуандонг.

Не можна обійти стороною ресурс Worldometer. Він відображає світову статистику по різним темам (в тому числі й охорона здоров’я) у режимі реального часу. Аналітики, розробники, дослідники та волонтери з усього світу збирають дані з достовірних новинних повідомлень. Незважаючи на те, що основне джерело інформації у платформи все-таки державні дані лабораторно підтверджені випадки, вони можуть реагувати швидше офіційних повідомлень. Наприклад, відслідковувати інформацію із соціальних мереж когось із влади або з прес-конференцій і відразу ж її публікувати.

Зараз у них є окрема сторінка з COVID-19. Там можна знайти форму, яка дозволяє повідомляти про нові випадки. Що значно прискорює надходження нових даних. У профілях у деяких країн навіть є прогнози і дані по окремих регіонах.

Аналіз місцевих новин з точки зору OSINT допомагає не тільки виявити епідемію, але і уникнути поширення дезінформації. Так як він передбачає обробку великих обсягів даних з різних джерел і перевірку знайденої інформації. Ось недавній приклад: у мережі з’явилася інформація, що в Республіці Якутія 3500 людина заразилася COVID-19 на якомусь промисловому об’єкті. За офіційними ж даними на 10 травня по всій республіці трохи більше 500 заражених. Здавалося б, і те й інше — відкриті джерела, але накладення їх один на одного в ході невеликої розвідки дозволило трохи скорегувати картину епідемії в регіоні (а може, й у всій країні?)

Гібридний спосіб

Деякі дослідники пропонують поєднати розпізнавання епідемій через OSINT і традиційний моніторинг. Наприклад, з’єднати в одну систему результати по запитам в Гугл, аналіз постів у соціальних мережах, краудсорсинговые платформи і дані про те, що люди зверталися з якоюсь хворобою, електронних медичних карток (їх можна отримати, наприклад, з допомогою athenahealth). І це відмінний варіант, тому що навіть, якщо якийсь із способів дасть неправильні або спотворені дані, це не зіпсує загальну картину.

У цьому прикладі дослідники скомбінували всі способи і порівняли з офіційними даними, які надходили з американських Центрів контролю і профілактики захворювань (у них лабораторно підтверджені випадки). Вийшло, що кореляція даних з усіх джерел з офіційними даними значно вище, ніж якщо використовувати їх окремо.

Які ще інструменти доступні для дослідження епідемій методами OSINT?

ProMED
Це ресурс, який збирає інформацію з мережі і не тільки, перевіряє її, відразу ж публікує у себе на сайті і розсилає на пошту тим, хто на них підписаний.

ProMED відкритий до будь-яких джерел: повідомлення ЗМІ, офіційні повідомлення, дані від місцевих оглядачів та ін. Перед публікацією команда модераторів-експертів перевіряє інформацію, що надходить. До речі, ProMED доступний і російською. Ця версія висвітлює тільки російськомовний регіон пострадянських країн.

Не найшвидший спосіб виявлення епідемій, але, ймовірно, швидше, ніж традиційну систему моніторингу. За тиждень до офіційного оголошення ВООЗ, 30 грудня 2020 ProMED дізнався про дивну пневмонії з китайського ресурсу мікроблогів Weibo.

HealthMap
Це система, яка за допомогою алгоритмів аналізує десятки тисяч джерел даних: новинні портали, повідомлення держорганів, соціальні мережі, блоги. І все для того, щоб виявити і відстежити нові спалахи. Ресурс відразу ж візуалізує отримані дані у вигляді карти. А в боротьбі з неточностями вони використовують штучний інтелект, який допомагає позбавитися від повторів і нерелевантної інформації.

Яскравий приклад успішності HealthMap — розпізнавання вірусу еболи 14 березня 2014, за 9 днів до офіційного оголошення від органів охорони здоров’я Гвінеї.

Як боротися з викривленнями даних з відкритих джерел

1. Відкриті дані знаходяться у владі відповідних компаній (Google, Facebook, різні платформи і сайти). І ці корпорації можуть змінювати алгоритми при зборі інформації без будь-якого попередження. Або щось видаляти, змінювати зібраних даних.

Рішення: накопичувати потрібні дані у себе. В тому числі — за допомогою готових інструментів, таких як web archive. Так їх можна буде або моніторити в режимі реального часу або аналізувати в ретроспективі.

2. Недостатня репрезентативність в Інтернеті. Дані можуть показувати, що захворіли більше, наприклад, в США. В Африці їх може бути ще більше. Але так як у них охоплення територій інтернетом сильно менше, їм складніше якось позначитися. А платформи HealthMap і GPHIN дають кращі результати у країнах, де більше новинних порталів та інших ЗМІ. Що теж зовсім не допомагає швидкому розпізнаванню епідемій в країнах, що розвиваються.

Рішення: тут допоможе статистика — дивитися звідки приходять дані і співвідносити з кількістю людей, які там живуть, кількістю населення, яке має доступ до мережі і проводити екстраполяцію.

3. Збіг зі схожими словами з іншим значенням і в інших контекстах. Якщо використовуються прості ключові слова для пошуку без складної фільтрації, то є шанс отримати невірну інформацію. У 2007 в США Google trends помилково виявив епідемію холери. А це просто Опра Вінфрі вибрала роман «Кохання під час холери» для свого книжкового клубу і тому був різкий сплеск запитів на слово «холера».

Рішення: потрібна автоматизована семантична фільтрація — відділення даних з ключовими словами, які точніше відображають зміст того, що ми шукаємо.

4. Немає підтвердження, що люди, які щось шукають або щось пишуть, дійсно заражені і хворіють. Це можна вирішити використанням гібридного способу, про який ми говорили вище, або покластися на великі дані+закон великих чисел, які в сукупності нівелюють негативний ефект.

Що далі: підвищення ефективності виявлення епідемій методами OSINT

Як мінімум, ті дані, які користувачі залишають у відкритому доступі, повинні бути доступні для аналізу органів охорони здоров’я та інших бажаючих, які хочуть знати більше та швидше про епідеміологічну обстановку в країні і в світі. Адже далеко не всі платформи надають можливість вивантажувати дані або взагалі хоч якось аналізувати те, що відбувається через OSINT.

Деякі дослідники намагаються «прикрутити» до такої аналітики засоби машинного навчання. Наприклад, в Ірані провели експеримент з довгою короткостроковою пам’яттю (LSTM) і пандемією COVID-19. Вони використовували дані з Google Trends і змогли дуже непогано передбачити кількість нових випадків. На графіку нижче показано, як реальна кількість хворих співвідноситься з передбаченням LSTM. Дослідники відзначають, що якби даних для навчання було більше, то й результати були б точніше.

Глибоке навчання пробують використовувати для прогнозування кількості заражених ВІЛ. Наприклад, в Китаї для експерименту взяли офіційні дані за 2005-2016 по автономній області Гуансі і, використовуючи різні моделі (в тому числі LSTM), спробували передбачити кількість заражених за 2015-2016. Дослідники порівняли результати з реальними даними, і довга короткострокова пам’ять дала найбільш точні передбачення.

Щоб розвивати інструменти на основі глибокого навчання, потрібно дуже багато даних. А зараз існує тенденція, навпаки, залишати якомога менше інформації в інтернеті, захищати свою приватність. Тим не менше, як показала практика, для того, щоб успішно застосовувати методи OSINT при дослідженні будь-якої проблеми, достатньо вміти оперативно знаходити релевантні джерела у відкритому доступі і мати в своєму арсеналі кілька прийомів для їх ефективного аналізу.

Джерело

Поділитися
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
Реклама

363

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Схожі записи

Почніть набирати текст зверху та натисніть "Enter" для пошуку. Натисніть ESC для відміни.

Повернутись вверх