Analiza danych zachorowań na COVID-19 i ich wizualizacja przy zastosowaniu metody “web–scraping”
Czerwiec 2021
Streszczenie
Epidemiologia jako nauka czerpiąca swą wiedzę z danych wymaga podjęcia
szybkich i zdecydowanych działań celem zapobieżenia bądź minimalizacji
skutków istniejącego już zagrożenia epidemicznego. Za sprawą nowego
szczepu koronawirusa z roku 2019 (SARS-CoV-2), dziedzina ta ponownie
zyskała na popularności. W niniejszej pracy przedstawiono wczesny rozwój
sytuacji epidemicznej związanej z wirusem SARS-CoV-2 na świecie, objawy
i sposoby zmniejszenia szansy zapadalności na chorobę COVID-19. Nacisk
położono na analizę popularności haseł/artykułów związanych z
koronawirusem w Internecie, analizie danych epidemicznych dla 3 krajów z
najwyższą sumaryczną liczbą zakażeń w roku 2020, Szwecji, Polski i jej
sąsiadów, niepożądanych odczynów poszczepiennych (NOP-ów) wśród
mieszkańców Polski, estymacji chwilowego współczynnika reprodukcji
wirusa \(R(t)\), jak i automatyzacji procesu pobierania danych i ich
późniejszej wizualizacji. Przebieg epidemii w krajach zweryfikowano z
użyciem klasycznych miar epidemiologicznych, a do sprawdzenia istotnych
różnic pomiędzy czynnikami ilościowymi wykorzystano testowanie hipotez
statystycznych. Dodatkowo podczas analizy zbioru z NOP-ami zastosowano
eksploracyjną analizę tekstu celem wydobycia najczęściej pojawiających
się haseł związanych ze stanem pacjenta w zależności od danej kategorii
objawu. Do oszacowania \(R(t)\) wykorzystano dwie metody: filtr Kalmana i
z pakietu EpiEstim w R. Zbieżność obu metod została zweryfikowana z
użyciem korelacji \(r\) Pearsona i \(\tau\) Kendalla, metryki \(MAE\) i
estymatorów metody najmniejszych kwadratów. Automatyczne pobieranie
danych z witryny Worldometer zrealizowano z użyciem własnoręcznie
napisanego skryptu opierającego się na technice “web–scraping” w języku
Python, którego wyniki zostały poddane wizualizacji w programie Kibana.
Użytkownicy przejawiali postępujące w miarę zwiększania się liczb nowych
zakażeń i zgonów zainteresowanie tematykami SARS-CoV-2/COVID-19, jak i
zdrowiem w ogóle, ale nie dezynfekcją rąk. Rozpatrywane kraje świata
różniły się pod względem rozwoju sytuacji epidemicznej, a istotne
różnice występowały pomiędzy sezonem wiosenno-letnim a jesienno-zimowym,
kiedy w części krajach nastąpił znaczny przyrost liczb nowych
zakażeń/zgonów. Również przez znaczną część okresu letniego w niektórych
krajach \(R(t)\) był mniejszy od 1 lub proporcje nie różniły się istotnie.
Większy odsetek pacjentów zgłaszających NOP-y stanowiły kobiety,
aczkolwiek mężczyźni częściej niż kobiety borykali się z poważniejszymi
powikłaniami. Rozkład wieku zmarłych pacjentów był lewoskośny, co
potwierdza, że COVID-19 największe zagrożenie stanowi dla starszych grup
wiekowych. Wykorzystane metody estymacji okazały się być zbieżne, a
analiza uzyskanych z nich \(R(t)\) doprowadziła do podobnych wniosków.
Jeszcze większą zgodność uzyskano po uśrednieniu danych codziennych z
filtra Kalmana w oknie 7-dniowym.
Słowa kluczowe: koronawirus, SARS-CoV-2, COVID-19, analiza danych,
web–scraping, współczynnik reprodukcji wirusa, filtr Kalmana, EpiEstim,
popularność, niepożądane odczyny poszczepienne