Skip to main content

Web Content Display Web Content Display

Skip banner

Web Content Display Web Content Display

Web Content Display Web Content Display

You can find us here:

Web Content Display Web Content Display

Budowa bazy danych w ramach polskiego oddziału Comparative Agendas Project - Badania dra hab. Łukasza Wordliczka, prof. UJ

Przedmiotowy projekt badawczy jest realizowany w ramach grantu Priorytetowego Obszaru Badawczego DigiWorld w 2021 roku.

Comparative Agendas Project jest przedsięwzięciem umożliwiającym badaczom, analitykom, decydentom oraz innym zainteresowanym bezpłatny dostęp do danych opisujących trendy w polityce publicznej (public policy). Dane są dostępne zarówno w odpowiednim horyzoncie czasowym, jak i przestrzennym – według obecnego stanu, projekt gromadzi wybrane dane dla następujących krajów: Australia, Belgia, Brazylia, Chiny, Chorwacja, Dania, Francja, Holandia, Hiszpania, Izrael, Kanada, Niemcy, Nowa Zelandia, Portugalia, Rosja, Węgry, Włochy, Szwajcaria, Turcja, USA oraz Wielka Brytania. Niektóre dane są także zebrane dla stanów Floryda i Pensylwania oraz dla Unii Europejskiej. Jak zatem widać Polska wciąż pozostaje tutaj symboliczną białą plamą.

Atrakcyjność Comparative Agendas Project wynika co najmniej z trzech powodów: (1) obszerności zebranych danych, (2) łatwości dostępu (bez opłat i online) oraz (3) prób systematyzacji danych w ramach ujednoliconego systemu kodowania, który obejmuje 21 kategorii głównych oraz ponad 220 kategorii szczegółowych odpowiadających obszarom aktywności danego państwa w polityce publicznej.

Dzięki powyższemu, dane Comparative Agendas Project umożliwiają monitorowanie procesów politycznych poprzez analizę działań różnorodnych aktorów w ramach polityki. Przejawy takiej aktywności obejmują m.in.: debaty parlamentarne, przemówienia, przesłuchania przed komisjami parlamentarnymi, inicjatywy ustawodawcze, uchwalone akty prawne, wyniki głosowań, czy też wydane orzeczenia sądowe. Bazę danych uzupełniają także dane odzwierciedlające wyniki badań opinii publicznej, czy też przekaz medialny. W tym kontekście, za modelowy może służyć pierwotny projekt obejmujący dane dla Stanów Zjednoczonych.

Szczegółowo rzecz ujmując, przedmiotem wniosku jest uzupełnienie posiadanych danych opisujących różnorodne aspekty polityki publicznej w Polsce. W dalszej perspektywie, prowadzone będą starania o scalenie tychże danych z systemem Comparative Agendas Project przy zastosowaniu kodowania danych zgodnie z książką kodową (codebook) tegoż projektu.

Dodatkowo, przedmiotem zainteresowania są coraz szersze możliwości wykorzystania metod uczenia maszynowego w badaniach politologicznych. Jest to coraz bardziej dynamicznie rozwijający się na świecie obszar badawczy, lecz w Polsce wciąż pozostaje na marginesie debaty naukowej. W ramach projektu podjęta zostanie próba automatycznego („maszynowego”) sklasyfikowania danych zgodnie z założeniami Comparative Agendas Project. Główny argument na rzecz takiego podejścia wynika z dużej liczby danych oraz ich zróżnicowanych atrybutów. Z tego też względu planowane jest zastosowanie do klasyfikacji danych metod uczenia maszynowego, w szczególności metody identyfikacji i segmentacji tematów z zakresu przetwarzania języka naturalnego (Natural Language Processing, NLP). Na obecnym etapie, najbardziej obiecujące wydają się być następujące podejścia: konwolucyjne sieci neuronowe, klasyfikatory oparte na metodzie wektorów nośnych oraz wybrane techniki analizy sieci.

Wykorzystane zostaną także dostępne informacje pomocnicze ułatwiające klasyfikację, które pozwolą zróżnicować priory Bayesowskie dla poszczególnych kategorii danych. Dodatkowo losowo wybrany podzbiór danych zostanie zakodowany ręcznie przez zespół ekspertów. Porównanie wyników obu metod kodowania pozwoli ustalić, czy przedstawiona metoda automatycznego kodowania ma potencjał szerszego zastosowania, zidentyfikować jej najważniejsze słabości oraz określić kierunki dalszych badań.

Zespół projektowy składa się z następujących osób: dr hab. Łukasz Wordliczek (Instytut Amerykanistyki i Studiów Polonijnych UJ, kierownik grantu), dr hab. Anna Sroka (Wydział Nauk Politycznych i Studiów Międzynarodowych, Uniwersytet Warszawski), dr Dariusz Stolicki (Instytut Nauk Politycznych i Stosunków Międzynarodowych UJ), dr Miklós Sebők (Instytut Nauk Politycznych, Węgierska Akademia Nauk). Dodatkowo, skład osobowy uzupełnia dwóch wykonawców, którzy odpowiedzialni będą za wstępne przygotowanie danych oraz zastosowanie wybranego narzędzia analizy danych w ramach NLP.

W tym miejscu należy wyraźnie zaznaczyć, że przedmiotowy wniosek trzeba w istocie traktować, jako rozszerzenie danych już zebranych w ramach różnych projektów zrealizowanych pod auspicjami działającego przy UJ Centrum Badań Ilościowych nad Polityką.

Przedmiotowy projekt jest stosunkowo ściśle związany z celami POB DigiWorld. Wynika to głównie z zastosowania metod uczenia maszynowego do kodowania danych jakościowych zgodnie z systemem Comparative Agendas Project. Wiąże się to z domeną zastosowań metod uczenia maszynowego w naukach społecznych oraz z domeną humanistyki cyfrowej (ze względu na rolę przetwarzania języka naturalnego w procesie kodowania). Ponadto uzyskany zbiór danych będzie stanowił punkt wyjścia dla dalszych badań z zastosowaniem metod uczenia maszynowego. Na przełomowość powyższego projektu składa się klika elementów:

  • Interdyscyplinarność: o interdyscyplinarności projektu przesądza zastosowanie metod typowych dla nauk informatycznych czy matematycznych (NLP, analiza sieci) w badaniach z obszaru nauk o polityce. Ponadto wytworzona baza danych będzie służyć naukowcom z różnych dyscyplin (zagraniczne dane Comparative Agendas Project były wykorzystywane m.in. w ekonomii, naukach o mediach, socjologii, czy też psychologii społecznej).
  • Internacjonalizacja: projekt stanowi polską „filię” szerokiego projektu międzynarodowego, realizowanego w kilkunastu krajach. Ponadto w jego realizację będzie bezpośrednio zaangażowany wykonawca zagraniczny, który koordynował tworzenie węgierskiego projektu Comparative Agendas Project.
  • Innowacyjność projektu wynika z zastosowanej metodologii – klasyfikacja tekstów z wykorzystaniem NLP ciągle jest rzadko spotykana w naukach o polityce w skali światowej, a dodatkowe wykorzystanie powiązań między różnymi tekstami (ustawami, sprawozdaniami, wnioskami, etc.) badanych przy pomocy metod analizy sieci jest całkowicie nowe.
  • Integracja: uzyskane wyniki mogą być interesujące dla otoczenia społecznego, m.in. think tanków, organizacji trzeciego sektora, analityków czy dziennikarzy.

Ostatecznym wymiernym efektem projektu ma być baza danych włączona do szerszej bazy Comparative Agendas Project oraz artykuł naukowy opisujący zastosowaną metodologię i wyniki jej porównania z jakościowym kodowaniem losowego podzbioru danych. Osoby korzystające ze zbioru danych będą proszone o cytowanie artykułu jako pracy referencyjnej.

Informacje pochodzą ze strony Instytutu Amerykanistyki i Studiów Polonijnych