SWOT analýza je dôležitým vstupom pre tvorbu rozvojových stratégií PHSR. Tento notebook je o skúmaní podobnosti silných stránok obcí. Výsledkom sú zhluky obcí, ktoré majú podobné silné stránky.
Čítaj viacPríklad frekvenčnej analýzy n-gramov vo SWOT analýzach (s aj bez POS tagov). V oblasti výpočtovej lingvistiky a pravdepodobnosti je n-gram súvislou sekvenciou n položiek z danej vzorky textu. Položkami môžu byť fonémy, slabiky, písmená, slová alebo bázové páry podľa aplikácie. V našom prípade sú to bo a tri gramy slov.
Čítaj viacVýsledkom dolovania SWOT tabuliek sú textové reťazce nachádzajúce sa v príslušných kvadrantoch SWOT analýzy. Jednotlivé slová (tokeny) tvoriace tieto textové reťazce sa v nich nachádzajú v rôznych gramatických tvaroch. Ak ich chceme ďalej analyzovať tak potrebujeme najprv získať základné alebo “slovníkové” tvary slov. Tento proces sa volá lematizácia.
Čítaj viacV nasledujúcopm príklade použijeme predpripravené dáta a pomocou regulérnych výrazov vyextrahujeme víziu rozvoja z jednotlivých dokumentov PHSR.
Čítaj viacSWOT analýza by sa v dokumentoch mala objaviť ako tabuľka o rozmere 4×4. V realite sú to ale tabuľky s variabilným počtom stĺpcov a riadkov a s variabilnou pozíciou elementov SWOT. V niektorých prípadoch je SWOT v dokumentoch uvedený ako súvislý text a absentuje tabuľková forma.
Čítaj viacJedným z kľúčových obsahových prvkov dokumentov PHSR je SWOT analýza, ktorá slúži na definovanie východísk pre návrhovú časť PHSR.
Čítaj viacFormulár U1 – Zámer spracovania PHSR. Obsahuje informácie o pláne na vypracovanie PHSR. Táto tabuľka sa tvorí pred samotným spracovaním PHSR a popisuje predpokladaný spôsob spracovania dokumentu, rámcový harmonogram a predpokladané náklady.
Čítaj viacV predchádzajúcich skriptoch sme súbory korpusu PHSR homogenizovali na formát pdf a následne sme z nich vyextrahovali tabuľky do samsotatných excelovských súborov. Samostatné súbory sú užitočné pre manuálne overenie výsledkov následných algoritmov ale nie sú optimálne pre automatizované spracovanie. Preto isch skonsolidujeme do jedného objektu.
Čítaj viacDokumenty PHSR obsahujú množstvo tabuliek a formulárov s dôležitým obsahom avšak s výraznou variabilitou. Testovali sme viacej nástrojov a knižníc až sme nakoniec narazili na camelot. Tento zošit obsahuje príklad použitia camelotu na extrakciu tabuliek z pdf súborov.
Čítaj viacĎalšou úrovňou overenia konformity bolo overenie prítomnosti formulárov v súlade s metodikou platnou pre PO 2014-2020. Na rozdiel od základných obsahových častí PHSR, ktoré sú priamo uvedené v zákone, formuláre vyplývajúce z metodiky nie sú záväzné.
Čítaj viacZákon o regionálnom rozvoji stanovuje povinné obsahové časti pre dokumenty PHSR. Pomocou regulérnych výrazov sme sa snažili identifikovať prítomnosť povinných častí v dokumentoch PHSR za PO 2014-2020.
Čítaj viacV týchto notebookoch nájdete postup, ako sme súbory z formátu pdf konvertovali do čistého textu. Python ponúka množstvo balíkov pre zvládnutie tejto úlohy. Niektoré z nich sme uviedli v Konvenciách pre predspracovanie textových dát PHSR.
Čítaj viacV tomto notebooku nájdete postup, ako sme konvertovali súbory z rôznych formátov (doc, odcx, xls, rtf, odt…) do formátu pdf.
Čítaj viacZákladný korpus OS pozostáva z niekoľkých tabuliek a pár tisícov súborov. Aj bez ďalšieho čistenia a triedenia poskytujú surové údaje dôležité poznatky o stave plánovania regionálneho rozvoja na Slovensku.
Čítaj viacTu je malá PYTHON pomôcka v prostredí Google Colab pre tých, ktorí si chcú stiahnuť naše dáta prostredníctvom API a uložiť si ich na Google Drive.
Čítaj viac