Otvorene strategie

V kategórií Výstupy

Zhlukovanie dokumentov podľa silných stránok SWOT

SWOT analýza je dôležitým vstupom pre tvorbu rozvojových stratégií PHSR. Tento notebook je o skúmaní podobnosti silných stránok obcí. Výsledkom sú zhluky obcí, ktoré majú podobné silné stránky.

Čítaj viac

V kategórií Výstupy

Počítanie n-gramov vo swot analýzach

Príklad frekvenčnej analýzy n-gramov vo SWOT analýzach (s aj bez POS tagov). V oblasti výpočtovej lingvistiky a pravdepodobnosti je n-gram súvislou sekvenciou n položiek z danej vzorky textu. Položkami môžu byť fonémy, slabiky, písmená, slová alebo bázové páry podľa aplikácie. V našom prípade sú to bo a tri gramy slov.

Čítaj viac

V kategórií Výstupy

Lematizácia SWOT

Výsledkom dolovania SWOT tabuliek sú textové reťazce nachádzajúce sa v príslušných kvadrantoch SWOT analýzy. Jednotlivé slová (tokeny) tvoriace tieto textové reťazce sa v nich nachádzajú v rôznych gramatických tvaroch. Ak ich chceme ďalej analyzovať tak potrebujeme najprv získať základné alebo “slovníkové” tvary slov. Tento proces sa volá lematizácia.

Čítaj viac

V kategórií Výstupy

Extrakcia vízie rozvoja územia

V nasledujúcopm príklade použijeme predpripravené dáta a pomocou regulérnych výrazov vyextrahujeme víziu rozvoja z jednotlivých dokumentov PHSR.

Čítaj viac

V kategórií Výstupy

Dolovanie SWOT

SWOT analýza by sa v dokumentoch mala objaviť ako tabuľka o rozmere 4×4. V realite sú to ale tabuľky s variabilným počtom stĺpcov a riadkov a s variabilnou pozíciou elementov SWOT. V niektorých prípadoch je SWOT v dokumentoch uvedený ako súvislý text a absentuje tabuľková forma.

Čítaj viac

V kategórií Výstupy

Prítomnosť SWOT analýzy v dokumentoch PHSR

Jedným z kľúčových obsahových prvkov dokumentov PHSR je SWOT analýza, ktorá slúži na definovanie východísk pre návrhovú časť PHSR.

Čítaj viac

V kategórií Výstupy

Príklad extrakcie formuláru U1

Formulár U1 – Zámer spracovania PHSR. Obsahuje informácie o pláne na vypracovanie PHSR. Táto tabuľka sa tvorí pred samotným spracovaním PHSR a popisuje predpokladaný spôsob spracovania dokumentu, rámcový harmonogram a predpokladané náklady.

Čítaj viac

V kategórií Výstupy

Príprava tabuliek na extrakciu dát

V predchádzajúcich skriptoch sme súbory korpusu PHSR homogenizovali na formát pdf a následne sme z nich vyextrahovali tabuľky do samsotatných excelovských súborov. Samostatné súbory sú užitočné pre manuálne overenie výsledkov následných algoritmov ale nie sú optimálne pre automatizované spracovanie. Preto isch skonsolidujeme do jedného objektu.

Čítaj viac

V kategórií Výstupy

Extrakcia surových tabuliek

Dokumenty PHSR obsahujú množstvo tabuliek a formulárov s dôležitým obsahom avšak s výraznou variabilitou. Testovali sme viacej nástrojov a knižníc až sme nakoniec narazili na camelot. Tento zošit obsahuje príklad použitia camelotu na extrakciu tabuliek z pdf súborov.

Čítaj viac

V kategórií Výstupy

Prítomnosť vzorových tabuliek

Ďalšou úrovňou overenia konformity bolo overenie prítomnosti formulárov v súlade s metodikou platnou pre PO 2014-2020. Na rozdiel od základných obsahových častí PHSR, ktoré sú priamo uvedené v zákone, formuláre vyplývajúce z metodiky nie sú záväzné.

Čítaj viac

V kategórií Výstupy

Prítomnosť povinných kapitol

Zákon o regionálnom rozvoji stanovuje povinné obsahové časti pre dokumenty PHSR. Pomocou regulérnych výrazov sme sa snažili identifikovať prítomnosť povinných častí v dokumentoch PHSR za PO 2014-2020.

Čítaj viac

V kategórií Výstupy

Konverzia do plaintext

V týchto notebookoch nájdete postup, ako sme súbory z formátu pdf konvertovali do čistého textu. Python ponúka množstvo balíkov pre zvládnutie tejto úlohy. Niektoré z nich sme uviedli v Konvenciách pre predspracovanie textových dát PHSR.

Čítaj viac

V kategórií Výstupy

Konverzia do pdf

V tomto notebooku nájdete postup, ako sme konvertovali súbory z rôznych formátov (doc, odcx, xls, rtf, odt…) do formátu pdf.

Čítaj viac

V kategórií Výstupy

Základná štatistika datasetu OS

Základný korpus OS pozostáva z niekoľkých tabuliek a pár tisícov súborov. Aj bez ďalšieho čistenia a triedenia poskytujú surové údaje dôležité poznatky o stave plánovania regionálneho rozvoja na Slovensku.

Čítaj viac

V kategórií Výstupy

Sťahovanie našich dát

Tu je malá PYTHON pomôcka v prostredí Google Colab pre tých, ktorí si chcú stiahnuť naše dáta prostredníctvom API a uložiť si ich na Google Drive.

Čítaj viac