Framework pro extrakci informací z velkého množství jazykových dat
Author(s)
Kuboň, DavidKeywords
n-gramyskip-gramy
velké množství dat
strojové učení
vektory příznaků
n-grams
skip-grams
large data
machine learning
feature vectors
Full record
Show full item recordOnline Access
http://hdl.handle.net/20.500.11956/71526Abstract
Tato práce popisuje program FAFEFI sloužící k extrakci n-gramů a skip-gramů z velkého množství jazykových dat. Řeší možnosti předání vstupních dat programu, návrh datových struktur pro reprezentaci n-gramů a skip-gramů v paměti, algoritmus jejich extrakce, paměťově úsporné varianty uložení extrahovaných dat a jejich finální zpracování do výstupních vektorů příznaků. Představuje i řadu rozšiřujících funkcí programu, jako jsou například řádkový filtr vstupních dat a modifikátor obsahu řádků, a široké spektrum konfigurovatelných parametrů - oddělovači v souborech počínaje a názvy výstupních souborů konče. Mimoto poskytuje variabilitu prováděných činností v podobě meziukládání trénovací sady dat a prezentuje nástroje pro paralelizaci výpočtu na clusteru. Powered by TCPDF (www.tcpdf.org)This thesis describes the FAFEFI program that focuses on n-gram and skip-gram extraction from large data sets. The thesis presents two different approaches to passing input data to the program. It also describes the design of data structures for n-gram and skip-gram representation within computer memory, the algorithm of n-gram and skip-gram extraction, memory-friendly options of saving extracted data and their final composition into output feature vectors. It also offers a variety of extra functions such as line filter and line modifier and a great deal of configurable parameters ranging from in-file separators to formatting the names of output files. Moreover, the program provides a differentiation in its activity by enabling saving data just after extraction from the train set and brings tools for cluster parallelization. Powered by TCPDF (www.tcpdf.org)
Institute of Formal and Applied Linguistics
Ústav formální a aplikované lingvistiky
Matematicko-fyzikální fakulta
Faculty of Mathematics and Physics
Date
2017-05-27Type
bakalářská práceIdentifier
oai:dspace.cuni.cz:20.500.11956/71526http://hdl.handle.net/20.500.11956/71526
145344
001783669