Textmining: análise dos discursos de Getúlio Vargas
Getúlio Vargas chega ao poder, como Chefe do Governo Provisório, em 1930, marcando o fim da República Velha, e fica no poder até 1945, elegendo-se novamente em 1951 como Presidente da República, cargo que ocupou até 1954. Implantando uma ditadura em 1930, Vargas modernizou o Brasil, que se tornou um estado autoritário e centralizado na figura do presidente. O “Pai dos Pobres”, como também é conhecido, é responsável pela Consolidação das Leis Trabalhistas (CLT), pela criação do BNDE (atual BNDES), a fundação e o desenvolvimento da Petrobrás, e também pela inserção do Brasil na Segunda Guerra Mundial. Vargas cometeu suicídio em 24 de agosto de 1954, no Palácio do Catete, no antigo Distrito Federal, no Rio de Janeiro. Vargas era conhecido pela sua eloquência e por seus discursos, considerados grandes ensinamentos políticos.Por isso, me proponho a analisar alguns discursos de Vargas na presidência, mais especificamente todos os discursos proferidos entre 1930 e 1937, 1939, 1941, 1944 e o discurso de posse de 1951. Para isso, utilizarei o pacote quanteda
para o R, além do tidyverse
. Os discursos podem ser obtidos aqui, no site da Biblioteca da Presidência.
O primeiro passo é carregar os pacotes que serão de fato utilizados, com o pacman
:
pacman::p_load(
tidyverse,
quanteda,
pdftools,
stopwords,
readtext,
topicmodels,
knitr,
kableExtra)
Em seguida, vamos abrir os discursos. A função readtext
permite importar as mais diversas extensões de texto de uma só vez, permitindo a criação de um corpus rapidamente.
vargas <- readtext(
"Documents/vargas/*",
docvarsfrom = "filenames",
dvsep = "_",
docvarnames = c("ano", "ordem")
)
O argumento docvarnames
utiliza o nome do arquivo para adicionar variáveis ao banco. Como estruturei os discursos da seguinte maneira: ANO_ORDEM.pdf, utilizando o separador _
, crio as variáveisano
e ordem
, representando o ano em que o discurso foi proferido e em qual posição ele está (naquele ano).
Isso fica bem claro abaixo:
head(vargas, 6)
## readtext object consisting of 6 documents and 2 docvars.
## # Description: df[,4] [6 × 4]
## doc_id text ano ordem
## <chr> <chr> <int> <chr>
## 1 1930_01.pdf "\"Presidênci\"..." 1930 01
## 2 1930_02.pdf "\"Presidênci\"..." 1930 02
## 3 1930_03.pdf "\"Presidênci\"..." 1930 03
## 4 1931_01.pdf "\"Presidênci\"..." 1931 01
## 5 1931_02.pdf "\"Presidênci\"..." 1931 02
## 6 1931_03.pdf "\"Presidênci\"..." 1931 03
Assim, temos um banco com documentos em pdf que guardam o discurso, o ano e a ordem do mesmo. Todavia, ele ainda não está em um formato próprio para nossa análise, devendo estar dentro do formato corpus. Além do mais, nosso arquivo em PDF guarda um problema comum à todos os PDFs: a hifenização. Um PDF é um arquivo pronto para imprimir, então o texto que está nele, quando selecionado, pode vir com alguns erros. O erro mais comum e que já corregiremos prontamente é o da hifenização. Supondo que em nossos arquivos exista a palavra república. Todavia, em alguns momentos, ela se encontra no fim da linha e não cabe na mesma. Por conta disso, ela é hifenizada, continuando na linha seguinte. Quando transposta para nosso banco de dados, é possível que apareçam as variações re- pública, repú- blica, repúbli- ca. Tudo isso será entendido pelo software como palavras diferentes, quando no fundo, são a mesma. Logo, antes de transformar em corpus, que é o conjunto de textos que iremos analisar, vamos corrigir esse erro usando o str_replace_all
com regex. Em seguida, transformamos em corpus:
# Corrigindo hifenizações erradas, unindo palavras separadas
vargas$text <- str_replace_all(vargas$text, "-[\\s]+", "")
# Criando corpus
discursos_vargas <- corpus(vargas)
# Sumarizando os 10 primeiros documentos
summary(discursos_vargas, 10)
## Corpus consisting of 236 documents, showing 10 documents:
##
## Text Types Tokens Sentences ano ordem
## 1930_01.pdf 827 1795 46 1930 01
## 1930_02.pdf 680 1433 44 1930 02
## 1930_03.pdf 827 1795 46 1930 03
## 1931_01.pdf 1061 2484 55 1931 01
## 1931_02.pdf 1304 3247 81 1931 02
## 1931_03.pdf 1949 5051 151 1931 03
## 1931_04.pdf 567 1187 22 1931 04
## 1931_05.pdf 970 2060 63 1931 05
## 1931_06.pdf 6808 29272 748 1931 06
## 1932_01.pdf 1802 4607 131 1932 01
A saída do comando summary
em um objeto de corpus apresenta os textos, a quantidade de caracteres (types),a quantidade de tokens e o número de frases de cada documento, além das variáveis que escolhemos anteriormente.
Agora, para fazermos uma análise de frequência de palavras, por exemplo, precisamos dividir nosso corpus em unidades, denominadas tokens, que podem ser caracteres, palavras, sentenças, parágrafos. No caso, o ideal para a análise que desejo fazer é dividir em palavras, ou n-gramas, pegando cada palavra individualmente. Retirarei pontos, números, separadores, símbolos e hífens. Depois disso, removerei palavras que nada representam e não auxiliam, denominadas stopwords, do pacote de mesmo nome: artigos, preposições, alguns verbos, etc. Além disso, removerei outras palavras, como art (de artigo, quando Vargas cita leis), à, às, é, assim, sobre, ainda, e algumas frases que pertencem ao cabeçalho do arquivo. Há também um problema, que às vezes a palavra república aparece como repdblica, um erro no OCR. Isso será corrigido.
palavras_vargas <- tokens(discursos_vargas,
"word",
remove_numbers = T,
remove_symbols = T,
remove_punct = T,
remove_separators = T,
remove_hyphens = F) %>%
tokens_remove(pattern = c(stopwords(language = "pt"),
"á", "ás","é",
"ser","art", "assim",
"sobre", "ainda", "pêlo",
phrase(c("NOVA POLÍTICA DO BRASIL",
"Presidência da República",
"Casa Civil Secretaria de Administração",
"Diretoria de Gestão de Pessoas Coordenação Geral de Documentação e Informação",
"Coordenação de Biblioteca",
"GOVERNO PROVISÓRIO",
"decreto n",
"A ATUALIDADE BRASILEIRA","DISCURSO PRONUNCIADO",
"EST UNIDOS",
"TRABALHO INDÚSTRIA",
"NEGÓCIOS INTERIORES",
"v exa",
"parágrafo único"))),
padding = F) %>%
tokens_replace(pattern = "darepdblica", "república")
## Warning: 'remove_hyphens' is deprecated, use 'split_hyphens' instead.
Com isso, já podemos fazer uma análise da frequência de palavras nos discursos de Getúlio Vargas, podendo descobrir assim as palavras mais utilizadas por ele, dando uma pista sobre temas, termos e o que realmente era relevante (pelo uso). Antes de fazer a frequência, precisamos converter os tokens em uma document-feature matrix, que nada mais é que uma matriz de frequência de termos em documentos:
vargas_dfm <- dfm(palavras_vargas)
# Fazendo a estatística de frequência de palavras: top 15
textstat_frequency(vargas_dfm, n = 25) %>%
kable() %>%
kable_paper()
feature | frequency | rank | docfreq | group |
---|---|---|---|---|
governo | 1273 | 1 | 204 | all |
brasil | 1135 | 2 | 215 | all |
nacional | 1023 | 3 | 186 | all |
país | 975 | 4 | 194 | all |
todos | 838 | 5 | 203 | all |
estado | 759 | 6 | 162 | all |
grande | 726 | 7 | 179 | all |
trabalho | 680 | 8 | 176 | all |
povo | 627 | 9 | 178 | all |
vida | 556 | 10 | 178 | all |
política | 545 | 11 | 151 | all |
rio | 468 | 12 | 97 | all |
produção | 445 | 13 | 109 | all |
estados | 438 | 14 | 88 | all |
federal | 400 | 15 | 81 | all |
econômica | 382 | 16 | 138 | all |
maior | 380 | 17 | 145 | all |
nação | 377 | 18 | 132 | all |
sempre | 376 | 19 | 153 | all |
todas | 372 | 20 | 153 | all |
anos | 361 | 21 | 107 | all |
social | 360 | 22 | 129 | all |
brasileiros | 345 | 23 | 126 | all |
brasileiro | 342 | 24 | 143 | all |
obra | 341 | 25 | 143 | all |
Percebemos que, no nosso corpus, a palavra Brasil aparece 622 vezes em 94 dos 100 discursos. Depois dela, Nacional é utilizada 586 vezes, aparecendo em 80 documentos. Povo aparece na 11ª posição, sendo utilizada 292 vezes, aparecendo em 82 discursos, o que faz todo o sentido, a partir do que se sabe sobre Vargas.
Podemos fazer a mesma análise de frequência de palavras agrupando por ano, e pegando as 5 palavras mais usadas em cada ano:
textstat_frequency(vargas_dfm, group = "ano", n = 5) %>%
kable() %>%
kable_paper()
feature | frequency | rank | docfreq | group |
---|---|---|---|---|
povo | 22 | 1 | 3 | 1930 |
eleitoral | 17 | 2 | 3 | 1930 |
todos | 16 | 3 | 3 | 1930 |
nacional | 16 | 3 | 3 | 1930 |
brasileiro | 15 | 5 | 3 | 1930 |
governo | 101 | 1 | 6 | 1931 |
país | 92 | 2 | 6 | 1931 |
todos | 76 | 3 | 6 | 1931 |
brasil | 76 | 3 | 6 | 1931 |
estado | 58 | 5 | 6 | 1931 |
governo | 96 | 1 | 6 | 1932 |
país | 67 | 2 | 7 | 1932 |
revolução | 63 | 3 | 6 | 1932 |
nacional | 43 | 4 | 6 | 1932 |
política | 40 | 5 | 7 | 1932 |
país | 142 | 1 | 18 | 1933 |
trabalho | 127 | 2 | 16 | 1933 |
brasil | 115 | 3 | 19 | 1933 |
nacional | 112 | 4 | 18 | 1933 |
governo | 102 | 5 | 19 | 1933 |
nacional | 113 | 1 | 9 | 1934 |
brasil | 110 | 2 | 12 | 1934 |
creou | 85 | 3 | 5 | 1934 |
ministério | 66 | 4 | 5 | 1934 |
regulou | 63 | 5 | 1 | 1934 |
brasil | 51 | 1 | 12 | 1935 |
todos | 36 | 2 | 10 | 1935 |
povo | 32 | 3 | 11 | 1935 |
argentina | 30 | 4 | 7 | 1935 |
país | 23 | 5 | 11 | 1935 |
governo | 33 | 1 | 7 | 1936 |
todos | 29 | 2 | 7 | 1936 |
social | 27 | 3 | 7 | 1936 |
brasil | 24 | 4 | 7 | 1936 |
vida | 23 | 5 | 6 | 1936 |
nacional | 129 | 1 | 8 | 1937 |
estado | 118 | 2 | 7 | 1937 |
federal | 114 | 3 | 4 | 1937 |
lei | 102 | 4 | 3 | 1937 |
presidente | 98 | 5 | 2 | 1937 |
estado | 101 | 1 | 18 | 1938 |
governo | 99 | 2 | 20 | 1938 |
país | 76 | 3 | 18 | 1938 |
nacional | 76 | 3 | 18 | 1938 |
novo | 70 | 5 | 18 | 1938 |
governo | 82 | 1 | 8 | 1939 |
país | 76 | 2 | 9 | 1939 |
grande | 71 | 3 | 10 | 1939 |
estado | 70 | 4 | 8 | 1939 |
municípios | 66 | 5 | 3 | 1939 |
governo | 185 | 1 | 43 | 1940 |
brasil | 172 | 2 | 40 | 1940 |
nacional | 146 | 3 | 35 | 1940 |
país | 139 | 4 | 37 | 1940 |
todos | 124 | 5 | 37 | 1940 |
brasil | 69 | 1 | 7 | 1941 |
presidente | 41 | 2 | 4 | 1941 |
povo | 33 | 3 | 7 | 1941 |
américa | 31 | 4 | 5 | 1941 |
governo | 28 | 5 | 7 | 1941 |
brasil | 103 | 1 | 22 | 1943 |
guerra | 89 | 2 | 19 | 1943 |
governo | 84 | 3 | 20 | 1943 |
nacional | 61 | 4 | 19 | 1943 |
todos | 59 | 5 | 19 | 1943 |
brasil | 32 | 1 | 6 | 1944 |
guerra | 28 | 2 | 7 | 1944 |
todos | 24 | 3 | 6 | 1944 |
governo | 20 | 4 | 5 | 1944 |
vossa | 19 | 5 | 5 | 1944 |
povo | 84 | 1 | 10 | 1951 |
governo | 83 | 2 | 9 | 1951 |
vida | 54 | 3 | 9 | 1951 |
brasil | 44 | 4 | 11 | 1951 |
todos | 41 | 5 | 10 | 1951 |
governo | 117 | 1 | 13 | 1952 |
milhões | 81 | 2 | 9 | 1952 |
grande | 80 | 3 | 13 | 1952 |
país | 66 | 4 | 14 | 1952 |
nacional | 66 | 4 | 12 | 1952 |
governo | 114 | 1 | 12 | 1953 |
brasil | 56 | 2 | 13 | 1953 |
milhões | 53 | 3 | 10 | 1953 |
nacional | 47 | 4 | 12 | 1953 |
cruzeiros | 45 | 5 | 9 | 1953 |
Fazendo uma nuvem de palavras (wordcloud) dos 200 termos mais utilizados por Vargas, temos:
textplot_wordcloud(vargas_dfm,
random_order = FALSE,
rotation = 0.25,
max_words = 200,
color = RColorBrewer::brewer.pal(8, "Dark2"))
A nuvem de palavras é simplesmente um recurso gráfico da tabela de frequência de palavras: o tamanho da palavra indica a quantidade de vezes que ela é utilizada, e é proporcional às outras ali presentes.
O Estado Novo inicia em 1937, com o fim do Governo Constitucionalista (1934-1937), e vai até 1945. Será que houve alguma mudança nas palavras utilizadas por Vargas no primeiro ano de cada período de governo, ou seja, em 1931, 1934 e 1937?
tokens_subset(palavras_vargas, ano %in% c(1931, 1934, 1937)) %>%
dfm(groups = "ano") %>%
textplot_wordcloud(max_words = 400, comparison = T,
color = RColorBrewer::brewer.pal(3, "Dark2"))
O que percebemos acima é que Vargas varia um pouco nas palavras utilizadas nos primeiros anos de seus governos: em 1931, percebemos o uso de palavras como governo, toneladas, papel, ouro, despesa, econômica, classes, tesouro; já em 1934, com o início do Governo Constitucionalista e promulgação da Constituição de 1934, palavras como fazenda, ministério, comércio, marinha, brasil, obras, públicas, cinema, saúde, ferro, café, naval se fazem presentes; em 1937, durante o Estado Novo, Vargas utilizou mais as palavras presidente, federal, lei,c onstituição, república, estado, nacional, segurança, câmara, tribunal, poder.
O quanteda
é excelente pois traz consigo um conjunto de funções facilitadas, tornando muito mais fácil o cálculo de algumas estatísticas e a plotagem de alguns gráficos. Um outro exemplo é o gráfico de co-ocorrência, em rede, que indica quais palavras costumam ocorrer no mesmo documento, ou na mesma frase, a depender de como se configura. Ao analisarmos a co-ocorrência de palavras nos discursos de Vargas, temos, através da função textplot_network
:
dfm_trim(vargas_dfm,
min_termfreq = 25,
termfreq_type = "rank") %>%
textplot_network(edge_size = 0.6)+
labs(title = "Co-ocorrência de termos:",
subtitle = "Discursos de Getúlio Vargas",
x = "", y = "")+
theme_minimal()
O gráfico acima nos permite perceber que, por exemplo, país, governo, nacional, brasil,e stado, federal, todos são palavras com um alto grau de co-ocorrência com todas as outras. Talvez seja mais interessante observar as palavras que não co-ocorrem entre si: povo e nação, por exemplo, ou poder, povo, ordem e obra.
Um outro exemplo interessante de análise é a presença de determinado termo ou termos ao longo do documento, e em que posição aparecem. Isso é oferecido pela função textplot_xray
. Observando em quais discursos a palavra democracia (ou democratas, democrata, democrático, democrática, etc) aparece, e em que posições do documento:
textplot_xray(kwic(discursos_vargas, "Democra*")) +
labs(
subtitle = "Plot de dispersão lexical",
title = "Discursos de Getúlio Vargas:",
x = "Index de Token",
y = "Documento"
)
Democracia só aparece em 1 discurso em 1932, em 1 em 1933, em 2 em 1934, em 2 em 1935, em 4 em 1936, em 2 em 1937, em 1 em 1939, em 3 em 1941 e em 1 em 1944, de um total de 100 discursos existentes.
Mas qual seria o contexto da palavra nos discursos?
kwic(discursos_vargas, "Democra*", window = 3)
##
## [1932_01.pdf, 104] falsos pregoeiros da | democracia |
## [1933_04.pdf, 1445] a decadência da | democracia |
## [1934_05.pdf, 12733] direito patrimonial das | democracias |
## [1934_14.pdf, 2900] estabeleceu a verdadeira | democracia |
## [1935_04.pdf, 204] e da vossa | democracia |
## [1935_09.pdf, 40] A base da | democracia |
## [1935_09.pdf, 167] a base da | democracia |
## [1935_09.pdf, 208] alicerces das nossas | democracias |
## [1936_02.pdf, 1677] Na luta pela | democracia |
## [1936_04.pdf, 1453] de defender a | democracia |
## [1936_05.pdf, 86] econômico- A | democracia |
## [1936_05.pdf, 786] , que a | democracia |
## [1936_05.pdf, 809] Mas, a | democracia |
## [1936_05.pdf, 887] . Ordem e | democracia |
## [1936_07.pdf, 604] cidadãos da maior | democracia |
## [1937_01.pdf, 2298] dos marcos da | democracia |
## [1937_04.pdf, 874] atravessamos, a | democracia |
## [1938_05.pdf, 161] Governo forte e | democracia |
## [1938_05.pdf, 7139] Governo forte e | democracia |
## [1938_23.pdf, 464] manipuladores de uma | democracia |
## [1939_05-02.pdf, 741] passámos de uma | democracia |
## [1939_05-02.pdf, 751] , para uma | democracia |
## [1939_05-02.pdf, 10761] da forma de | democracia |
## [1940_21.pdf, 1076] desordem. À | democracia |
## [1940_21.pdf, 1080] política substitue a | democracia |
## [1940_41.pdf, 1748] produção. A | democracia |
## [1941_02.pdf, 538] instituímos a verdadeira | democracia |
## [1941_04.pdf, 221] regime, uma | democracia |
## [1941_04.pdf, 2290] regime, uma | democracia |
## [1941_04.pdf, 2304] convenções legais das | democracias |
## [1941_04.pdf, 2331] É mais uma | democracia |
## [1941_05.pdf, 233] - Característicos da | democracia |
## [1941_05.pdf, 1546] Novo e a | democracia |
## [1941_05.pdf, 1571] conciliação com a | democracia |
## [1941_05.pdf, 1693] , instituímos uma | democracia |
## [1941_05.pdf, 1771] , é uma | democracia |
## [1941_05.pdf, 2126] forma comum da | democracia |
## [1943_21.pdf, 87] Nações Unidas- | Democracia |
## [1943_21.pdf, 267] Apenas entendemos que | democracia |
## [1944_04.pdf, 1977] rep sentantes, | democraticamente |
## [1951_02.pdf, 211] do Povo. | democracia |
## [1951_03.pdf, 511] presente os mesmos | democracia |
## [1951_07.pdf, 3791] conhecem o deira | democracia |
## [1951_07.pdf, 3832] riedade a uma | democracia |
## [1952_07.pdf, 1035] livre. Nas | democracias |
## [1952_09.pdf, 2302] Não somente a | democracia |
## [1952_09.pdf, 2594] livre não há | democracia |
## [1952_09.pdf, 2792] espírito verdadeiro da | democracia |
## [1952_11.pdf, 212] a base da | democracia |
## [1953_03.pdf, 832] a defesa da | democracia |
##
## e os reacionários
## liberal e individualista
## . Mas essa
## entre nós.
## , a cujo
## , agora como
## , agora como
## ; e vós
## , estacionamento significa
## , entregam-na,
## é o regime
## é o regime
## , no sentido
## que significam disciplina
## do mundo,
## ativa, em
## de partidos,
## - O Estado
## Há quem afirme
## de ficção.
## aparente, de
## real, isto
## renovada em que
## política substitue a
## econômica, em
## política- vemos
## - do povo
## - As assembléias
## , mesmo porque
## parlamentares, esse
## econômica que política
## brasileira- A
## Peço, em
## , tal como
## realista e funcional
## , distanciada dos
## parlamentar: perde-se
## não é demagogia
## não é demaia
## , dentro da
## . Ordenastes e
## de conteúdo humano
## social e econô
## meradem falar em
## , o governo
## está definitivamente consolidada
## . Não pretendo
## , abdiquem de
## , pois é
## , como pretexto
Percebe-se que a palavra democracia, em muitos dos casos acima, é utilizada em um contexto negativo.
Uma ferramenta muito útil é a de topic modeling, que permite o cálculo de termos relacionados que possam indicar um assunto em comum, ou tópicos. Será que é possível identificar tópicos recorrentes nos discursos de Getúlio Vargas?
LDA(convert(vargas_dfm, to = "topicmodels"), k = 5) %>%
get_terms(10)
## Topic 1 Topic 2 Topic 3 Topic 4 Topic 5
## [1,] "brasil" "governo" "governo" "brasil" "governo"
## [2,] "todos" "estado" "nacional" "governo" "país"
## [3,] "nacional" "brasil" "grande" "povo" "brasil"
## [4,] "povo" "trabalho" "país" "país" "nacional"
## [5,] "trabalho" "presidente" "produção" "política" "serviços"
## [6,] "país" "federal" "estado" "todos" "ministério"
## [7,] "governo" "lei" "milhões" "nacional" "obras"
## [8,] "pátria" "nacional" "brasil" "vida" "estados"
## [9,] "vida" "grande" "rio" "revolução" "ano"
## [10,] "guerra" "país" "todos" "estado" "serviço"
Calculei 5 tópicos possíveis nos discursos de Vargas e, de cada um, selecionei as 10 palavras que pudessem representar cada tópico. Por conta de todos os discursos versarem, na maioria das vezes, sobre as mesmas coisas, com uma grande quantidade de palavras repetidas, fica difícil identificar tópicos diferentes. Todavia, se ignorarmos as palavras repetidas e focarmos nas únicas, podemos perceber alguns temas: estado e social, lei e presidente, nação e revolução, obras e serviços, povo e trabalho.
Por fim, o quanteda
também apresenta a ferramenta de collocations, que é o cálculo de palavras que sempre andam juntas, em bi-gramas (ou seja, pares). Quais serão os termos correlacionados nos discursos de Getúlio? Para essa análise, precisamos fazer novamente os tokens adicionando a opção de padding = TRUE
, para que os espaços vazios (de palavras removidas, como stopwords) não sejam ocupados pelas palavras seguintes.
tokens(discursos_vargas,
"word",
remove_numbers = T,
remove_symbols = T,
remove_punct = T,
remove_separators = T) %>%
tokens_remove(padding = TRUE, pattern = c(stopwords(language = "pt"),
"á","ás","é",
"ser","art", "assim", "sobre", "ainda", "pêlo", phrase(c("NOVA POLÍTICA DO BRASIL",
"Presidência da República",
"Casa Civil Secretaria de Administração",
"Diretoria de Gestão de Pessoas Coordenação Geral de Documentação e Informação",
"Coordenação de Biblioteca",
"GOVERNO PROVISÓRIO",
"decreto n", "A ATUALIDADE BRASILEIRA", "DISCURSO PRONUNCIADO", "EST UNIDOS", "TRABALHO INDÚSTRIA","NEGÓCIOS INTERIORES", "v exa", "parágrafo único")))) %>%
tokens_replace(pattern = "darepdblica", "república") %>%
textstat_collocations(size = 2) %>%
as.data.frame() %>%
arrange(-count) %>%
head(30) %>%
select(-count_nested, -length) %>%
kable(col.names = c("Collocation", "Contagem", "Lambda", "Z")) %>%
kable_paper()
Collocation | Contagem | Lambda | Z | |
---|---|---|---|---|
1 | rio grande | 256 | 7.12160 | 65.7777 |
2 | povo brasileiro | 124 | 6.21525 | 50.4035 |
4 | governo federal | 123 | 5.07670 | 44.9262 |
5 | forças armadas | 93 | 8.78112 | 40.0075 |
3 | cada vez | 81 | 7.06180 | 45.1112 |
6 | estado novo | 80 | 5.38173 | 39.5181 |
85 | distrito federal | 75 | 9.72641 | 21.8444 |
14 | território nacional | 60 | 5.43573 | 33.0938 |
7 | poder público | 56 | 6.61593 | 38.2622 |
8 | minas gerais | 55 | 8.90081 | 37.8444 |
22 | economia nacional | 55 | 4.45704 | 29.4265 |
10 | corrente ano | 54 | 7.44906 | 37.1227 |
3049 | matérias primas | 51 | 14.51998 | 10.0904 |
9 | outro lado | 50 | 7.83564 | 37.4627 |
11 | neste momento | 47 | 6.54853 | 35.5539 |
62 | vida nacional | 47 | 3.61973 | 23.3299 |
12 | conselho federal | 46 | 6.36355 | 33.7263 |
67 | porto alegre | 46 | 10.73462 | 23.0169 |
42 | vossa excelência | 42 | 8.59701 | 26.9050 |
19 | estados unidos | 41 | 7.09005 | 30.0436 |
13 | supremo tribunal | 40 | 9.28012 | 33.2420 |
17 | últimos anos | 40 | 6.78565 | 31.8574 |
16 | administração pública | 38 | 6.19113 | 31.9367 |
44 | departamento nacional | 38 | 5.70706 | 26.3775 |
431 | governo nacional | 38 | 2.54223 | 15.2339 |
18 | desenvolvimento econômico | 37 | 5.90210 | 30.6431 |
27 | novo regime | 35 | 5.36720 | 28.2388 |
15 | mil contos | 33 | 7.80931 | 32.4016 |
20 | dois países | 33 | 6.03132 | 29.6839 |
68 | vida econômica | 33 | 4.26817 | 22.9202 |
Rio Grande, Povo Brasileiro, Governo Federal e Forças Armadas são os bigramas mais utilizados por Getúlio Vargas. O primeiro é óbvio: se refere ao Rio Grande do Sul, terra de Getúlio Vargas; Povo Brasileiro era como ele iniciava os discursos, se dirigindo à nação; Governo Federal se refere ao governo; Forças Armadas mostra as relações de Getúlio com os militares, fruto da própria Revolução de 30.
Bom, por hoje é só! Quero agradecer aos insights dos amigos Helio Cannone e Weslley Dias, que possuem relevantes pesquisas sobre Vargas e entendem profundamente do assunto.
Qualquer dúvida, correção ou sugestão pode ser encaminhada para matheus.pestana@iesp.uerj.br