Textmining: análise dos discursos de Getúlio Vargas

Getúlio Vargas chega ao poder, como Chefe do Governo Provisório, em 1930, marcando o fim da República Velha, e fica no poder até 1945, elegendo-se novamente em 1951 como Presidente da República, cargo que ocupou até 1954. Implantando uma ditadura em 1930, Vargas modernizou o Brasil, que se tornou um estado autoritário e centralizado na figura do presidente. O “Pai dos Pobres”, como também é conhecido, é responsável pela Consolidação das Leis Trabalhistas (CLT), pela criação do BNDE (atual BNDES), a fundação e o desenvolvimento da Petrobrás, e também pela inserção do Brasil na Segunda Guerra Mundial. Vargas cometeu suicídio em 24 de agosto de 1954, no Palácio do Catete, no antigo Distrito Federal, no Rio de Janeiro. Vargas era conhecido pela sua eloquência e por seus discursos, considerados grandes ensinamentos políticos.Por isso, me proponho a analisar alguns discursos de Vargas na presidência, mais especificamente todos os discursos proferidos entre 1930 e 1937, 1939, 1941, 1944 e o discurso de posse de 1951. Para isso, utilizarei o pacote quanteda para o R, além do tidyverse. Os discursos podem ser obtidos aqui, no site da Biblioteca da Presidência.

O primeiro passo é carregar os pacotes que serão de fato utilizados, com o pacman:

pacman::p_load(
  tidyverse,
  quanteda,
  pdftools,
  stopwords,
  readtext,
  topicmodels,
  knitr,
  kableExtra)

Em seguida, vamos abrir os discursos. A função readtext permite importar as mais diversas extensões de texto de uma só vez, permitindo a criação de um corpus rapidamente.

vargas <- readtext(
  "Documents/vargas/*",
  docvarsfrom = "filenames",
  dvsep = "_",
  docvarnames = c("ano", "ordem")
)

O argumento docvarnames utiliza o nome do arquivo para adicionar variáveis ao banco. Como estruturei os discursos da seguinte maneira: ANO_ORDEM.pdf, utilizando o separador _, crio as variáveisano e ordem, representando o ano em que o discurso foi proferido e em qual posição ele está (naquele ano).

Isso fica bem claro abaixo:

head(vargas, 6)
## readtext object consisting of 6 documents and 2 docvars.
## # Description: df[,4] [6 × 4]
##   doc_id      text                  ano ordem
##   <chr>       <chr>               <int> <chr>
## 1 1930_01.pdf "\"Presidênci\"..."  1930 01   
## 2 1930_02.pdf "\"Presidênci\"..."  1930 02   
## 3 1930_03.pdf "\"Presidênci\"..."  1930 03   
## 4 1931_01.pdf "\"Presidênci\"..."  1931 01   
## 5 1931_02.pdf "\"Presidênci\"..."  1931 02   
## 6 1931_03.pdf "\"Presidênci\"..."  1931 03

Assim, temos um banco com documentos em pdf que guardam o discurso, o ano e a ordem do mesmo. Todavia, ele ainda não está em um formato próprio para nossa análise, devendo estar dentro do formato corpus. Além do mais, nosso arquivo em PDF guarda um problema comum à todos os PDFs: a hifenização. Um PDF é um arquivo pronto para imprimir, então o texto que está nele, quando selecionado, pode vir com alguns erros. O erro mais comum e que já corregiremos prontamente é o da hifenização. Supondo que em nossos arquivos exista a palavra república. Todavia, em alguns momentos, ela se encontra no fim da linha e não cabe na mesma. Por conta disso, ela é hifenizada, continuando na linha seguinte. Quando transposta para nosso banco de dados, é possível que apareçam as variações re- pública, repú- blica, repúbli- ca. Tudo isso será entendido pelo software como palavras diferentes, quando no fundo, são a mesma. Logo, antes de transformar em corpus, que é o conjunto de textos que iremos analisar, vamos corrigir esse erro usando o str_replace_all com regex. Em seguida, transformamos em corpus:

# Corrigindo hifenizações erradas, unindo palavras separadas
vargas$text <- str_replace_all(vargas$text, "-[\\s]+", "")

# Criando corpus
discursos_vargas <- corpus(vargas)

# Sumarizando os 10 primeiros documentos
summary(discursos_vargas, 10)
## Corpus consisting of 236 documents, showing 10 documents:
## 
##         Text Types Tokens Sentences  ano ordem
##  1930_01.pdf   827   1795        46 1930    01
##  1930_02.pdf   680   1433        44 1930    02
##  1930_03.pdf   827   1795        46 1930    03
##  1931_01.pdf  1061   2484        55 1931    01
##  1931_02.pdf  1304   3247        81 1931    02
##  1931_03.pdf  1949   5051       151 1931    03
##  1931_04.pdf   567   1187        22 1931    04
##  1931_05.pdf   970   2060        63 1931    05
##  1931_06.pdf  6808  29272       748 1931    06
##  1932_01.pdf  1802   4607       131 1932    01

A saída do comando summary em um objeto de corpus apresenta os textos, a quantidade de caracteres (types),a quantidade de tokens e o número de frases de cada documento, além das variáveis que escolhemos anteriormente.

Agora, para fazermos uma análise de frequência de palavras, por exemplo, precisamos dividir nosso corpus em unidades, denominadas tokens, que podem ser caracteres, palavras, sentenças, parágrafos. No caso, o ideal para a análise que desejo fazer é dividir em palavras, ou n-gramas, pegando cada palavra individualmente. Retirarei pontos, números, separadores, símbolos e hífens. Depois disso, removerei palavras que nada representam e não auxiliam, denominadas stopwords, do pacote de mesmo nome: artigos, preposições, alguns verbos, etc. Além disso, removerei outras palavras, como art (de artigo, quando Vargas cita leis), à, às, é, assim, sobre, ainda, e algumas frases que pertencem ao cabeçalho do arquivo. Há também um problema, que às vezes a palavra república aparece como repdblica, um erro no OCR. Isso será corrigido.

palavras_vargas <- tokens(discursos_vargas,
    "word",
    remove_numbers = T,
    remove_symbols = T,
    remove_punct = T,
    remove_separators = T,
    remove_hyphens = F) %>% 
  tokens_remove(pattern = c(stopwords(language = "pt"), 
                            "á", "ás","é",
                            "ser","art", "assim",
                            "sobre", "ainda", "pêlo",
                            phrase(c("NOVA POLÍTICA DO BRASIL",
                                     "Presidência da República",
                                     "Casa Civil Secretaria de Administração",
                                     "Diretoria de Gestão de Pessoas Coordenação Geral de Documentação e Informação",
                                     "Coordenação de Biblioteca",
                                     "GOVERNO PROVISÓRIO",
                                     "decreto n",
                                     "A ATUALIDADE BRASILEIRA","DISCURSO PRONUNCIADO",
                                     "EST UNIDOS", 
                                     "TRABALHO INDÚSTRIA",
                                     "NEGÓCIOS INTERIORES", 
                                     "v exa", 
                                     "parágrafo único"))),
                padding = F) %>%
  tokens_replace(pattern = "darepdblica", "república")
## Warning: 'remove_hyphens' is deprecated, use 'split_hyphens' instead.

Com isso, já podemos fazer uma análise da frequência de palavras nos discursos de Getúlio Vargas, podendo descobrir assim as palavras mais utilizadas por ele, dando uma pista sobre temas, termos e o que realmente era relevante (pelo uso). Antes de fazer a frequência, precisamos converter os tokens em uma document-feature matrix, que nada mais é que uma matriz de frequência de termos em documentos:

vargas_dfm <- dfm(palavras_vargas)

# Fazendo a estatística de frequência de palavras: top 15
textstat_frequency(vargas_dfm, n = 25) %>% 
  kable() %>% 
  kable_paper()
feature frequency rank docfreq group
governo 1273 1 204 all
brasil 1135 2 215 all
nacional 1023 3 186 all
país 975 4 194 all
todos 838 5 203 all
estado 759 6 162 all
grande 726 7 179 all
trabalho 680 8 176 all
povo 627 9 178 all
vida 556 10 178 all
política 545 11 151 all
rio 468 12 97 all
produção 445 13 109 all
estados 438 14 88 all
federal 400 15 81 all
econômica 382 16 138 all
maior 380 17 145 all
nação 377 18 132 all
sempre 376 19 153 all
todas 372 20 153 all
anos 361 21 107 all
social 360 22 129 all
brasileiros 345 23 126 all
brasileiro 342 24 143 all
obra 341 25 143 all

Percebemos que, no nosso corpus, a palavra Brasil aparece 622 vezes em 94 dos 100 discursos. Depois dela, Nacional é utilizada 586 vezes, aparecendo em 80 documentos. Povo aparece na 11ª posição, sendo utilizada 292 vezes, aparecendo em 82 discursos, o que faz todo o sentido, a partir do que se sabe sobre Vargas.

Podemos fazer a mesma análise de frequência de palavras agrupando por ano, e pegando as 5 palavras mais usadas em cada ano:

textstat_frequency(vargas_dfm, group = "ano", n = 5) %>% 
    kable() %>% 
  kable_paper()
feature frequency rank docfreq group
povo 22 1 3 1930
eleitoral 17 2 3 1930
todos 16 3 3 1930
nacional 16 3 3 1930
brasileiro 15 5 3 1930
governo 101 1 6 1931
país 92 2 6 1931
todos 76 3 6 1931
brasil 76 3 6 1931
estado 58 5 6 1931
governo 96 1 6 1932
país 67 2 7 1932
revolução 63 3 6 1932
nacional 43 4 6 1932
política 40 5 7 1932
país 142 1 18 1933
trabalho 127 2 16 1933
brasil 115 3 19 1933
nacional 112 4 18 1933
governo 102 5 19 1933
nacional 113 1 9 1934
brasil 110 2 12 1934
creou 85 3 5 1934
ministério 66 4 5 1934
regulou 63 5 1 1934
brasil 51 1 12 1935
todos 36 2 10 1935
povo 32 3 11 1935
argentina 30 4 7 1935
país 23 5 11 1935
governo 33 1 7 1936
todos 29 2 7 1936
social 27 3 7 1936
brasil 24 4 7 1936
vida 23 5 6 1936
nacional 129 1 8 1937
estado 118 2 7 1937
federal 114 3 4 1937
lei 102 4 3 1937
presidente 98 5 2 1937
estado 101 1 18 1938
governo 99 2 20 1938
país 76 3 18 1938
nacional 76 3 18 1938
novo 70 5 18 1938
governo 82 1 8 1939
país 76 2 9 1939
grande 71 3 10 1939
estado 70 4 8 1939
municípios 66 5 3 1939
governo 185 1 43 1940
brasil 172 2 40 1940
nacional 146 3 35 1940
país 139 4 37 1940
todos 124 5 37 1940
brasil 69 1 7 1941
presidente 41 2 4 1941
povo 33 3 7 1941
américa 31 4 5 1941
governo 28 5 7 1941
brasil 103 1 22 1943
guerra 89 2 19 1943
governo 84 3 20 1943
nacional 61 4 19 1943
todos 59 5 19 1943
brasil 32 1 6 1944
guerra 28 2 7 1944
todos 24 3 6 1944
governo 20 4 5 1944
vossa 19 5 5 1944
povo 84 1 10 1951
governo 83 2 9 1951
vida 54 3 9 1951
brasil 44 4 11 1951
todos 41 5 10 1951
governo 117 1 13 1952
milhões 81 2 9 1952
grande 80 3 13 1952
país 66 4 14 1952
nacional 66 4 12 1952
governo 114 1 12 1953
brasil 56 2 13 1953
milhões 53 3 10 1953
nacional 47 4 12 1953
cruzeiros 45 5 9 1953

Fazendo uma nuvem de palavras (wordcloud) dos 200 termos mais utilizados por Vargas, temos:

textplot_wordcloud(vargas_dfm,
  random_order = FALSE,
  rotation = 0.25,
  max_words = 200,
  color = RColorBrewer::brewer.pal(8, "Dark2"))

A nuvem de palavras é simplesmente um recurso gráfico da tabela de frequência de palavras: o tamanho da palavra indica a quantidade de vezes que ela é utilizada, e é proporcional às outras ali presentes.

O Estado Novo inicia em 1937, com o fim do Governo Constitucionalista (1934-1937), e vai até 1945. Será que houve alguma mudança nas palavras utilizadas por Vargas no primeiro ano de cada período de governo, ou seja, em 1931, 1934 e 1937?

tokens_subset(palavras_vargas, ano %in% c(1931, 1934, 1937)) %>% 
  dfm(groups = "ano") %>% 
  textplot_wordcloud(max_words = 400, comparison = T,
                     color = RColorBrewer::brewer.pal(3, "Dark2")) 

O que percebemos acima é que Vargas varia um pouco nas palavras utilizadas nos primeiros anos de seus governos: em 1931, percebemos o uso de palavras como governo, toneladas, papel, ouro, despesa, econômica, classes, tesouro; já em 1934, com o início do Governo Constitucionalista e promulgação da Constituição de 1934, palavras como fazenda, ministério, comércio, marinha, brasil, obras, públicas, cinema, saúde, ferro, café, naval se fazem presentes; em 1937, durante o Estado Novo, Vargas utilizou mais as palavras presidente, federal, lei,c onstituição, república, estado, nacional, segurança, câmara, tribunal, poder.

O quanteda é excelente pois traz consigo um conjunto de funções facilitadas, tornando muito mais fácil o cálculo de algumas estatísticas e a plotagem de alguns gráficos. Um outro exemplo é o gráfico de co-ocorrência, em rede, que indica quais palavras costumam ocorrer no mesmo documento, ou na mesma frase, a depender de como se configura. Ao analisarmos a co-ocorrência de palavras nos discursos de Vargas, temos, através da função textplot_network:

dfm_trim(vargas_dfm,
           min_termfreq = 25,
           termfreq_type = "rank") %>% 
  textplot_network(edge_size = 0.6)+
  labs(title = "Co-ocorrência de termos:",
       subtitle = "Discursos de Getúlio Vargas",
       x = "",  y = "")+
  theme_minimal()

O gráfico acima nos permite perceber que, por exemplo, país, governo, nacional, brasil,e stado, federal, todos são palavras com um alto grau de co-ocorrência com todas as outras. Talvez seja mais interessante observar as palavras que não co-ocorrem entre si: povo e nação, por exemplo, ou poder, povo, ordem e obra.

Um outro exemplo interessante de análise é a presença de determinado termo ou termos ao longo do documento, e em que posição aparecem. Isso é oferecido pela função textplot_xray. Observando em quais discursos a palavra democracia (ou democratas, democrata, democrático, democrática, etc) aparece, e em que posições do documento:

textplot_xray(kwic(discursos_vargas,  "Democra*")) +
  labs(
    subtitle = "Plot de dispersão lexical",
    title = "Discursos de Getúlio Vargas:",
    x = "Index de Token",
    y = "Documento"
  )

Democracia só aparece em 1 discurso em 1932, em 1 em 1933, em 2 em 1934, em 2 em 1935, em 4 em 1936, em 2 em 1937, em 1 em 1939, em 3 em 1941 e em 1 em 1944, de um total de 100 discursos existentes.

Mas qual seria o contexto da palavra nos discursos?

kwic(discursos_vargas, "Democra*", window = 3)
##                                                                       
##       [1932_01.pdf, 104]     falsos pregoeiros da |    democracia    |
##      [1933_04.pdf, 1445]          a decadência da |    democracia    |
##     [1934_05.pdf, 12733]  direito patrimonial das |   democracias    |
##      [1934_14.pdf, 2900] estabeleceu a verdadeira |    democracia    |
##       [1935_04.pdf, 204]               e da vossa |    democracia    |
##        [1935_09.pdf, 40]                A base da |    democracia    |
##       [1935_09.pdf, 167]                a base da |    democracia    |
##       [1935_09.pdf, 208]     alicerces das nossas |   democracias    |
##      [1936_02.pdf, 1677]             Na luta pela |    democracia    |
##      [1936_04.pdf, 1453]            de defender a |    democracia    |
##        [1936_05.pdf, 86]             econômico- A |    democracia    |
##       [1936_05.pdf, 786]                  , que a |    democracia    |
##       [1936_05.pdf, 809]                   Mas, a |    democracia    |
##       [1936_05.pdf, 887]                . Ordem e |    democracia    |
##       [1936_07.pdf, 604]        cidadãos da maior |    democracia    |
##      [1937_01.pdf, 2298]            dos marcos da |    democracia    |
##       [1937_04.pdf, 874]          atravessamos, a |    democracia    |
##       [1938_05.pdf, 161]          Governo forte e |    democracia    |
##      [1938_05.pdf, 7139]          Governo forte e |    democracia    |
##       [1938_23.pdf, 464]     manipuladores de uma |    democracia    |
##    [1939_05-02.pdf, 741]          passámos de uma |    democracia    |
##    [1939_05-02.pdf, 751]               , para uma |    democracia    |
##  [1939_05-02.pdf, 10761]              da forma de |    democracia    |
##      [1940_21.pdf, 1076]              desordem. À |    democracia    |
##      [1940_21.pdf, 1080]     política substitue a |    democracia    |
##      [1940_41.pdf, 1748]              produção. A |    democracia    |
##       [1941_02.pdf, 538] instituímos a verdadeira |    democracia    |
##       [1941_04.pdf, 221]              regime, uma |    democracia    |
##      [1941_04.pdf, 2290]              regime, uma |    democracia    |
##      [1941_04.pdf, 2304]    convenções legais das |   democracias    |
##      [1941_04.pdf, 2331]               É mais uma |    democracia    |
##       [1941_05.pdf, 233]     - Característicos da |    democracia    |
##      [1941_05.pdf, 1546]                 Novo e a |    democracia    |
##      [1941_05.pdf, 1571]        conciliação com a |    democracia    |
##      [1941_05.pdf, 1693]        , instituímos uma |    democracia    |
##      [1941_05.pdf, 1771]                  , é uma |    democracia    |
##      [1941_05.pdf, 2126]           forma comum da |    democracia    |
##        [1943_21.pdf, 87]           Nações Unidas- |    Democracia    |
##       [1943_21.pdf, 267]    Apenas entendemos que |    democracia    |
##      [1944_04.pdf, 1977]           rep sentantes, | democraticamente |
##       [1951_02.pdf, 211]                 do Povo. |    democracia    |
##       [1951_03.pdf, 511]       presente os mesmos |    democracia    |
##      [1951_07.pdf, 3791]         conhecem o deira |    democracia    |
##      [1951_07.pdf, 3832]            riedade a uma |    democracia    |
##      [1952_07.pdf, 1035]               livre. Nas |   democracias    |
##      [1952_09.pdf, 2302]            Não somente a |    democracia    |
##      [1952_09.pdf, 2594]             livre não há |    democracia    |
##      [1952_09.pdf, 2792]   espírito verdadeiro da |    democracia    |
##       [1952_11.pdf, 212]                a base da |    democracia    |
##       [1953_03.pdf, 832]              a defesa da |    democracia    |
##                                  
##  e os reacionários               
##  liberal e individualista        
##  . Mas essa                      
##  entre nós.                      
##  , a cujo                        
##  , agora como                    
##  , agora como                    
##  ; e vós                         
##  , estacionamento significa      
##  , entregam-na,                  
##  é o regime                      
##  é o regime                      
##  , no sentido                    
##  que significam disciplina       
##  do mundo,                       
##  ativa, em                       
##  de partidos,                    
##  - O Estado                      
##  Há quem afirme                  
##  de ficção.                      
##  aparente, de                    
##  real, isto                      
##  renovada em que                 
##  política substitue a            
##  econômica, em                   
##  política- vemos                 
##  - do povo                       
##  - As assembléias                
##  , mesmo porque                  
##  parlamentares, esse             
##  econômica que política          
##  brasileira- A                   
##  Peço, em                        
##  , tal como                      
##  realista e funcional            
##  , distanciada dos               
##  parlamentar: perde-se           
##  não é demagogia                 
##  não é demaia                    
##  , dentro da                     
##  . Ordenastes e                  
##  de conteúdo humano              
##  social e econô                  
##  meradem falar em                
##  , o governo                     
##  está definitivamente consolidada
##  . Não pretendo                  
##  , abdiquem de                   
##  , pois é                        
##  , como pretexto

Percebe-se que a palavra democracia, em muitos dos casos acima, é utilizada em um contexto negativo.

Uma ferramenta muito útil é a de topic modeling, que permite o cálculo de termos relacionados que possam indicar um assunto em comum, ou tópicos. Será que é possível identificar tópicos recorrentes nos discursos de Getúlio Vargas?

LDA(convert(vargas_dfm, to = "topicmodels"), k = 5) %>% 
  get_terms(10)
##       Topic 1    Topic 2      Topic 3    Topic 4     Topic 5     
##  [1,] "brasil"   "governo"    "governo"  "brasil"    "governo"   
##  [2,] "todos"    "estado"     "nacional" "governo"   "país"      
##  [3,] "nacional" "brasil"     "grande"   "povo"      "brasil"    
##  [4,] "povo"     "trabalho"   "país"     "país"      "nacional"  
##  [5,] "trabalho" "presidente" "produção" "política"  "serviços"  
##  [6,] "país"     "federal"    "estado"   "todos"     "ministério"
##  [7,] "governo"  "lei"        "milhões"  "nacional"  "obras"     
##  [8,] "pátria"   "nacional"   "brasil"   "vida"      "estados"   
##  [9,] "vida"     "grande"     "rio"      "revolução" "ano"       
## [10,] "guerra"   "país"       "todos"    "estado"    "serviço"

Calculei 5 tópicos possíveis nos discursos de Vargas e, de cada um, selecionei as 10 palavras que pudessem representar cada tópico. Por conta de todos os discursos versarem, na maioria das vezes, sobre as mesmas coisas, com uma grande quantidade de palavras repetidas, fica difícil identificar tópicos diferentes. Todavia, se ignorarmos as palavras repetidas e focarmos nas únicas, podemos perceber alguns temas: estado e social, lei e presidente, nação e revolução, obras e serviços, povo e trabalho.

Por fim, o quanteda também apresenta a ferramenta de collocations, que é o cálculo de palavras que sempre andam juntas, em bi-gramas (ou seja, pares). Quais serão os termos correlacionados nos discursos de Getúlio? Para essa análise, precisamos fazer novamente os tokens adicionando a opção de padding = TRUE, para que os espaços vazios (de palavras removidas, como stopwords) não sejam ocupados pelas palavras seguintes.

tokens(discursos_vargas,
    "word",
    remove_numbers = T,
    remove_symbols = T,
    remove_punct = T,
    remove_separators = T) %>% 
  tokens_remove(padding = TRUE, pattern = c(stopwords(language = "pt"),
    "á","ás","é",
    "ser","art", "assim", "sobre", "ainda", "pêlo", phrase(c("NOVA POLÍTICA DO BRASIL",
        "Presidência da República",
        "Casa Civil Secretaria de Administração",
        "Diretoria de Gestão de Pessoas Coordenação Geral de Documentação e Informação",
        "Coordenação de Biblioteca",
        "GOVERNO PROVISÓRIO",
        "decreto n", "A ATUALIDADE BRASILEIRA", "DISCURSO PRONUNCIADO", "EST UNIDOS", "TRABALHO INDÚSTRIA","NEGÓCIOS INTERIORES", "v exa", "parágrafo único")))) %>%
  tokens_replace(pattern = "darepdblica", "república") %>% 
  textstat_collocations(size = 2) %>%
  as.data.frame() %>% 
  arrange(-count) %>% 
  head(30) %>% 
  select(-count_nested, -length) %>% 
    kable(col.names = c("Collocation", "Contagem", "Lambda", "Z")) %>% 
  kable_paper()
Collocation Contagem Lambda Z
1 rio grande 256 7.12160 65.7777
2 povo brasileiro 124 6.21525 50.4035
4 governo federal 123 5.07670 44.9262
5 forças armadas 93 8.78112 40.0075
3 cada vez 81 7.06180 45.1112
6 estado novo 80 5.38173 39.5181
85 distrito federal 75 9.72641 21.8444
14 território nacional 60 5.43573 33.0938
7 poder público 56 6.61593 38.2622
8 minas gerais 55 8.90081 37.8444
22 economia nacional 55 4.45704 29.4265
10 corrente ano 54 7.44906 37.1227
3049 matérias primas 51 14.51998 10.0904
9 outro lado 50 7.83564 37.4627
11 neste momento 47 6.54853 35.5539
62 vida nacional 47 3.61973 23.3299
12 conselho federal 46 6.36355 33.7263
67 porto alegre 46 10.73462 23.0169
42 vossa excelência 42 8.59701 26.9050
19 estados unidos 41 7.09005 30.0436
13 supremo tribunal 40 9.28012 33.2420
17 últimos anos 40 6.78565 31.8574
16 administração pública 38 6.19113 31.9367
44 departamento nacional 38 5.70706 26.3775
431 governo nacional 38 2.54223 15.2339
18 desenvolvimento econômico 37 5.90210 30.6431
27 novo regime 35 5.36720 28.2388
15 mil contos 33 7.80931 32.4016
20 dois países 33 6.03132 29.6839
68 vida econômica 33 4.26817 22.9202

Rio Grande, Povo Brasileiro, Governo Federal e Forças Armadas são os bigramas mais utilizados por Getúlio Vargas. O primeiro é óbvio: se refere ao Rio Grande do Sul, terra de Getúlio Vargas; Povo Brasileiro era como ele iniciava os discursos, se dirigindo à nação; Governo Federal se refere ao governo; Forças Armadas mostra as relações de Getúlio com os militares, fruto da própria Revolução de 30.

Bom, por hoje é só! Quero agradecer aos insights dos amigos Helio Cannone e Weslley Dias, que possuem relevantes pesquisas sobre Vargas e entendem profundamente do assunto.

Qualquer dúvida, correção ou sugestão pode ser encaminhada para

Mateus Cavalcanti Pestana
Mateus Cavalcanti Pestana
Doutorando e Mestre em Ciência Política

Interessado em ciência de dados, ciência política, política russa, impressão 3D, redes neurais e aprendizado de máquina.

Relacionados