Textmining: análise dos discursos de Getúlio Vargas

Última atualização em 10 de Nov, 2019 17 minutos de leitura análise exploratória, ciência de dados, ciência política, r

Getúlio Vargas chega ao poder, como Chefe do Governo Provisório, em 1930, marcando o fim da República Velha, e fica no poder até 1945, elegendo-se novamente em 1951 como Presidente da República, cargo que ocupou até 1954. Implantando uma ditadura em 1930, Vargas modernizou o Brasil, que se tornou um estado autoritário e centralizado na figura do presidente. O “Pai dos Pobres”, como também é conhecido, é responsável pela Consolidação das Leis Trabalhistas (CLT), pela criação do BNDE (atual BNDES), a fundação e o desenvolvimento da Petrobrás, e também pela inserção do Brasil na Segunda Guerra Mundial. Vargas cometeu suicídio em 24 de agosto de 1954, no Palácio do Catete, no antigo Distrito Federal, no Rio de Janeiro. Vargas era conhecido pela sua eloquência e por seus discursos, considerados grandes ensinamentos políticos.Por isso, me proponho a analisar alguns discursos de Vargas na presidência, mais especificamente todos os discursos proferidos entre 1930 e 1937, 1939, 1941, 1944 e o discurso de posse de 1951. Para isso, utilizarei o pacote quanteda para o R, além do tidyverse. Os discursos podem ser obtidos aqui, no site da Biblioteca da Presidência.

O primeiro passo é carregar os pacotes que serão de fato utilizados, com o pacman:

pacman::p_load(
  tidyverse,
  quanteda,
  pdftools,
  stopwords,
  readtext,
  topicmodels,
  knitr,
  kableExtra)

Em seguida, vamos abrir os discursos. A função readtext permite importar as mais diversas extensões de texto de uma só vez, permitindo a criação de um corpus rapidamente.

vargas <- readtext(
  "Documents/vargas/*",
  docvarsfrom = "filenames",
  dvsep = "_",
  docvarnames = c("ano", "ordem")
)

O argumento docvarnames utiliza o nome do arquivo para adicionar variáveis ao banco. Como estruturei os discursos da seguinte maneira: ANO_ORDEM.pdf, utilizando o separador _, crio as variáveisano e ordem, representando o ano em que o discurso foi proferido e em qual posição ele está (naquele ano).

Isso fica bem claro abaixo:

head(vargas, 6)

## readtext object consisting of 6 documents and 2 docvars.
## # Description: df[,4] [6 × 4]
##   doc_id      text                  ano ordem
##   <chr>       <chr>               <int> <chr>
## 1 1930_01.pdf "\"Presidênci\"..."  1930 01   
## 2 1930_02.pdf "\"Presidênci\"..."  1930 02   
## 3 1930_03.pdf "\"Presidênci\"..."  1930 03   
## 4 1931_01.pdf "\"Presidênci\"..."  1931 01   
## 5 1931_02.pdf "\"Presidênci\"..."  1931 02   
## 6 1931_03.pdf "\"Presidênci\"..."  1931 03

Assim, temos um banco com documentos em pdf que guardam o discurso, o ano e a ordem do mesmo. Todavia, ele ainda não está em um formato próprio para nossa análise, devendo estar dentro do formato corpus. Além do mais, nosso arquivo em PDF guarda um problema comum à todos os PDFs: a hifenização. Um PDF é um arquivo pronto para imprimir, então o texto que está nele, quando selecionado, pode vir com alguns erros. O erro mais comum e que já corregiremos prontamente é o da hifenização. Supondo que em nossos arquivos exista a palavra república. Todavia, em alguns momentos, ela se encontra no fim da linha e não cabe na mesma. Por conta disso, ela é hifenizada, continuando na linha seguinte. Quando transposta para nosso banco de dados, é possível que apareçam as variações re- pública, repú- blica, repúbli- ca. Tudo isso será entendido pelo software como palavras diferentes, quando no fundo, são a mesma. Logo, antes de transformar em corpus, que é o conjunto de textos que iremos analisar, vamos corrigir esse erro usando o str_replace_all com regex. Em seguida, transformamos em corpus:

# Corrigindo hifenizações erradas, unindo palavras separadas
vargas$text <- str_replace_all(vargas$text, "-[\\s]+", "")

# Criando corpus
discursos_vargas <- corpus(vargas)

# Sumarizando os 10 primeiros documentos
summary(discursos_vargas, 10)

## Corpus consisting of 236 documents, showing 10 documents:
## 
##         Text Types Tokens Sentences  ano ordem
##  1930_01.pdf   827   1795        46 1930    01
##  1930_02.pdf   680   1433        44 1930    02
##  1930_03.pdf   827   1795        46 1930    03
##  1931_01.pdf  1061   2484        55 1931    01
##  1931_02.pdf  1304   3247        81 1931    02
##  1931_03.pdf  1949   5051       151 1931    03
##  1931_04.pdf   567   1187        22 1931    04
##  1931_05.pdf   970   2060        63 1931    05
##  1931_06.pdf  6808  29272       748 1931    06
##  1932_01.pdf  1802   4607       131 1932    01

A saída do comando summary em um objeto de corpus apresenta os textos, a quantidade de caracteres (types),a quantidade de tokens e o número de frases de cada documento, além das variáveis que escolhemos anteriormente.

Agora, para fazermos uma análise de frequência de palavras, por exemplo, precisamos dividir nosso corpus em unidades, denominadas tokens, que podem ser caracteres, palavras, sentenças, parágrafos. No caso, o ideal para a análise que desejo fazer é dividir em palavras, ou n-gramas, pegando cada palavra individualmente. Retirarei pontos, números, separadores, símbolos e hífens. Depois disso, removerei palavras que nada representam e não auxiliam, denominadas stopwords, do pacote de mesmo nome: artigos, preposições, alguns verbos, etc. Além disso, removerei outras palavras, como art (de artigo, quando Vargas cita leis), à, às, é, assim, sobre, ainda, e algumas frases que pertencem ao cabeçalho do arquivo. Há também um problema, que às vezes a palavra república aparece como repdblica, um erro no OCR. Isso será corrigido.

palavras_vargas <- tokens(discursos_vargas,
    "word",
    remove_numbers = T,
    remove_symbols = T,
    remove_punct = T,
    remove_separators = T,
    remove_hyphens = F) %>% 
  tokens_remove(pattern = c(stopwords(language = "pt"), 
                            "á", "ás","é",
                            "ser","art", "assim",
                            "sobre", "ainda", "pêlo",
                            phrase(c("NOVA POLÍTICA DO BRASIL",
                                     "Presidência da República",
                                     "Casa Civil Secretaria de Administração",
                                     "Diretoria de Gestão de Pessoas Coordenação Geral de Documentação e Informação",
                                     "Coordenação de Biblioteca",
                                     "GOVERNO PROVISÓRIO",
                                     "decreto n",
                                     "A ATUALIDADE BRASILEIRA","DISCURSO PRONUNCIADO",
                                     "EST UNIDOS", 
                                     "TRABALHO INDÚSTRIA",
                                     "NEGÓCIOS INTERIORES", 
                                     "v exa", 
                                     "parágrafo único"))),
                padding = F) %>%
  tokens_replace(pattern = "darepdblica", "república")

## Warning: 'remove_hyphens' is deprecated, use 'split_hyphens' instead.

Com isso, já podemos fazer uma análise da frequência de palavras nos discursos de Getúlio Vargas, podendo descobrir assim as palavras mais utilizadas por ele, dando uma pista sobre temas, termos e o que realmente era relevante (pelo uso). Antes de fazer a frequência, precisamos converter os tokens em uma document-feature matrix, que nada mais é que uma matriz de frequência de termos em documentos:

vargas_dfm <- dfm(palavras_vargas)

# Fazendo a estatística de frequência de palavras: top 15
textstat_frequency(vargas_dfm, n = 25) %>% 
  kable() %>% 
  kable_paper()

feature	frequency	rank	docfreq	group
governo	1273	1	204	all
brasil	1135	2	215	all
nacional	1023	3	186	all
país	975	4	194	all
todos	838	5	203	all
estado	759	6	162	all
grande	726	7	179	all
trabalho	680	8	176	all
povo	627	9	178	all
vida	556	10	178	all
política	545	11	151	all
rio	468	12	97	all
produção	445	13	109	all
estados	438	14	88	all
federal	400	15	81	all
econômica	382	16	138	all
maior	380	17	145	all
nação	377	18	132	all
sempre	376	19	153	all
todas	372	20	153	all
anos	361	21	107	all
social	360	22	129	all
brasileiros	345	23	126	all
brasileiro	342	24	143	all
obra	341	25	143	all

Percebemos que, no nosso corpus, a palavra Brasil aparece 622 vezes em 94 dos 100 discursos. Depois dela, Nacional é utilizada 586 vezes, aparecendo em 80 documentos. Povo aparece na 11ª posição, sendo utilizada 292 vezes, aparecendo em 82 discursos, o que faz todo o sentido, a partir do que se sabe sobre Vargas.

Podemos fazer a mesma análise de frequência de palavras agrupando por ano, e pegando as 5 palavras mais usadas em cada ano:

textstat_frequency(vargas_dfm, group = "ano", n = 5) %>% 
    kable() %>% 
  kable_paper()

feature	frequency	rank	docfreq	group
povo	22	1	3	1930
eleitoral	17	2	3	1930
todos	16	3	3	1930
nacional	16	3	3	1930
brasileiro	15	5	3	1930
governo	101	1	6	1931
país	92	2	6	1931
todos	76	3	6	1931
brasil	76	3	6	1931
estado	58	5	6	1931
governo	96	1	6	1932
país	67	2	7	1932
revolução	63	3	6	1932
nacional	43	4	6	1932
política	40	5	7	1932
país	142	1	18	1933
trabalho	127	2	16	1933
brasil	115	3	19	1933
nacional	112	4	18	1933
governo	102	5	19	1933
nacional	113	1	9	1934
brasil	110	2	12	1934
creou	85	3	5	1934
ministério	66	4	5	1934
regulou	63	5	1	1934
brasil	51	1	12	1935
todos	36	2	10	1935
povo	32	3	11	1935
argentina	30	4	7	1935
país	23	5	11	1935
governo	33	1	7	1936
todos	29	2	7	1936
social	27	3	7	1936
brasil	24	4	7	1936
vida	23	5	6	1936
nacional	129	1	8	1937
estado	118	2	7	1937
federal	114	3	4	1937
lei	102	4	3	1937
presidente	98	5	2	1937
estado	101	1	18	1938
governo	99	2	20	1938
país	76	3	18	1938
nacional	76	3	18	1938
novo	70	5	18	1938
governo	82	1	8	1939
país	76	2	9	1939
grande	71	3	10	1939
estado	70	4	8	1939
municípios	66	5	3	1939
governo	185	1	43	1940
brasil	172	2	40	1940
nacional	146	3	35	1940
país	139	4	37	1940
todos	124	5	37	1940
brasil	69	1	7	1941
presidente	41	2	4	1941
povo	33	3	7	1941
américa	31	4	5	1941
governo	28	5	7	1941
brasil	103	1	22	1943
guerra	89	2	19	1943
governo	84	3	20	1943
nacional	61	4	19	1943
todos	59	5	19	1943
brasil	32	1	6	1944
guerra	28	2	7	1944
todos	24	3	6	1944
governo	20	4	5	1944
vossa	19	5	5	1944
povo	84	1	10	1951
governo	83	2	9	1951
vida	54	3	9	1951
brasil	44	4	11	1951
todos	41	5	10	1951
governo	117	1	13	1952
milhões	81	2	9	1952
grande	80	3	13	1952
país	66	4	14	1952
nacional	66	4	12	1952
governo	114	1	12	1953
brasil	56	2	13	1953
milhões	53	3	10	1953
nacional	47	4	12	1953
cruzeiros	45	5	9	1953

Fazendo uma nuvem de palavras (wordcloud) dos 200 termos mais utilizados por Vargas, temos:

textplot_wordcloud(vargas_dfm,
  random_order = FALSE,
  rotation = 0.25,
  max_words = 200,
  color = RColorBrewer::brewer.pal(8, "Dark2"))

A nuvem de palavras é simplesmente um recurso gráfico da tabela de frequência de palavras: o tamanho da palavra indica a quantidade de vezes que ela é utilizada, e é proporcional às outras ali presentes.

O Estado Novo inicia em 1937, com o fim do Governo Constitucionalista (1934-1937), e vai até 1945. Será que houve alguma mudança nas palavras utilizadas por Vargas no primeiro ano de cada período de governo, ou seja, em 1931, 1934 e 1937?

tokens_subset(palavras_vargas, ano %in% c(1931, 1934, 1937)) %>% 
  dfm(groups = "ano") %>% 
  textplot_wordcloud(max_words = 400, comparison = T,
                     color = RColorBrewer::brewer.pal(3, "Dark2"))

O que percebemos acima é que Vargas varia um pouco nas palavras utilizadas nos primeiros anos de seus governos: em 1931, percebemos o uso de palavras como governo, toneladas, papel, ouro, despesa, econômica, classes, tesouro; já em 1934, com o início do Governo Constitucionalista e promulgação da Constituição de 1934, palavras como fazenda, ministério, comércio, marinha, brasil, obras, públicas, cinema, saúde, ferro, café, naval se fazem presentes; em 1937, durante o Estado Novo, Vargas utilizou mais as palavras presidente, federal, lei,c onstituição, república, estado, nacional, segurança, câmara, tribunal, poder.

O quanteda é excelente pois traz consigo um conjunto de funções facilitadas, tornando muito mais fácil o cálculo de algumas estatísticas e a plotagem de alguns gráficos. Um outro exemplo é o gráfico de co-ocorrência, em rede, que indica quais palavras costumam ocorrer no mesmo documento, ou na mesma frase, a depender de como se configura. Ao analisarmos a co-ocorrência de palavras nos discursos de Vargas, temos, através da função textplot_network:

dfm_trim(vargas_dfm,
           min_termfreq = 25,
           termfreq_type = "rank") %>% 
  textplot_network(edge_size = 0.6)+
  labs(title = "Co-ocorrência de termos:",
       subtitle = "Discursos de Getúlio Vargas",
       x = "",  y = "")+
  theme_minimal()

O gráfico acima nos permite perceber que, por exemplo, país, governo, nacional, brasil,e stado, federal, todos são palavras com um alto grau de co-ocorrência com todas as outras. Talvez seja mais interessante observar as palavras que não co-ocorrem entre si: povo e nação, por exemplo, ou poder, povo, ordem e obra.

Um outro exemplo interessante de análise é a presença de determinado termo ou termos ao longo do documento, e em que posição aparecem. Isso é oferecido pela função textplot_xray. Observando em quais discursos a palavra democracia (ou democratas, democrata, democrático, democrática, etc) aparece, e em que posições do documento:

textplot_xray(kwic(discursos_vargas,  "Democra*")) +
  labs(
    subtitle = "Plot de dispersão lexical",
    title = "Discursos de Getúlio Vargas:",
    x = "Index de Token",
    y = "Documento"
  )

Democracia só aparece em 1 discurso em 1932, em 1 em 1933, em 2 em 1934, em 2 em 1935, em 4 em 1936, em 2 em 1937, em 1 em 1939, em 3 em 1941 e em 1 em 1944, de um total de 100 discursos existentes.

Mas qual seria o contexto da palavra nos discursos?

kwic(discursos_vargas, "Democra*", window = 3)

##                                                                       
##       [1932_01.pdf, 104]     falsos pregoeiros da |    democracia    |
##      [1933_04.pdf, 1445]          a decadência da |    democracia    |
##     [1934_05.pdf, 12733]  direito patrimonial das |   democracias    |
##      [1934_14.pdf, 2900] estabeleceu a verdadeira |    democracia    |
##       [1935_04.pdf, 204]               e da vossa |    democracia    |
##        [1935_09.pdf, 40]                A base da |    democracia    |
##       [1935_09.pdf, 167]                a base da |    democracia    |
##       [1935_09.pdf, 208]     alicerces das nossas |   democracias    |
##      [1936_02.pdf, 1677]             Na luta pela |    democracia    |
##      [1936_04.pdf, 1453]            de defender a |    democracia    |
##        [1936_05.pdf, 86]             econômico- A |    democracia    |
##       [1936_05.pdf, 786]                  , que a |    democracia    |
##       [1936_05.pdf, 809]                   Mas, a |    democracia    |
##       [1936_05.pdf, 887]                . Ordem e |    democracia    |
##       [1936_07.pdf, 604]        cidadãos da maior |    democracia    |
##      [1937_01.pdf, 2298]            dos marcos da |    democracia    |
##       [1937_04.pdf, 874]          atravessamos, a |    democracia    |
##       [1938_05.pdf, 161]          Governo forte e |    democracia    |
##      [1938_05.pdf, 7139]          Governo forte e |    democracia    |
##       [1938_23.pdf, 464]     manipuladores de uma |    democracia    |
##    [1939_05-02.pdf, 741]          passámos de uma |    democracia    |
##    [1939_05-02.pdf, 751]               , para uma |    democracia    |
##  [1939_05-02.pdf, 10761]              da forma de |    democracia    |
##      [1940_21.pdf, 1076]              desordem. À |    democracia    |
##      [1940_21.pdf, 1080]     política substitue a |    democracia    |
##      [1940_41.pdf, 1748]              produção. A |    democracia    |
##       [1941_02.pdf, 538] instituímos a verdadeira |    democracia    |
##       [1941_04.pdf, 221]              regime, uma |    democracia    |
##      [1941_04.pdf, 2290]              regime, uma |    democracia    |
##      [1941_04.pdf, 2304]    convenções legais das |   democracias    |
##      [1941_04.pdf, 2331]               É mais uma |    democracia    |
##       [1941_05.pdf, 233]     - Característicos da |    democracia    |
##      [1941_05.pdf, 1546]                 Novo e a |    democracia    |
##      [1941_05.pdf, 1571]        conciliação com a |    democracia    |
##      [1941_05.pdf, 1693]        , instituímos uma |    democracia    |
##      [1941_05.pdf, 1771]                  , é uma |    democracia    |
##      [1941_05.pdf, 2126]           forma comum da |    democracia    |
##        [1943_21.pdf, 87]           Nações Unidas- |    Democracia    |
##       [1943_21.pdf, 267]    Apenas entendemos que |    democracia    |
##      [1944_04.pdf, 1977]           rep sentantes, | democraticamente |
##       [1951_02.pdf, 211]                 do Povo. |    democracia    |
##       [1951_03.pdf, 511]       presente os mesmos |    democracia    |
##      [1951_07.pdf, 3791]         conhecem o deira |    democracia    |
##      [1951_07.pdf, 3832]            riedade a uma |    democracia    |
##      [1952_07.pdf, 1035]               livre. Nas |   democracias    |
##      [1952_09.pdf, 2302]            Não somente a |    democracia    |
##      [1952_09.pdf, 2594]             livre não há |    democracia    |
##      [1952_09.pdf, 2792]   espírito verdadeiro da |    democracia    |
##       [1952_11.pdf, 212]                a base da |    democracia    |
##       [1953_03.pdf, 832]              a defesa da |    democracia    |
##                                  
##  e os reacionários               
##  liberal e individualista        
##  . Mas essa                      
##  entre nós.                      
##  , a cujo                        
##  , agora como                    
##  , agora como                    
##  ; e vós                         
##  , estacionamento significa      
##  , entregam-na,                  
##  é o regime                      
##  é o regime                      
##  , no sentido                    
##  que significam disciplina       
##  do mundo,                       
##  ativa, em                       
##  de partidos,                    
##  - O Estado                      
##  Há quem afirme                  
##  de ficção.                      
##  aparente, de                    
##  real, isto                      
##  renovada em que                 
##  política substitue a            
##  econômica, em                   
##  política- vemos                 
##  - do povo                       
##  - As assembléias                
##  , mesmo porque                  
##  parlamentares, esse             
##  econômica que política          
##  brasileira- A                   
##  Peço, em                        
##  , tal como                      
##  realista e funcional            
##  , distanciada dos               
##  parlamentar: perde-se           
##  não é demagogia                 
##  não é demaia                    
##  , dentro da                     
##  . Ordenastes e                  
##  de conteúdo humano              
##  social e econô                  
##  meradem falar em                
##  , o governo                     
##  está definitivamente consolidada
##  . Não pretendo                  
##  , abdiquem de                   
##  , pois é                        
##  , como pretexto

Percebe-se que a palavra democracia, em muitos dos casos acima, é utilizada em um contexto negativo.

Uma ferramenta muito útil é a de topic modeling, que permite o cálculo de termos relacionados que possam indicar um assunto em comum, ou tópicos. Será que é possível identificar tópicos recorrentes nos discursos de Getúlio Vargas?

LDA(convert(vargas_dfm, to = "topicmodels"), k = 5) %>% 
  get_terms(10)

##       Topic 1    Topic 2      Topic 3    Topic 4     Topic 5     
##  [1,] "brasil"   "governo"    "governo"  "brasil"    "governo"   
##  [2,] "todos"    "estado"     "nacional" "governo"   "país"      
##  [3,] "nacional" "brasil"     "grande"   "povo"      "brasil"    
##  [4,] "povo"     "trabalho"   "país"     "país"      "nacional"  
##  [5,] "trabalho" "presidente" "produção" "política"  "serviços"  
##  [6,] "país"     "federal"    "estado"   "todos"     "ministério"
##  [7,] "governo"  "lei"        "milhões"  "nacional"  "obras"     
##  [8,] "pátria"   "nacional"   "brasil"   "vida"      "estados"   
##  [9,] "vida"     "grande"     "rio"      "revolução" "ano"       
## [10,] "guerra"   "país"       "todos"    "estado"    "serviço"

Calculei 5 tópicos possíveis nos discursos de Vargas e, de cada um, selecionei as 10 palavras que pudessem representar cada tópico. Por conta de todos os discursos versarem, na maioria das vezes, sobre as mesmas coisas, com uma grande quantidade de palavras repetidas, fica difícil identificar tópicos diferentes. Todavia, se ignorarmos as palavras repetidas e focarmos nas únicas, podemos perceber alguns temas: estado e social, lei e presidente, nação e revolução, obras e serviços, povo e trabalho.

Por fim, o quanteda também apresenta a ferramenta de collocations, que é o cálculo de palavras que sempre andam juntas, em bi-gramas (ou seja, pares). Quais serão os termos correlacionados nos discursos de Getúlio? Para essa análise, precisamos fazer novamente os tokens adicionando a opção de padding = TRUE, para que os espaços vazios (de palavras removidas, como stopwords) não sejam ocupados pelas palavras seguintes.

tokens(discursos_vargas,
    "word",
    remove_numbers = T,
    remove_symbols = T,
    remove_punct = T,
    remove_separators = T) %>% 
  tokens_remove(padding = TRUE, pattern = c(stopwords(language = "pt"),
    "á","ás","é",
    "ser","art", "assim", "sobre", "ainda", "pêlo", phrase(c("NOVA POLÍTICA DO BRASIL",
        "Presidência da República",
        "Casa Civil Secretaria de Administração",
        "Diretoria de Gestão de Pessoas Coordenação Geral de Documentação e Informação",
        "Coordenação de Biblioteca",
        "GOVERNO PROVISÓRIO",
        "decreto n", "A ATUALIDADE BRASILEIRA", "DISCURSO PRONUNCIADO", "EST UNIDOS", "TRABALHO INDÚSTRIA","NEGÓCIOS INTERIORES", "v exa", "parágrafo único")))) %>%
  tokens_replace(pattern = "darepdblica", "república") %>% 
  textstat_collocations(size = 2) %>%
  as.data.frame() %>% 
  arrange(-count) %>% 
  head(30) %>% 
  select(-count_nested, -length) %>% 
    kable(col.names = c("Collocation", "Contagem", "Lambda", "Z")) %>% 
  kable_paper()

	Collocation	Contagem	Lambda	Z
1	rio grande	256	7.12160	65.7777
2	povo brasileiro	124	6.21525	50.4035
4	governo federal	123	5.07670	44.9262
5	forças armadas	93	8.78112	40.0075
3	cada vez	81	7.06180	45.1112
6	estado novo	80	5.38173	39.5181
85	distrito federal	75	9.72641	21.8444
14	território nacional	60	5.43573	33.0938
7	poder público	56	6.61593	38.2622
8	minas gerais	55	8.90081	37.8444
22	economia nacional	55	4.45704	29.4265
10	corrente ano	54	7.44906	37.1227
3049	matérias primas	51	14.51998	10.0904
9	outro lado	50	7.83564	37.4627
11	neste momento	47	6.54853	35.5539
62	vida nacional	47	3.61973	23.3299
12	conselho federal	46	6.36355	33.7263
67	porto alegre	46	10.73462	23.0169
42	vossa excelência	42	8.59701	26.9050
19	estados unidos	41	7.09005	30.0436
13	supremo tribunal	40	9.28012	33.2420
17	últimos anos	40	6.78565	31.8574
16	administração pública	38	6.19113	31.9367
44	departamento nacional	38	5.70706	26.3775
431	governo nacional	38	2.54223	15.2339
18	desenvolvimento econômico	37	5.90210	30.6431
27	novo regime	35	5.36720	28.2388
15	mil contos	33	7.80931	32.4016
20	dois países	33	6.03132	29.6839
68	vida econômica	33	4.26817	22.9202

Rio Grande, Povo Brasileiro, Governo Federal e Forças Armadas são os bigramas mais utilizados por Getúlio Vargas. O primeiro é óbvio: se refere ao Rio Grande do Sul, terra de Getúlio Vargas; Povo Brasileiro era como ele iniciava os discursos, se dirigindo à nação; Governo Federal se refere ao governo; Forças Armadas mostra as relações de Getúlio com os militares, fruto da própria Revolução de 30.

Bom, por hoje é só! Quero agradecer aos insights dos amigos Helio Cannone e Weslley Dias, que possuem relevantes pesquisas sobre Vargas e entendem profundamente do assunto.

Qualquer dúvida, correção ou sugestão pode ser encaminhada para matheus.pestana@iesp.uerj.br

brasil eleições governo r getúlio vargas textmining quanteda discurso

Mateus Cavalcanti Pestana

Doutorando e Mestre em Ciência Política

Interessado em ciência de dados, ciência política, política russa, impressão 3D, redes neurais e aprendizado de máquina.

Textmining: análise dos discursos de Getúlio Vargas

Mateus Cavalcanti Pestana

Doutorando e Mestre em Ciência Política

Relacionados