quarta-feira, 19 de setembro de 2007

Mas, tem utilidade tanto dado?

Aula de hoje teve a intenção de convencer-vos da utilidade de usar técnicas a partir de dados numéricos para realizar qualquer tipo de pesquisa.

No primeiro caso, suponhamos que queremos fazer uma pesquisa sobre o efeito que sobre as vendas de um diário têm as portadas. Temos os dados de venda e pareceria trivial: escolhemos os dados mais altos.

Mas uma série de dados temporários pode ter uma tendência a longo prazo que não se explicaria pelo interesse das portadas: melhor distribuição do diário, aumento do nível cultural, desaparecimento da concorrência…O primeiro passo seria desagregar esse efeito, isto é filtrar o aumento ou descenso das vendas produzido por essa tendência. Em meu caso utilizei a forma mais simple: uma média móvel utilizando 12 meses. Cada dado é a média dos 12 meses mais próximos (tem métodos mais sofisticados).

Free Image Hosting at www.ImageShack.us

O seguinte passo sera restar à série original a tendência. Deste modo obteríamos uma série sem tendência de crescimento que oscilaria sobre o valor zero.

Free Image Hosting at www.ImageShack.us

Mas temos outro efeito, o da tendência sazonal. Cada mês pode ter uma tendência a mais ou menos vendas por causas climáticas ou sociais. Para calcular esta tendência sazonal utilizo também um método muito simple: faço a média de todos os meses janeiro, de todos os meses fevereiro… Obtemos uma gráfica sazonal.

Free Image Hosting at www.ImageShack.us

Nossa série é mensal. Se tivéssemos dados diários teria que considerar por separado o efeito dos dias da semana, dos dias do mês, e dos meses do ano. E se quiséssemos ser muito precisos contaríamos a Semana Santa por separado.Agora estamos à série de dados sem tendência os dados estacionais e obtemos uma série de dados cujos “altibajos” não podem ser observados nem pela tendência nem por a sazonal. São os dados que queremos explicar mediante as portadas.

Free Image Hosting at www.ImageShack.us


Em outras ocasiões ter uma sensibilidade para os dados pode permitir propor pesquisas de qualquer tipo.
Faz uns dias escutei uns dados de PNUD Brasil sobre o desenvolvimento humano no Brasil. Tinha diminuído a desigualdade social (índice de Gini) e o índice de pobreza absoluta, além de aumenta o Índice de Desenvolvimento Humano (IDH).
Procurando em Internet encontrei série de dados de IDH desde 1975. Preparei esta gráfica na que se mostra na vertical o IDH em 2004, e na horizontal o incremento de IDH desde 1975.

Free Image Hosting at www.ImageShack.us

Comprovei de uma olhada que Brasil se tinha desenvolvido muito, e que África (em vermelho) se tinha estancado, ou inclusive retrocedido. Vendo mais em detalhe comprovei do que, dentro de seu meio (latinoamerica, amarelo), Brasil tinha aumentado muito seu IDH. Em resumo: Brasil é um país que se desenvolveu muito.

Free Image Hosting at www.ImageShack.us


Então tente de comprovar o grande problema de Brasil, o problema que é tema recorrente das portadas de diários e dos jornais de TV: a corrupção. Existe uma ONG Transparency Internacional, que mediante pesquisas a empresários oferece um índice de transparência (o contrário de corrupção). Como é uma pesquisa com uma amostragem tem suas margens de erro, mas para esta exposição vou ignorá-los. Vertical, IDH; horizontal, transparencia.

Free Image Hosting at www.ImageShack.us

Descobrimos que Brasil não tem uma corrupção extraordinária. Há muitos outros países com IDH similar que têm menores índices de transparência (mais corrupção). Ao que parece é necessário que um país atinja altos índices de desenvolvimento humano para que a transparência se imponha.

Se a corrupção não é o grande problema de Brasil… Qual é?
A desigualdade. Para qualquer europeu que passa umas semanas em Brasil (fazendo algo mais do que turismo), este país é um exemplo de desigualdade social. Nesta gráfica temos no eixo vertical a renda per capita em dólares internacionais, que é a riqueza repartida entre todos os habitantes de um país e expressada na quantidade de dólares que fariam falta em EEUU para poder ter esse mesmo poder aquisitivo (porque não compramos o mesmo com um dólar em Brasil que em EEUU). È por isso que Noruega, Irlanda e EEUU tem os mesmos níveis. Eixo horizontal o indice Gini de desigualdade.

Free Image Hosting at www.ImageShack.us

Só há uns poucos países em pior situação que Brasil: países do apartheid, africanos muito pobres, e Guatemala… A notícia que dava início a esta investigação indicava que o índice de Gini agora era ligeiramente inferior, mas tão ligeiramente que faria falta um século para chegar aos níveis de igualdade de Noruega…

Pode-se comprovar nesta gráfica que não existem países de desigualdade extrema com uma alta renda per capita: o desenvolvimento econômico precisa igualdade social.


A representação gráfica é uma ferramenta muito importante para pesquisar. A partir destes dados se poderia propor porquê os meios de comunicação de Brasil ignoram este problema, e falam de continuo de corrupção, violência ou aeroportos… isto é, a partir de uns dados quantitativos podemos propor uma investigação qualitativa, e o que é mais importante, podemos argumentar nosso objeto de pesquisa.


Tendes um software para fazer gráficos que permite jogar com quatro variáveis, a população, o tempo, e alguns pares de variáveis. è de Fundação Gapminder:

Este trabalha com dados diferentes e uma interface similar. Há que o descarregar ao computador.

Aqui tendes uma representação gráfica da desigualdade por países. Está em escala logarítmica.

Arquivo Excel com dados de jornal espanhol.

terça-feira, 11 de setembro de 2007

Estatística I

Estatística

A estatística é só uma extensão da capacidade do ser humano de perceber padrões, regularidades, em informação complexa. Para manejar essa informação a estatística precisa que os dados se apresentem em forma numérica.
Calcular a média de um conjunto de quantidades é o que faz nosso cérebro quando escuta música.
A maioria dos parâmetros (a média é um parâmetro), têm uma representação visual singela, simples.
Tem que entender que ao utilizar estatística perdemos detalhe e ganhamos capacidade de entendimento e comparação.



Medidas de Localização ou tendência central
São indicadores que permitem que se tenha uma primeira ideia ou um resumo, do modo como se distribuem os dados.

-Média:
Suma dos valores dividido por nº dos valores.
Se utiliza só com variaveis quantitaivas.

-Mediana:
Ordenados os elementos da amostra, a mediana é o valor (pertencente ou não à amostra) que a divide ao meio, isto é, 50% dos elementos da amostra são menores ou iguais à mediana e os outros 50% são maiores ou iguais à mediana
Divide e dois. Si som mais, som quartis.
Se utiliza com variaveis ordinais.

-Moda:
O valor que surge com mais frequência. Se os dados são discretos, ou, o intervalo de classe com maior frequência se os dados são contínuos. Se utiliza com variaveis nominais

Medidas de Dispersão

Desvio padrão, o mais utilizado.

Raiz quadrada de: soma dos quadrados dos desvios das observações da amostra, relativamente à sua média, e dividindo pelo número de observações da amostra menos um:

Utilizamos o quadrado e a raiz quadrada por uma causa matemática que permite que os dados resultantes sejam de melhor uso. E pela mesma razão dividimos não por N, senão por n-1.
Sempre é um número positivo: quanto maior, mais dispersão.

Cuando se utilizam duas variaveis

Coeficiente de Correlação:
O mais utilizado:

Mide o poder explicativo duma relação linear. Relação linear é do tipo: aumenta uma variável, aumenta em a mesma proporção a outra.


Inferencia estatística

Inferência estatística é o processo pelo qual é possível tirar conclusões acerca da população (universo) usando informação de uma amostra (subconjunto).
Se recolhemos dados de toda a poplaçao fazemos um recenseamento.
Sondagem é cuando utilizamos uma amostra.

A amostra de uma pesquisa pode ser selecionada de forma probabilística ou não probabilística.

Amostras probabilísticas:
-Aleatória simples: As unidades são seleccionadas, uma a uma, ao acaso, a partir de um conjunto.
-Aleatória sistemática: Selecciona-se uma única unidade ao acaso, as outras são extraídas com intervalos fixos.
-Aleatória estratificada ou por estratos: As unidades são seleccionadas ao acaso, no seio de subgrupos homogéneos, atendendo a variáveis. Geralmente, uma amostra estratificada é constituída a partir das várias amostras simples, sendo cada unidade obtida num dos subgrupos que constituem a amostra.
-Grupos, agregados ou cachos: É constituída por subgrupos homogéneos seleccionados ao acaso (modo aleatório) em cujo interior serão escolhidos as unidades de modo aleatório, o bem som seleccionadas todas as unidades.

Nestas amostras se pode aplicar inferencia estatística.

Na algumas ocasiões não podemos eleger uma mostra probabilística, então se fazem amostras não probabilísticas:
-Voluntárias (ou por conveniência: Constituídas por unidades que se disponibilizam voluntariamente para integrar a amostra. Neste método selecciona-se a amostra em função da disponibilidade e acessibilidade dos elementos da população.
-Intencionais (por acerto): Constituídas a partir das intenções ou necessidades do investigador para estudar uma situação particular, baseiam-se em opiniões de uma ou mais pessoas que conhecem características específicas que se pretendem analisar da população em estudo.
-Acidentais (ao acaso): As unidades são seleccionadas respeitando a ordem com que aparecem. O método consiste em seleccionar inicialmente os inquiridos de modo aleatório e, em seguida, escolher unidades adicionais a partir da informação obtida dos primeiros.
-Quotas: A característica principal de uma amostra por quotas é a necessidade de se qualificar o respondente "a priori"; têm as vantagens da economia de tempo e de dinheiro; são estratificadas com a locação proporcional ao número de sujeitos de cada estrato.

Nestos casos não podemos fazer inferência estatística, não podemos concluir nada da população.

¿Como fazer amostras?

É fácil. Aplicando uma formula:

A fórmula não importa. Excel ou OpenOffice calcula.




n é o tamanho da amostra
δ é o Nível de Confianza
Nível de confianza:
Si fizeramos a pesquisa 100 vezes, sería como esperamos este porcentagem das vezes...
δ = 1 ; 68,3% de vezes
δ = 2 ; 95,4% de vezes
δ = 3 ; 99,7% de vezes
Nos decidimos que nível de confianza queremos para nossa pesquisa. O normal, δ = 2, ou 2δ

p é o porporção do universo que possui a propiedade pesquisada. Se não sabemos, o mais normal, e 50%.
q é o porporção do universo que não possui a propiedades pesquisada: é 100-p
N é tamanho do população ou Universo.
e é erro
Significa quanto flutua o valor na amostra. É um porcentagem. O normal é <6%. 3% é bom.


Fontes em português:

Noções de estatistica

Escalas de Medida, Estatística Descritiva e Inferência Estatística Interessante também porque fala de variáveis.

terça-feira, 4 de setembro de 2007

Um indice pionero em Comunicaçao:

Gerbner, G., Gross, L., Jackson-Beeck, M., Jefrfries-Fox, S. & Signorelli, N. (1978). “Cultural Indicators: Violence Profile nº 9.” Journal of comunication, v. 28, n. 3, pp. 176-207.

Acho que vocês tem este artigo acessível desde a biblioteca da UnB.

ÍNDICE DE VIOLÊNCIA

IV = %P + 2(R/P) + 2(R/H) + %V + %K

IV é o Índice de Violência;
%P = Porcentagem de programas que tem algum conteudo violento
R/P = Número de episodios violentos por programa
R/H = Número de episodios violentos por hora
%V = Porcentagem de personagens principais implicados na violencia, como perpetradores ou como vítimas;
%K = Percentagem de personagens principais relacionados com mortes, como perpetradores ou como vítimas.


Índice de violencia elaborado em Argentina:

IVTV ficcão = ( a + b + c + 1,4 d + e + 1,5 f )

Alcance
a. % de Programas con Actos de Violencia.
b. Número de Actos de Violencia por Programa.
Intensidad
c. Número de Actos de Violencia por Hora.
Gravedad
d. % de Roles Protagónicos en Actos de Violencia.
e. % de Roles Protagónicos en Homicidios
f. Índice de Violencia Explícita (Promedio Horario de Actos de
Violencia con Armas, Heridas y Muertes)

IVTV jornais = (a + b + c + 1,4d + 1,4e)

Alcance
a. % de Noticieros con Unidades Informativas (Noticias) con Violencia.
b. Número de Noticias con Violencia por Programa.
Intensidad
c. % de Unidades Informativas con Violencia.
Gravedad
d. % de Móviles en Directo en Noticias con Violencia.
e. % de Delitos contra las Personas en Noticias con Actos de Violencia

Índice de violencia elaborado na Argentina

Acho que no Brasil não tem pesquisas como estas... Isso é ruim!

quarta-feira, 29 de agosto de 2007

Variaveis e indicadores

Variável é tudo aquilo que pode assumir diferentes valores, desde o ponto de vista quantitativo ou qualitativo.



Algumas explicações sobre o exposto no mapa conceitual.

Dicotómica: aquela variável que só pode tomar dois possíveis valores.

A forma mais pura de dicotomia é a presença, ausência de um rasgo:
-Vêem a television – Não vêem a televisão.
Outra forma são as oposições:
-Natural -Artificial.
As oposições pressupõem que só se pode dar um dos dois valores: algo será natural ou será artificial.

E também temos as oposições com grau zero: Neste caso também existe a ausência de valor para essa variável dicotómica.

Nominal: aquela variável que pode tomar vários valores. Consideram-se nominais aquelas que não podem estar hierarquizados. Por exemplo uma classificação de gêneros televisivos. São variáveis qualitativas sempre.

Sempre se pode transformar uma variável nominal em várias dicotómicas: uma variável com 5 valores em 5 variáveis dicotómicas.

Ordinal: aquela variável que pode tomar vários valores e nos que se pode estabelecer um ordem entre as categorias.
Neste caso se trata de gradações de um fenômenos que tem uma interpretação quantitativa. Por exemplo os tipos de distribuição geográfica que tem um jornal: local, regional, estadual, federal. Neste caso estão ordenados de mais a menos.

Quantitativa: aquela variável que pode tomar uma casta numérica de valores.Estas a sua vez podem ser discretas ou contínuas:Número de exemplares vendidos por um salário, audiência de um programa, são discretas: não se pode vender meio exemplar. São o resultado de contar.Percentagem de aumento de audiência de um ano para outro: é contínua, pode tomar qualquer valor. São o resultado de medir ou calcular.

As contínuas podem ser intervalares ou proporcionais. No primeiro caso não se conhece o valor zero, e se escolhe um convencional, criando uma escala negativa. É o caso da temperatura em graus centígrados. Isto significa que 30 graus não são o dobro de tenperatura que 20 graus. Pior em graus Kelvin não é assim. 270 graus kelvin são a metade de 540 graus Kelvin. Isto é asi, porque 0º Kelvin coincide com a temperatura mínima possível.As proporcionais são variáveis nas que o valor zero coincide com o valor mínimo possível da escala. A altura das pessoas é uma variável deste tipo.

Se utilzamos variáveis nominais só podemos fazer uma tipologia, por exemplo a que se utiliza em zoologia. Ordena-se por níveis e cada nível tem variáveis diferentes. Por exemplo, uma tipologia de variáveis:



Aquim os tipo posiveis de clasificaçoes:




Indicadores:
Não podemos medir variáveis abstratas, senão fatos que previamente puderam ser conceptuados como indicadores dessas idéias. Para medir essas variáveis nos podemos basear nos indicadores. Os indicadores são algo específico e concreto que representam algo mais abstrato ou difícil de precisar.O processo de encontrar os indicadores que permitem conhecer o comportamento das variáveis é o que chamamos operacionalização.



Alguns exemplos de trabalhos com indicadores:
Síntese de Indicadores Sociais 2002
Metodologia do Índice de Desenvolvimento Econômico

quarta-feira, 22 de agosto de 2007

Método e métodos

Hoje aclarei o que entendo por Método Científico.
A Ciência tem unidade de método, e não devemos confundir isto com os métodos, metodologias ou técnicas de investigação científica. Podemos falar, também, de Método Geral da Ciência e de métodos específicos; ou de uma estratégia da ciência e diversas táticas.
O método da ciência é um modo de tratar problemas intelectuais. A natureza do objeto de estudo concreto ditará possíveis métodos de análises, possíveis ferramentas. Quantas mais ferramentas conheçamos melhor poderemos tratar determinado problema, e mais tipos de problemas poderemos tratar.

O método atual da ciência é o Método Hipotético Dedutivo: insiro nele estão os métodos Dedutivo e Indutivo. Neste mapa conceitual se explica como se desenvolve uma pesquisa na realidade.

Na prática o pesquisador não avança de maneira contínua, com freqüência deve voltar sobre seus passos para fazer correções. Quanta mais experiência tenhamos como pesquisadores mais verdadeiro será nosso desempenho, menos decisões erradas tomaremos e menos teremos do que retroceder.
Por outra parte a ciência transita por estes passos que são consecutivos. Para passar de nível antes se teve que acumular muito conhecimento no nível anterior. Isto não significa que não se siga fazendo trabalho em todos os níveis em todas as ciências.

A ciência é um saber acumulativo que pode ser falsado, por qualquer e em qualquer momento, utilizando seu método. A ciência deve ser humilde a curto prazo. Devemos enfrentar problemas que estejam a nosso alcance. Mas podemos fazer ciência em qualquer desses níveis: desde a descrição até a predição da realidade social mediante teorias. Mas por agora parece que as Ciências Sociais devem fazer sobretudo o trabalho de descrever seu mutante objeto de estudo.
Em outro post a 2ª parte da aula (Clasificação)

Fontes:

Método real da pesquisa
Progresso da Ciência
Ciclo da investigação científica
Método hipotético dedutivo

segunda-feira, 13 de agosto de 2007

Apresentação

Neste é o blog da disciplina Tópicos Especiais em Comunicação. Metodologia de Pesquisa 2, no Programa de Pós-graduação em Ciências da Comunicação, da Universidade de Brasília-UnB.

Acompanha o processo da disciplina o professor Pedro Russi.

Ainda que o nome que figura na informação oficial é Alberto Rodríguez, o meu nome completo é José Alberto de Francisco Rodríguez. Alberto de Francisco, para abreviar. Rodríguez não é um sobrenome português, e sim um sobrenome anterior à existência de ambas as naçoes: Espanha e Portugal; e por issso é um dos sobrenomes mais extenso da península.

Nas aulas falarei num portuñol que desejo aprimore durante a minha estadia. Espero que todos vocês colaborem comigo, e por tanto, interrompam-me quando não entendam alguma coisa: não gostaria de não ser entendido.

Este blog terá a função de receber seus comentários após de cada aula. Os comentários vão ser de utilidade para a avaliação. Quero comentários breves e reflechidos, e serão bem-vindas as objeçoes aos comentários dos colegas.

Ao finalizar cada aula, farei um resumo neste blog, mas isto não sustitui as aulas.