Usuário Discussão:HenriqueCrang/tarefa
Crang,
Tenho a suspeita que os dados do primeiro semestre possam estar comprometidos por algum editor realizando muitas edições automáticas ou semiautomáticas. Repare pela tabela do Cláudio que este primeiro trimestre foi um pico de contribuições. Na verdade, se você gerar um gráfico daquela tabela vai visualizar muito bem uma "sazonalidade" das contribuições. Minha teoria é que enquanto os leitores ocasionais deixam a wiki no período de férias, um pequeno grupo de editores muito ativos passa as férias aqui dentro aproveitando a calmaria para editar mais. Abs, OTAVIO1981 (discussão) 11h05min de 21 de dezembro de 2012 (UTC)
- Valeu Otávio. Eu gerei esse gráfico e de fato após o pico do 1º trimestre de 2011 podemos notar uma curva bem estável de crescimento. Vou postar esse gráfico na página da tarefa. Sua teoria de alguém realizando edições automáticas ter gerado esse pico é interessante, porém me incomoda um pouco o fato de ambas as categorias (sysops e reversores) terem observado praticamente a mesma variação. A teoria dos "editores de férias" também me soa coerente, pelo que entendi com ela você explica como os números gerais se mantém dentro da curva no verão, porém com uma concentração maior em menos editores. É isso? Nesse caso, para prová-la podemos fazer alguma relação de "edições per capita entre usuários ativos no período". O que acha? Crang115 (discussão) 03h04min de 22 de dezembro de 2012 (UTC)
- É isso mesmo Crang. Acho que a relação de edições per capita entre os editores com estatuto pode sim comprovar uma maior atividade em determinado período. Talvez alguns dados do stats.grok possam complementar esta análise.OTAVIO1981 (discussão) 10h58min de 26 de dezembro de 2012 (UTC)
- Maravilha, Crang! Lembrando que amanhã é o último dia para realização da tarefa, desejo boa sorte! Se tiver alguma dúvida que possamos ajudar, escreva.--Oona (WMF) (discussão) 23h05min de 25 de dezembro de 2012 (UTC)
- Obrigado, Oona. Estou levantando várias questões que com certeza podem ser melhor trabalhadas com ajuda da comunidade. Estarei editando por aqui até hoje a noite e ficarei feliz se acontecerem mais contribuições. Crang115 (discussão) 07h59min de 26 de dezembro de 2012 (UTC)
Edições x reversões
editarAchei riquíssima a análise. De uma pergunta aparentemente simples, surgiram insights interessantes. Mas não gosto muito do tecniquês. Não sei se eu sou muito superficial, mas eu gostaria de uma leitura bem básica dos dados das tabelas. Por exemplo: o que significa sair de 5.54 para 5.86 após a mudança da política? Isso é bom ou ruim? Muito ou pouco? CasteloBrancomsg 04h40min de 26 de dezembro de 2012 (UTC)
- Oi Castelo, de fato as vezes cometemos o pecado de irmos direto a técnica e não deixarmos as coisas claras em bom português. Já estou melhorando o texto da página para descrever melhor o que aquelas tabelas significam.
- Agora, respondendo diretamente a questão da variação do índice de edições por reversão dos reversores do 1º trimestre de 2012 para o segundo trismestre de 2012: primeiro vale explicar o que significa o índice. Quanto maior ele for, menor o percentual de reversões dentre as edições feitas. Quanto menor, mais reversões foram feitas em relação a edições como um todo (no pior caso com o índice = 1 teríamos um cenário onde todas as edições feitas naquele período foram reversões). Dito isso, eu vejo nessa variação de 5.84% um pequeno indício de que o experimento pode ter funcionado, mas não me senti confortável para tirar conclusões. Se olharmos para a variação do 2º trimestre de 2011 para o 1º de 2012, veremos um crescimento de 3.42% no índice. Lembrando que essa primeira análise não possua os dados do 3º e 4º trimestre de 2011, vemos que em 9 meses tivemos um crescimento menor do índice do que nos 3 meses de duração do experimento, o que parece muito bom. Porém, com a falta desses dados não temos uma curva segura no gráfico. Esses podem ter apresentado picos de edição e/ou de reversão que alterem totalmente a tendência de nossa análise. Além disso, pude perceber que existem várias outras variáveis que devem levar em consideração na análise para que possamos tentar isolar a influência do experimento nos resultados.
- Desta forma, dando uma resposta resumida: o aumento do índice é "bom", mas precisamos de mais informações para saber se ele é "Muito ou pouco". Crang115 (discussão) 07h59min de 26 de dezembro de 2012 (UTC)
- Valeu, ficou mais claro agora. CasteloBrancomsg 20h48min de 26 de dezembro de 2012 (UTC)
- De qualquer forma, não vejo muita relação entre os dois números (edições feitas x reversões). A mudança na política foi a possibilidade de bloqueios, partindo da hipótese de que isso diminuiria os vandalismos. Então acho que seria interessante relacionar as reversões (que são uma forma de medir os vandalismos) com os bloqueios, e não com as edições deles. Se a mudança estiver dando certo, é de se esperar que o aumento nos bloqueios seja acompanhado de redução nas reversões. Só meus dois centavos....
- A propósito, a sugestão de uma análise per capita e a relação com estatutos me pareceram bem pertinentes. Não me preocuparia com a questão das médias diárias. O primeiro trimestre tem 90 dias, o segundo tem 91. A variação, de pouco mais de 1%, é muito pouco significativa. Mas também achei muito interessante relacionar com as atividades dos bots. O Salebot deve ser, de longe, o maior reversor da Wikipédia, e ele às vezes fica alguns dias sem operar, o que certamente impacta nas estatísticas e no trabalho dos admins e reversores. Mas especialmente, trazer informações do filtro é uma boa ideia, que nem tinha me ocorrido. Não sei quais dados dos filtros é possível extrair das bases de dados, nunca vi estatísticas deles. E esse seria um dado muito rico, porque assim como existem filtros que impedem a edição, há outros que apenas etiquetam edições com algum padrão, e ambas podem fornecer insumos para inferir o número de vandalismos. CasteloBrancomsg 22h31min de 26 de dezembro de 2012 (UTC)
- Castelo, a relação entre esses números se propõe a medir "uma das hipóteses (...) que, distribuindo melhor o trabalho de reversão, os administradores estariam mais 'liberados' para editar" como dito aqui mesmo na página de discussão pela Oona. Mas, após ler sua mensagem, responder a essa hipótese me pareceu algo secundário em nossa análise. O experimento pode sim ter economizado tempo dos administradores, mas eles podem ter ido gastar esse tempo em outro lugar! A variação da quantidade de bloqueios feitos por administradores é sim mais relevante do que a variação de reversões que eles fizeram!
- Sobre as médias diárias, acho elas importantes pois podemos o "dia extra" com uma variação significativa de acessos (um feriado por exemplo). Isso inclusive me leva a pensar em algo que devamos ter em mente nas análises: o quanto fins-de-semana, férias escolares e feriados (com destaque para alguns feriados em especial como natal e carnaval) mudam o ritmo de edições na Wikipédia? Um trimestre com 2 feriadões comparado com outro sem nenhum pode nos apresentar a primeira vista uma grande variação na atividade simplesmente por causa dessas datas? Se tivermos uma tendência histórica de variação nessas datas podemos criar um "fator de correção" que seja aplicado para evitar distorções na avaliação de qualquer experimento!
- Sobre o Salebot, me chamou bastante atenção essa informação de que ele as vezes fica alguns dias sem operar. Você sabe por que isso acontece?
- Sobre os filtros, eu apenas havia pensado nos que impedem edição, mas de fato os que etiquetam também devem ser analisados! A melhor eficiência deles pode ocasionar no aumento do número de reversões não pelo vandalismo ter crescido, mas simplesmente por indícios dele estarem sendo melhor apontados. Não sei se esses dados podem ser obtidos do banco de dados, mas em caso negativo podemos fazer facilmente um script que acessa as páginas dos filtros, que possuem históricos de alterações e de resultados, e depois cruzar esses dados com os obtidos no banco.
- É, você me convenceu sobre as médias diárias. Seria importante saber o que ocorre nos feriados, feriadões, fins de semana e férias escolares. A gente tem uma ideia geral, mas ter dados reais seria importante até para quantificar e estimar o impacto, avaliar propostas de alteração nas políticas, planejar datas para concursos, etc. Sobre o Salebot, vou pesquisar o motivo. O Alchimista deve saber. CasteloBrancomsg 15h28min de 27 de dezembro de 2012 (UTC)
- Valeu, ficou mais claro agora. CasteloBrancomsg 20h48min de 26 de dezembro de 2012 (UTC)
Lista de bots reversores
editarMesmo correndo risco de estar cometendo uma gafe, até onde eu sei os únicos bots reversores são o Salebot e o Aleph Bot o que torna fácil o trabalho de mensurar a efetividade da redução ou aumento dos vandalismos facilmente identificáveis, que são os revertidos por robôs. [fonte http://pt.wikipedia.org/wiki/Usu%C3%A1rio%28a%29:Salebot#Rob.C3.B4s_especiais_na_Wikip.C3.A9dia_lus.C3.B3fona].OTAVIO1981 (discussão) 20h22min de 26 de dezembro de 2012 (UTC)
- Interessante essa página, OTAVIO. Mas olhando para ela me veio outra questão: Será que os Robôs antiproxies abertos não podem impactar também em nossas informações? Será que o número de vandalismos que são feitos por proxys abertos é relevante? Crang115 (discussão) 21h37min de 26 de dezembro de 2012 (UTC)
Hipótese
editarCrang115, muito bacana sua análise! Você acha possível estruturar (não hoje, claro, mas em perspectiva) ferramenta para que consigamos ler, de maneira sistemática e relativamente simples, o número de reversões e edições feitas distribuídas por estatuto? Uma das hipóteses com que podemos trabalhar é de que, distribuindo melhor o trabalho de reversão, os administradores estariam mais "liberados" para editar. Outra hipótese é de que o trabalho seria melhor distribuído. Em resumo: temos como avaliar 1) benefícios para os grupos administradores e reversores, bem como os benefícios para a comunidade em geral e a Wikipédia (aumento de edições, aumento de conteúdo aceito, mais editores participando?)? --Oona (WMF) (discussão) 20h41min de 26 de dezembro de 2012 (UTC)
- Oona, com certeza uma ferramenta para leitura sistemática desses dados pode ser feita. Vou criar agora na página um tópico sobre "Como coletar dados" e explicarei lá melhor como podemos fazer isso. Para avaliarmos os benefícios basta que a ferramenta gere relatórios e neles tenhamos datas significativas (como por exemplo a duração de um experimento) para que possam ser observadas (ou não) variações nas curvas dos índices analisados a partir da relação causa-efeito. Crang115 (discussão) 22h47min de 26 de dezembro de 2012 (UTC)
Antiproxy aberto e proxy aberto
editarO que são? --Ezalvarenga (discussão) 21h39min de 26 de dezembro de 2012 (UTC)
- Tom, um proxy é um servidor que intermedia a conexão entre clientes e servidores. Um proxy aberto é um proxy que não exige autenticação de seus usuários, permitindo navegação anônima na rede. Se por um lado os proxys abertos são aliados da privacidade, por outro eles facilitam a ação de pessoas mal intencionadas.
- Existe uma política global dos projetos wikimedia de não aceitar edições de proxies abertos. Existe uma política oficial da WP PT sobre tratamento desses casos, e uma página que indica edições efetuadas por proxies abertos.
- Eu fui apresentado hoje aos robôs antiproxies abertos, vendo o link compartilhado pelo Otavio aqui mesmo na página de discussão. Lá vi que temos dois robôs que desempenham essa função. Um deles, o Proxybot descreve em sua página que faz bloqueio de IPs a partir da importação de listas. Assim, levantei aqui a questão de mensurar a atuação desses robôs ao longo do tempo pois algo como uma mudança significativa na qualidade da lista que o robô lê durante o tempo de uma análise pode impactar diretamente no número de vandalismos que deixaram de acontecer. Crang115 (discussão)
- Entendi. Obrigado, Henrique. --Ezalvarenga (discussão) 02h52min de 27 de dezembro de 2012 (UTC)
Pelo o q me lembro os bots antiproxy não bloqueiam faz tempo. Vendo as contribuições do Proxybot o último bloqueio q ele fez foi em outubro de 2010, um tempo antes do período q temos interesse em analisar. Rjclaudio msg 14h43min de 28 de dezembro de 2012 (UTC)
Motivação
editarEssa é uma pergunta para entender melhor um pouco a motivação dos candidatos, que estou fazendo para ambos. Responda se quiser: qual sua principal motivação para trabalhar nessa vaga da Wikimedia Foundation? Abraços! --Ezalvarenga (discussão) 22h05min de 26 de dezembro de 2012 (UTC) P. S. Se for responder, pode responder depois do prazo da tarefa, se for atrapalhar o que está fazendo agora. --Ezalvarenga (discussão) 22h07min de 26 de dezembro de 2012 (UTC)
- Tom, vou aceitar sua proposta de responder melhor a essa questão depois. Mas resumindo a resposta em uma frase: alguns trabalhos engrandecem currículos, esse engrandece biografias. Crang115 (discussão) 23h12min de 26 de dezembro de 2012 (UTC)
- Oi, Henrique. Legal que vai continuar a resposta depois. Fiquei curioso através da resposta parcial! Até! --Ezalvarenga (discussão) 02h24min de 27 de dezembro de 2012 (UTC)
Interagindo
editar- Tópico Movido da Página da tarefa para a página de Discussão Crang115 (discussão) 00h22min de 27 de dezembro de 2012 (UTC)
Oi Crang115! Será que não vale a pena avaliar em que situações um sysop geralmente reverte (majoritariamente vigiadas pois faz mais coisas além disso?) versus as situações em que o reversor as faz (vigiadas + Huggle?). Ou seja, considerando que todos editam no DP igualmente e que os sysops tem n tarefas diferentes enquanto que os reversores "revertem e bloqueiam", isso muda alguma coisa? É relevante saber quantos usam o Huggle na população? E boa sorte! Jbribeiro1 (discussão) 21h20min de 21 de dezembro de 2012 (UTC)
- Oi Jbribeiro1, obrigado pela boa sorte! :) De fato hoje lendo mais sobre o assunto me ocorreu conhecer as taxas de uso do Huggle na população aqui estudada. Seu uso pode estar relacionado a taxas de produtividade (ou não). Eu não havia pensado a fundo sobre a questão das páginas vigiadas. A princípio pensei que as reversões não feitas pelo Huggle seriam oriundas de páginas vigiadas, mas pensando melhor, não posso afirmar isso com certeza e seria bom ter dados para esclarecer esse ponto. Outra coisa me ocorreu foi ver a origem dos vandalismos. Para analisar a eficiência do experimento é relevante saber com qual frequencia o mesmo usuário(ou IP) realiza vandalismos, e, quem (sysop ou reversor) costuma ser o responsável pela primeira reversão e quem costuma realizar as seguintes em um espaço de 24 horas. Acho que dessa forma podemos destrinchar a questão "em que situações um sysop geralmente reverte" trazida por você a um ponto que ela possa ajudar diretamente em nossa tarefa. O que acha? Crang115 (discussão) 02h38min de 22 de dezembro de 2012 (UTC)
Qual a frequência individual dos vândalos?
editarCheguei a fazer essa pergunta em ago2012: w:pt:Wikipédia:Esplanada/geral/Frequência das reversões de mais de uma edição (25ago2012). Rjclaudio msg 14h49min de 28 de dezembro de 2012 (UTC)