Mostrando entradas con la etiqueta procesamiento de datos. Mostrar todas las entradas
Mostrando entradas con la etiqueta procesamiento de datos. Mostrar todas las entradas

domingo, 24 de mayo de 2015

MACROS EN SPSS

Al  igual que para otros lenguajes y bases de datos, SPSS incluye la facilidad de desarrollar macros para automatizar tareas. Usar macros supone no tener que construir comandos cada vez que tiene que hacer un análisis o una transformación de datos.

Según el manual del desarrollador (2000), las ventajas de utilizar macros dentro de la sintaxis de SPSS pueden ser:

1) Agilizar el trabajo de series de comandos similares que se repiten un cierto número de veces en el mismo archivo.

2) Producir salidas de varias sintaxis diferentes con un solo clic, y

3) Cambiar las especificaciones de varios procedimientos de una sola vez.

A modo ilustrativo, exponemos un sencillo ejemplo de una macro que no da cuenta de las verdaderas ventajas de su utilización, pero que nos permite comprender cómo es el funcionamiento de las mismas:



DEFINE Ejmacro (!POSITIONAL !TOKENS 4)).
FREQUENCIES VARIABLES = !1.
!ENDDEFINE.

Ejmacro P0Lugar P1Sexo P2Edad P3Vivo.


En la primera línea de la macro encontramos el comando "DEFINE", en el que se indica que la macro se va a llamar "Ejmacro" y se hace referencia a que la macro es de tipo posicional y que consta de cuatro términos o tokens. Los tokens en este caso son las variables que vamos a analizar.

En la segunda línea vemos el cuerpo de la macro, que en este ejemplo es un comando frecuencies con el que vamos a obtener cuatro tablas, una para cada variable. La expresión que está detrás del igual (“!1”) indica que los tokens van a estar en la siguiente palabra después del nombre de la macro

En la tercera línea, indicamos a SPSS que se ha terminado de definir la macro (“!ENDDEFINE”).

Y en la cuarta mostramos la ejecución de la macro “Ejmacro” para las cuatro variables que tomamos en este caso.




REFERENCIAS

SPSS Inc. (2000) Programming with SPSS Syntax and Macros. Encontrado en: http://szoc.tarstud.hu/upload/szoc_szakirany_programmingwithspsssyntaxandmacros.pdf

viernes, 21 de noviembre de 2014

ANÁLISIS POLÍTICO DE LAS REDES SOCIALES

Imagen de Twitter
2015 va a ser un año electoral en España. Los partidos políticos preparan presupuesto para invertir en sondeos y, dada la creciente importancia de internet y las redes sociales, se interesan por nuevas herramientas que analicen esta realidad.

En ese contexto, la empresa Sensitis ha lanzado el I Barómetro Político de Redes Sociales. El estudio, cuya muestra piloto analizó más de 5 millones de tweets de política lanzados en España en Septiembre y Octubre pasados, se basa en análisis semántico. Para ello, un robot recorre las redes sociales, otorgando un valor positivo, neutro o negativo a cada mensaje.

Evaluar las estrategias de marketing electoral a través de las redes sociales es el objetivo que mueve a los partidos a poner su mirada en este producto. Ya no basta sólo con datos brutos, sino que se demanda un filtrado de la información que vislumbre qué mensajes generan una mayor respuesta.

viernes, 12 de julio de 2013

HERRAMIENTAS ERP

ERPERP (Enterprise Resource Planning) o Planificación de Recursos Empresariales es la denominación genérica de los software que tratan de integrar todas las funciones de una empresa en una única aplicación informática, lo que permite a los diversos departamentos compartir entre ellos la información sobre sus procesos particulares. SAP, JD Edwards y OpenXpertya son algunos ejemplos de herramientas informáticas del tipo ERP.

Los ERP pueden ser diseñados a la medida o estar disponibles comercialmente y adaptarse a los requerimientos particulares de las empresas. La integración entre distintos sistemas se realiza o bien mediante un solo ERP o mediante interfaces que vinculan la información de diversos procesos. Los ERP son un medio para lograr una gestión integral de la información.

Este tipo de aplicaciones permite a las empresas establecer procesos de medición del rendimiento, la productividad, las ventas y la generación de valor en general. Todo ello se inserta en la estrategia de organización sistémica, a la que nos habíamos referido en una entrada anterior.

martes, 28 de mayo de 2013

R-PROJECT PARA SOCIÓLOGOS

Imagen de una salida con R-project
Como se ha señalado en una entrada anterior, R-project es un paquete estadístico libre cada vez más utilizado para analizar datos cuantitativos. Fue desarrollado por Robert Gentleman y Ross Ihaka del Departamento de Estadística de la Universidad de Auckland (Nueva Zelanda) en 1993 y su uso es cada vez mayor por todo el mundo.

Pese a la mayor dificultad de aprendizaje de un programa que funciona por línea de comandos, R ofrece multitud de funcionalidades para la depuración, transformación, análisis y graficación de datos. Lo cual, unido a las ventajas que aporta el carácter no licenciado del mismo, lo convierten en una buena opción para quienes disponen de tiempo para su aprendizaje.

R para sociólogos es un manual en francés del paquete estadístico R orientado para sociólogos. Pretende aportar una fácil comprensión del sistema mediante un lenguaje accesible. Trata de explicar los principales elementos de la aplicación: comandos, objetos, vectores, funciones, variables, etc. Procesos cotidianos como la importación y exportación de datos en otros formatos (como SAS o SPSS), la creación de índices, la recodificación de variables, el pegue de bases de datos, o los análisis bivariados, multivariados y los modelos estadísticos, además de los gráficos, entre otros temas, son explicados en este manual.

Julien Barnier, autor del libro, es miembro del Grupo de Investigación sobre Socialización de la Escuela Normal Superior (ENS) de Lyon.


Para quienes prefieran un manual en español, pueden descargar “Estadística básica con R y R-Commander, de A.J. Arriaza, F. Fernández, M.A. López, M. Muñoz, S. Pérez y A. Sánchez.

miércoles, 17 de abril de 2013

¿QUÉ ES MINERÍA DE DATOS?

Representación de la minería de datos
La minería de datos o data mining es un campo de las ciencias de la computación y se refiere al proceso que pretende determinar patrones comunes para grandes cantidades de información cuantitativa. Se basa en métodos de estadística, aprendizaje automático, gestión de bases de datos, procesamiento de datos e inteligencia artificial.

El objetivo de la minería de datos es extraer información de un conjunto de datos y convertirla en una estructura comprensible para ser usada posteriormente.

Un elemento que puede estar relacionado con la minería de datos es la automatización de procesos de análisis y la actualización de datos y resultados en línea. En este sentido, la minería de datos permite a las organizaciones extraer patrones comunes en un grupo de datos (análisis cluster), la detección de anomalías (datos inesperados o poco usuales) y las relaciones de dependencia existentes entre los casos o registros analizados. El análisis puede ser descriptivo, pero también predictivo.

Para realizar minería de datos de un negocio es precisa la comprensión previa del mismo, la depuración de los datos, la creación de modelos estadísticos y la contextualización de los resultados al sector económico o al territorio en que se inscribe la actividad.

Las técnicas de minería de datos pueden ser utilizadas para analizar la relación con clientes o usuarios, permitiendo la detección de hábitos de consumo, patrones de fuga de clientes, comportamiento en internet, etc. Todo ello genera un importante valor para la toma de decisiones.

La minería de datos se inscribe también en los procesos de integración de información de las diferentes áreas, que ligamos a procesos de sitematización dados dentro de las organizaciones.

viernes, 22 de marzo de 2013

¿QUÉ ES PRE-TEST O PRUEBA PILOTO DE UNA ENCUESTA?

Imagen de un cuestionario a probar
El pre-test o prueba piloto de una encuesta es una actividad que forma parte del diseño de un cuestionario de investigación. Una vez que el instrumento ha sido diseñado, suele elegirse una pequeña muestra (que puede estar entre el 2 y el 10% de los casos, dependiendo del tipo de estudio, la dificultad del instrumento o los perfiles de las personas a entrevistar) para probar su funcionamiento en el campo.

La utilización del pre-test o prueba piloto resulta de mucho interés para el aseguramiento de la validez de la encuesta, es decir, que ésta mida lo que tiene que medir. En la prueba, las investigadoras/es pueden percatarse de si la redacción de las preguntas es adecuada para una buena comprensión de las mismas por parte de las personas entrevistadas. Igualmente, sirve para detectar valores inesperados de las variables, flujos de presuntas erróneos, considerar si la duración del cuestionario es la adecuada o para superar otras dificultades que pueden presentarse en el proceso de comunicación.

Desde aquí proponemos que este ejercicio sea realizado in situ por las personas que trabajan en el diseño del cuestionario, mejor que por los entrevistadores. Desarrollar la prueba de esta forma favorece que los investigadores e investigadoras perciban más claramente las dificultades del instrumento.

El buen desarrollo del pre-test permite la posterior toma de decisiones en cuanto a mejorar la redacción de las preguntas, reducir la extensión de un formulario demasiado largo, mejorar los flujos de preguntas y el orden de las mismas, entre otros objetivos. ¡Aún estamos a tiempo!!

sábado, 2 de marzo de 2013

PSPP, SOFTWARE LIBRE ALTERNATIVA A SPSS

logotipo de PSPP
PSPP es un paquete estadístico en software libre que se inspira en SPSS. La primera versión data de Agosto de 1998 y, aunque todavía se encuentra en desarrollo, las pruebas que hemos realizado con la versión 0.7.9 han sido bastante satisfactorias. El programa puede descargarse de la siguiente dirección. Existen versiones para LINUX, Windows y Mac OS X.

Entre las ventajas señaladas por los desarrolladores, se encuentran las siguientes: sus archivos de datos y sintaxis son compatibles con SPSS; interactúa con otras aplicaciones de software libre, tales como Gnumeric, LibreOffice u OpenOffice; los menús se encuentran en diferentes idiomas, entre ellos el español; permite trabajar con bases de datos de gran tamaño; y cuenta con un manual de usuario.

Aunque el entorno visual de PSPP es muy similar al de SPSS, el primero dispone de un número limitado de funciones a realizar desde los menús del programa. No obstante, hemos podido comprobar que algunas de las funciones que no aparecen en los menús del programa (tales como fundir archivos, reestructurar archivos o contar casos dentro de las variables) pueden ser realizadas a través de la sintaxis.

Tal vez la parte más débil del programa sea la ventana de resultados, que aunque exporta tablas a pdf, txt, html, csv, odt (open document), ps (Post-script), aún no permite editar los cuadros dentro de la aplicación.

No obstante, queremos felicitar desde aquí la iniciativa y contribuir a su difusión, pues permite el trabajo tanto de principiantes como de usuarios avanzados de los paquetes estadísticos. Para un uso avanzado se requiere conocer la sintaxis de SPSS.

viernes, 22 de febrero de 2013

¿QUÉ PAQUETE ESTADÍSTICO ELEGIR: SPSS, SAS O R?

Logos de los tres programas
Para muchos investigadores y estudiantes, se presenta el dilema de elegir en qué paquete estadístico formarse y qué paquete utilizar. Dado que la decisión no es del todo fácil, desde Sociología Necesaria vamos a tratar de ayudarles a elegir entre tres de los programas más utilizados en sociología e investigación social: SPSS, SAS y R Statistics.

Para ello vamos a considerar tres variables importantes: la facilidad de manejo, el costo de la licencia y la posibilidad de automatizar tareas.

En cuanto a la facilidad de manejo, desde aquí recomendamos SPSS. Con unas pocas sesiones se puede trabajar con el programa a un nivel básico: codificar las variables; depurar la información, realizar transformaciones que nos permitan recodificar las variables, obtener índices o construir variables nuevas; analizar estadísticamente los datos; obtener gráficos y modelos; etc. Todo ello en una interfaz de usuario muy sencilla, que permite que los miembros de un equipo de trabajo puedan realizar todas esas tareas básicas sin la ayuda de un experto. Por el contrario, tanto SAS como R se comunican con los usuarios a través de una estructura de comandos (sintaxis) cuyo aprendizaje requiere de una inversión mayor en horas de formación.

Respecto al costo de la licencia, la recomendación es R, que es un software libre de calidad. Puede ser instalado por particulares, instituciones sin ánimo de lucro y empresas de un modo gratuito. Mientras tanto, SPSS y SAS son software’s licenciados, que requieren del pago de una licencia individual o multiusuario que tiene un costo bastante difícil de asumir para estudiantes, trabajadores independientes y pequeñas y medianas organizaciones.

La tercera variable a considerar es la posibilidad de automatizar tareas. Ello permite a las organizaciones aumentar la productividad en sus procesos, al tiempo que reduce costos en la depuración y análisis de muestras repetidas. Merece la pena señalar que la evolución de estos paquetes estadísticos se ha dirigido a la gestión de información no sólo en el ámbito de la investigación, sino en el terreno de procesos de integración de la información disponible en una empresa o una organización. Esta posibilidad de automatizar tareas se realiza desde la sintaxis de los programas y desde módulos adicionales de gestión de la información. Tanto SPSS, como SAS o R utilizan poderosas sintaxis, pero encontramos un aspecto de ellas que puede favorecer la experiencia con el primero de los paquetes: SPSS dispone de una admirable forma de obtener sintaxis desde los menús utilizando el botón “Pegar”. Ello permite obtener comandos en la ventana de sintaxis sin conocer el complejo lenguaje de las mismas. Adicionalmente, SAS cuenta con SAS/AF y SAS Web Report, que son módulos de gestión de reportes que permiten a los no expertos interactuar con la información.

Para resumir, podemos señalar que SPSS aventaja a los otros dos paquetes analizados aquí en la facilidad de manejo y en la posibilidad de automatizar tareas de un modo sencillo, mientras que R cuenta a su favor con el hecho de tener una licencia libre y SAS cuenta con módulos específicos para el diseño de aplicaciones de gestión. En una próxima entrada analizaremos PSPP, un software libre que se asemeja a SPSS.

viernes, 14 de diciembre de 2012

EL ANÁLISIS FACTORIAL, UN COHERENTE MÉTODO DE ANÁLISIS

El análisis factorial fue creado por C.E. Spearman en 1904. Como señalan Santos, Muñoz, Juez y Cortiñas, el análisis factorial parte de la idea de que cuando entre varios fenómenos hay interrelaciones, éstas pueden deberse a que lo que se mide son facetas o manifestaciones de un fenómeno subyacente, no medible ni observable directamente. Estos fenómenos subyacentes se llaman factores.

El análisis factorial es una aproximación a la realidad honesta y poco pretenciosa. Trata de encontrar patrones que no se ven, que no están en los datos recogidos.

Si bien puede ser utilizada para verificar una hipótesis de trabajo, este tipo de análisis se usa también para justificar la toma de decisiones metodológicas que se llevan a cabo durante el análisis, como la agrupación de variables entre las cuales existe un factor común. Igualmente, el análisis factorial es utilizado para indagar en la validez de las variables, es decir, si en el diseño realizado las variables miden lo que tienen que medir.

Con ayuda del programa SPSS podemos llevar a cabo análisis factorial de nuestros datos. Para mejorar la interpretación del análisis factorial se suele utilizar el procedimiento de rotación de factores de Varimax.

martes, 11 de diciembre de 2012

POSICIONAMIENTO WEB, UNA NUEVA FORMA DE INVESTIGAR EL MERCADO

Desde hace más de un año venimos interesándonos por el posicionamiento web. Se trata de lograr que los usuarios de Internet encuentren un determinado sitio web en sus búsquedas. Para ello, existen algunas recomendaciones para elegir el título o las palabras clave más adecuadas, además de colocar títulos a las fotografías o los vídeos, buscar enlaces y una gran cantidad de acciones que se pueden implementar. Pero lo que tal vez más acerca el posicionamiento web a la investigación de mercados es el estudio del tráfico y su semántica. Herramientas como Google Analytics nos brindan una gran cantidad de información acerca del perfil de las personas que visitan nuestras páginas: número de visitas, ubicación geográfica, buscadores utilizados, palabras que contienen las búsquedas, sub-dominios más visitados dentro de la página, tiempo de permanencia en la página, direcciones de salida, porcentaje de rebote, etc. 

Toda esta información puede orientarnos para elegir la semántica más adecuada para atraer público desde los buscadores. Al tiempo, nos ayuda a darnos cuenta de que cuanto más originales sean nuestros contenidos más fácil será encontrar nuevos visitantes.

Como ven, no es sólo marketing sino pura investigación incorporada a la gestión del conocimiento. Investigación cualitativa y cuantitativa.

sábado, 20 de octubre de 2012

¿QUÉ ES VALIDEZ ESTADÍSTICA?

La validez estadística se refiere a que una encuesta o un instrumento estadístico mida lo que tiene que medir. 

No basta con que la muestra sea representativa. La forma de preguntar o de recoger la información influye en la validez de la medición. En el diseño del cuestionario está implicada la validez. Se trata de que las preguntas hagan referencia a las variables que se desea indagar y no a otras. Por ejemplo, para conocer si las empresas implementan una estrategia de coordinación de actividades con clientes a través de TIC’s, tal vez no sea lo más adecuado para la validez hacer esta pregunta directamente. Posiblemente será preferible preguntar si utilizan determinadas herramientas informáticas.


imagen de un cuestionario

La validez se diferencia de la representatividad. En una encuesta, la medición de una variable puede ser representativa cumpliendo las reglas de la distribución muestral pero, al tiempo, no cumplir con los requisitos de validez.

Piergiorgio Corbetta, en “Metodología y Técnicas de investigación Social” (2003, pp. 108-110), señala dos estrategias para controlar la validez. La primera, llamada validez de contenido, se refiere a que el indicador o los indicadores cubren de forma efectiva el significado del concepto. La segunda, llamada validez por criterio, analiza la correspondencia entre el indicador y un criterio externo que por algún motivo considera correlacionado con el concepto (ya sea este criterio externo otro indicador o un hecho objetivo).


REFERENCIAS


Corbetta, P. (2007): Metodología y técnicas de investigación social. Madrid: McGraw Hill.

martes, 25 de septiembre de 2012

VENTAJAS DE UTILIZAR LA SINTAXIS DE SPSS (III) - LA TRANSFORMACIÓN DE LOS DATOS



Imagen del software SPSS
Para un buen análisis de los datos se requiere un buen trabajo de transformación de los mismos. Recodificar y crear nuevas variables a partir de las variables existentes es una tarea que nos permitirá un mejor aprovechamiento de la información.

En ocasiones, nuestras bases de datos proceden de software’s de captura diferentes a SPSS; otras veces, manejamos bases de datos que van añadiendo registros periódicamente. Para ambas situaciones, almacenar las sintaxis de nuestras transformaciones aportará productividad a nuestro trabajo.

Una buena estrategia consiste en almacenar todas las sintaxis de transformación de los datos en una sola, que en un solo clic nos permita realizar todas esa operaciones. A su vez, dicha sintaxis de transformación puede unirse a la sintaxis de depuración de los datos.

VENTAJAS DE UTILIZAR LA SINTAXIS DE SPSS (II) - LA DEPURACIÓN DE LOS DATOS



Imagen de una sintaxis de SPSS
La depuración de los datos es el control de calidad de la información recogida mediante una encuesta o cualquier tipo de base de datos. Tradicionalmente, la depuración de los datos ha sido una de las fases en la realización de una encuesta, que sigue a la fase de grabación de datos. Pero esto no tiene porqué seguir siendo así.

En Sociología Necesaria desarrollamos la depuración de los datos al mismo tiempo que nos van llegando éstos, ya sea a través de grabación o de dispositivos de diligenciamiento. De ese modo, podemos detectar y corregir inmediatamente errores en cualquiera de estos dos procesos.

¿Cómo conseguimos dar este paso hacia la calidad? Incorporando operaciones de depuración y búsqueda de inconsistencias a través de sintaxis de SPSS. En dichas sintaxis podemos incluir todos los filtros de consistencia que deseémos, incluyendo un listado (summarize) con los números de formulario, variables inconsitentes y nombres de los encuestadores y/o grabadores.

¿Es posible en la depuración de los datos reducir costos y aumentar la calidad al mismo tiempo? Como hemos explicado, sí es posible.

VENTAJAS DE UTILIZAR LA SINTAXIS DE SPSS (I)

Logotipo de SPSS
Los inicios de la utilización de SPSS para análisis de encuestas y procesamiento de datos estuvieron ligados al conocimiento de la sintaxis. La sintaxis en SPSS es un lenguaje informático en el que enviábamos al programa todas las instrucciones necesarias, desde la definición de los datos hasta la generación de cuadros estadísticos. Sólo a partir de la versión 6, lanzada en 1992, el software empezó a orientarse hacia los procedimientos de usuario.

Hoy en día son pocos los que utilizan la sintaxis de SPSS. Unos, por jóvenes, nunca llegaron a requerir su uso para interactuar con el programa. Otros, que sí la necesitaron alguna vez, acabaron olvidándola en estos veinte años. Sólo unos pocos seguimos utilizándola como estrategia de productividad. Y es que la sintaxis nos permite automatizar procesos de depuración, recodificación de variables y tabulación. ¿Se imaginan el aporte de integrar en una sintaxis varios procesos de SPSS a la vez?