{"id":61,"date":"2008-03-23T02:00:33","date_gmt":"2008-03-23T01:00:33","guid":{"rendered":"http:\/\/elbonia.cent.uji.es\/jordi\/prensa-conferencias-etc\/hit-parade-las-estadisticas-en-el-web\/"},"modified":"2011-02-21T17:22:50","modified_gmt":"2011-02-21T16:22:50","slug":"hit-parade-las-estadisticas-en-el-web","status":"publish","type":"post","link":"https:\/\/elbonia.cent.uji.es\/jordi\/2008\/03\/23\/hit-parade-las-estadisticas-en-el-web\/","title":{"rendered":"Hit Parade: las estad\u00edsticas en el Web"},"content":{"rendered":"<p align=\"center\"><strong>Hit Parade: las estad\u00edsticas en el Web<\/strong><br \/>\nJordi Adell<br \/>\n<strong>Net Conexi\u00f3n n\u00ba 6<\/strong>, 90-93 (1a. parte) y  <strong>Net Conexi\u00f3n n\u00ba 7<\/strong>, 80-83 (2a. parte)<\/p>\n<p>Alguien ha afirmado que en la red hay &#8216;informaci\u00f3n, desinformaci\u00f3n y ahora estad\u00edsticas de Web&#8217;. Uno de los \u00edtems casi obligados de la primera p\u00e1gina de un servidor WWW es un &#8216;link&#8217; a sus estad\u00edsticas de acceso. En ocasiones se nos muestra directamente un contador de accesos. \u00bfA qu\u00e9 viene todo este inter\u00e9s por las estad\u00edsticas?<\/p>\n<p>Las motivaciones son diversas. En primer lugar, obtener estad\u00edsticas del uso de un servidor Web es parte del trabajo del administrador de la m\u00e1quina, que necesita saber cuantos bits se mueven de un sitio a otro, a qu\u00e9 horas, desde qu\u00e9 m\u00e1quinas se produce la conexi\u00f3n y tiene que vigilar la integridad del sistema a su cargo. Tambi\u00e9n  se puede extraer informaci\u00f3n interesante para el responsable de la informaci\u00f3n (por ejemplo, qu\u00e9 p\u00e1ginas son las m\u00e1s consultadas, c\u00f3mo navegan los usuarios por el espacio de la informaci\u00f3n, desde qu\u00e9 URLs llegan los usuarios al servidor o si hay enlaces hipertextuales err\u00f3neos.<\/p>\n<p>Adem\u00e1s de esta perspectiva, centrada en la mejora de la gesti\u00f3n, actualmente han comenzado a aparecer otras motivaciones: las relacionadas con la evaluaci\u00f3n de la rentabilidad. Por ejemplo, una empresa que monta un servidor necesita saber cuantas veces son consultadas sus p\u00e1ginas, cu\u00e1les lo son m\u00e1s y por qu\u00e9 usuarios. Un organismo p\u00fablico que ofrece informaci\u00f3n y servicios a los ciudadanos a trav\u00e9s de la red debe justificar la inversi\u00f3n de fondos p\u00fablicos. Una agencia de publicidad quiere saber qu\u00e9 p\u00e1ginas son las m\u00e1s vistas en la Internet para aconsejar a sus clientes sobre donde colocar sus anuncios.<\/p>\n<p>Esta orientaci\u00f3n est\u00e1 cobrando cada d\u00eda mayor importancia ya que es previsible que en el futuro la publicidad sea una de las formas habituales de financiaci\u00f3n de servicios gratuitos para los usuarios (e.g., Yahoo, Lycos, etc.). Los anunciantes quieren saber el impacto de sus insertos, los publicitarios necesitan cifras para comparar la efectividad de la inversi\u00f3n en Internet respecto a los medios tradicionales. Tambi\u00e9n quieren conocer datos demogr\u00e1ficos de sus usuarios. Cada vez tiene m\u00e1s fuerza la idea de que es necesario no s\u00f3lo m\u00e9todos rigurosos de registro, sino tambi\u00e9n sistemas fiables e independientes de control de la difusi\u00f3n, como los que existen para las publicaciones impresas o la TV.<\/p>\n<p>Sin embargo, los protocolos que sustentan el WWW, acordes con la filosof\u00eda con la que se desarroll\u00f3 como sistema de informaci\u00f3n entre cient\u00edficos, no permiten el control de la actividad de los usuarios al que estaban acostumbrados los servicios comerciales en l\u00ednea, ni la recogida de datos demogr\u00e1ficos (a no ser que se obligue al usuario a rellenar un formulario la primera vez que entra en un servidor y a identificarse cada nueva visita, y todos sabemos el efecto de estas medidas). Los registros de actividad del Web est\u00e1n centrados en la administraci\u00f3n del sistema m\u00e1s que en obtener informaci\u00f3n o controlar a los usuarios. As\u00ed es la Internet. Pero las cosas est\u00e1n cambiando: la presi\u00f3n comercial ha acelerando la investigaci\u00f3n en este campo y ya existen empresas que ofrecen soluciones &#8216;ad hoc&#8217;. El World-Wide Web Consortium (W3C) trabaja en nuevos est\u00e1ndares que, adem\u00e1s, garanticen los derechos de los ciudadanos de la red.<\/p>\n<p>En este art\u00edculo se describen los datos que un servidor WWW registra sobre su actividad y c\u00f3mo convertirlos en informaci\u00f3n significativa. Tambi\u00e9n se da cuenta de algunas iniciativas para obtener m\u00e1s informaci\u00f3n de los usuarios sin conculcar sus derechos y de la inminente creaci\u00f3n de servicios independientes y fiables de control de la audiencia, a semejanza de lo que ocurre con otros medios como los audiovisuales o impresos.<\/p>\n<h2>Los ficheros de registro<\/h2>\n<p>Cuando interactuamos con un servidor HTTP mediante nuestro cliente suceden cosas en la trastienda. Las acciones que realiza el servidor en relaci\u00f3n con el registro de su actividad son, resumidamente, las siguientes.<\/p>\n<p>Para cada fichero enviado al cliente (esto es, cada p\u00e1gina HTML y cada elemento no textual que contiene, como botones, separadores, iconos, etc. ), el servidor escribe una l\u00ednea en un fichero de registro de accesos (&#8216;access log&#8217;). La informaci\u00f3n que consigna en dicha l\u00ednea usualmente sigue las especificaciones del &#8216;Common Log File Format&#8217; (v\u00e9ase recuadro). Si la transacci\u00f3n falla, algunos servidores escriben la l\u00ednea en otro fichero: el registro de errores (&#8216;error log&#8217;). Algunos servidores, adem\u00e1s, registran el tipo de aplicaci\u00f3n que efect\u00faa cada petici\u00f3n (&#8216;agent log&#8217;) y el URL desde el que los usuarios &#8216;llegan&#8217; a la p\u00e1gina en cuesti\u00f3n (&#8216;referrer log&#8217;). Aparte, si rellenamos un formulario, esta informaci\u00f3n tambi\u00e9n se suele almacenar, aunque en cada caso la soluci\u00f3n queda a discreci\u00f3n del autor del gui\u00f3n o aplicaci\u00f3n que los procesa. Pero analicemos m\u00e1s detenidamente cada uno de estos ficheros de registro.<\/p>\n<p>El servidor HTTP del NCSA, por ejemplo, mantiene los siguientes ficheros de registro:<\/p>\n<h3>Registro de acceso (acces log)<\/h3>\n<p>Aunque puede cambiar el nombre, casi todos los servidores mantienen un fichero en el que escriben una linea por cada &#8216;hit&#8217; (v\u00e9ase el glosario) o transacci\u00f3n que se realiza, es decir, cada petici\u00f3n de un usuario y el resultado de \u00e9sta. Se registra el nombre o n\u00famero IP de la m\u00e1quina solicitante, la fecha y la hora, el comando, el c\u00f3digo de estatus y la cantidad de bytes transferidos. El formato de este fichero se denomina &#8216;Common Log File Format&#8217; (v\u00e9ase recuadro para una descripci\u00f3n detallada) y ha sido consensuado entre los desarrolladores de servidores (lo cual quiere decir que, naturalmente, no todos los servidores siguen este formato).<\/p>\n<h3>Registro de errores (error log)<\/h3>\n<p>Algunos servidores filtran los mensajes de error a un segundo fichero a fin de facilitar su an\u00e1lisis.<\/p>\n<p>Las siguientes l\u00edneas son un ejemplo (ficticio) de entradas en el registro de error:<\/p>\n<pre>[Thu Feb 29 00:17:43 1996] httpd: send aborted for 255.255.255.255\r\n\r\n[Thu Feb 29 00:21:25 1996] httpd: send aborted for maquina.dominio.es\r\n\r\n[Thu Feb 29 00:38:49 1996] httpd: access to \/web\/no_server.html failed  for 204.19.31.129, reason: file does not exist from http:\/\/www.uji.es\/mapes\/navarra.html\r\n\r\n[Thu Feb 29 00:38:52 1996] httpd: send aborted for otro.dominio.edu<\/pre>\n<p>As\u00ed, la primera l\u00ednea indica que el jueves 29 de febrero a las cero horas, diecisiete minutos y cuarenta y tres segundos se abort\u00f3 un comando &#8216;send&#8217; desde el n\u00famero IP 255.255.255.255 (ficticio). En la tercera l\u00ednea, en cambio, se informa que un usuario ha pedido un fichero que no existe. Es necesario corregir el error (cambiando de sitio el fichero &#8216;\/web\/no_server.html&#8217; o el &#8216;link&#8217; en <url> ). Este es el tipo de informaci\u00f3n \u00fatil para los gestores del contenido del servidor.<\/url><\/p>\n<h3>Registro de referencias (referrer log)<\/h3>\n<p>Tambi\u00e9n existe en ciertos servidores un registro de los URLs desde los que vienen a sus p\u00e1ginas los usuarios. Sin embargo, no todos los clientes proporcionan esta informaci\u00f3n. El formato de dicho registro (en el servidor httpd NCSA, que usamos como ejemplo en todo el art\u00edculo) es: URL origen -&gt; URL destino.<\/p>\n<p>Ejemplo:<\/p>\n<pre>http:\/\/www.w3.org\/hypertext\/DataSources\/WWW\/Servers.html -&gt; \/spain_www.html\r\n\r\nhttp:\/\/guide-p.infoseek.com\/WW\/NS\/tables\/DB?C923,510&amp;db=78 -&gt; \/bbedit-html-extensions.html\r\n\r\nhttp:\/\/www.compuserve.com:80\/hot\/wide.html -&gt; \/\r\n\r\nhttp:\/\/www.yahoo.com\/Regional\/Countries\/Spain\/ -&gt; \/spain_www.html\r\n\r\nhttp:\/\/www.uji.es\/spain_www.html -&gt; \/mapes\/spain_info.html<\/pre>\n<p>La primer l\u00ednea indica que un cliente ha recuperado el fichero &#8216;\/spain_www.html&#8217; de nuestro servidor siguiendo el &#8216;link&#8217; que existe en <url>. La segunda l\u00ednea indica que procede de una b\u00fasqueda en InfoSeek y la cuarta una entrada en el cat\u00e1logo de Yahoo. Computar desde donde llegan los usuarios proporciona informaci\u00f3n sobre qu\u00e9 referencias a nuestras p\u00e1ginas existen y cuales son las m\u00e1s utilizadas. <\/url><\/p>\n<h3>Registro de agentes de usuario<\/h3>\n<p>Finalmente, algunos servidores registran qu\u00e9 agente de usuario se ha utilizado en cada transacci\u00f3n. Este fichero nos permite averiguar qu\u00e9 clientes usan predominantemente los usuarios, aunque no deben dise\u00f1arse p\u00e1ginas que dejen ciegos a los usuarios que no utilicen nuestro browser favorito.<\/p>\n<h2>An\u00e1lisis de los registros<\/h2>\n<p>Existen m\u00faltiples herramientas para analizar los ficheros de registro de acceso, extraer estad\u00edsticas, realizar informes (en html y texto) e incluso hacer gr\u00e1ficos (v\u00e9ase, para una lista, <a href=\"http:\/\/www.yahoo.com\/Computers_and_Internet\/Internet\/World_Wide_Web\/HTTP\/Servers\/Log_Analysis_Tools\/\">&lt;URL:http:\/\/www.yahoo.com\/Computers_and_Internet\/Internet\/World_Wide_Web\/HTTP\/Servers\/Log_Analysis_Tools\/&gt;<\/a> y <a href=\"http:\/\/union.ncsa.uiuc.edu\/HyperNews\/get\/www\/log-analyzers.html\">&lt;URL:http:\/\/union.ncsa.uiuc.edu\/HyperNews\/get\/www\/log-analyzers.html&gt;<\/a>). Como en otros \u00e1mbitos del Web, existen herramientas gratuitas, que proporcionan la informaci\u00f3n b\u00e1sica que necesita un administrador de sistema, y productos comerciales, sofisticados y complejos que permiten an\u00e1lisis m\u00e1s finos (aunque algunos en base a asunciones m\u00e1s que dudosas).<\/p>\n<p>Sin embargo, ambos tipos de herramientas trabajan con la misma materia prima: los ficheros de registro del servidor. Por consiguiente no hay nada que pueda hacer una herramienta de pago que un administrador h\u00e1bil no pueda obtener con algunas aplicaciones comunes (una hoja de c\u00e1lculo, un paquete estad\u00edstico y una base de datos relacional) y un poco de trabajo. Las herramientas de an\u00e1lisis de registros realizan informes concisos o ultra-detallados por periodos temporales determinados (horarios, diarios, semanales, mensuales, etc.), siguiendo el \u00e1rbol de directorios o por paginas (filtrando ficheros en funci\u00f3n de sus extensiones, e.g., .gif, o a conveniencia del administrador). Tambi\u00e9n es posible obtener tablas del n\u00famero de accesos por &#8216;host&#8217; o por dominio y la combinaci\u00f3n de todos los anteriores.<\/p>\n<p>Las herramientas comerciales realizan an\u00e1lisis diacr\u00f3nicos agregando datos o unen registros de varios servidores, combinan todos los ficheros de registro y, realizando algunas asunciones sobre el comportamiento t\u00edpico de los usuarios, intentan definir qu\u00e9 hacen \u00e9stos en una visita o sesi\u00f3n (v\u00e9ase el glosario), detectan visitantes habituales, identifican robots y ara\u00f1as y, en alg\u00fan caso, utilizando una base de datos de dominios Internet, identifican la organizaci\u00f3n (y su localizaci\u00f3n geogr\u00e1fica). Todos estos datos se tabulan y se incluyen en informes estandarizados o a medida.<\/p>\n<p>Existen herramientas para analizan los otros ficheros de registro como el de referencias, el de errores o el de agentes de usuario. El primero es \u00fatil para determinar &#8216;desde d\u00f3nde nos llegan los usuarios&#8217;. El registro de errores es la historia de transacciones fallidas del servidor y, por tanto, permiten detectar fallos de los usuarios (peticiones incorrectas o URLs inexistentes) y tambi\u00e9n errores en los &#8216;links&#8217; de nuestras p\u00e1ginas (como callejones sin salida, enlaces que han perdido su destino, etc.). Tambi\u00e9n registra los casos de env\u00edos abortados por el usuario (\u00bfTal vez esa p\u00e1gina tenga demasiadas ilustraciones y los usuarios, desesperados, pulsen el bot\u00f3n de stop?). Los intentos fallidos de usuarios malintencionados tambi\u00e9n aparecen en el log de errores.<\/p>\n<p>Una alternativa al &#8216;h\u00e1gaselo Ud. mismo&#8217; son las empresas dedicadas al c\u00e1lculo de estad\u00edsticas. Normalmente reciben por Internet los registros de sus clientes (en alg\u00fan caso empleando protocolos seguros) y, utilizando aplicaciones desarrolladas &#8216;ad hoc&#8217;, elaboran informes a medida del cliente. En los informes incluyen an\u00e1lisis y valoraciones de la informaci\u00f3n.<\/p>\n<h2>La interpretaci\u00f3n de las estad\u00edsticas<\/h2>\n<p>Antes hemos afirmado que los registros de actividad de los servidores est\u00e1n centrados especialmente en las necesidades de los administradores de las m\u00e1quinas (qu\u00e9 m\u00e1quina se ha conectado, a qu\u00e9 hora y cu\u00e1ntos bits han ido de aqu\u00ed para all\u00e1,..). No se hicieron pensando que, alg\u00fan d\u00eda, un ejecutivo de marketing pudiera preguntarse por la efectividad de contratar un anuncio en un servidor o en otro. En este sentido, para interpretar adecuadamente las tablas e informes que generan las herramientas de an\u00e1lisis de registros es necesario tener en cuenta, como m\u00ednimo, los siguientes puntos:<\/p>\n<ol>\n<li>1. Los hits representan transacciones de ficheros. Algunos ficheros no contienen informaci\u00f3n (los iconos o botones de navegaci\u00f3n, separadores, adornos, logos, etc.). Un hit NO es un usuario que ha le\u00eddo una p\u00e1gina.<\/li>\n<li>2. Los proxies con cach\u00e9 falsean a la baja las consultas reales a una p\u00e1gina al almacenar copias locales.<\/li>\n<li>3. Los n\u00famero IP (o nombres de dominio) no representan personas, s\u00f3lo se trata de hardware. Desde un \u00fanico n\u00famero (o unos pocos) pueden usar un servidor muchas personas diferentes.<\/li>\n<li>4. La navegaci\u00f3n produce falsos hits en los registros. Un usuario puede volver a una p\u00e1gina para seguir otro enlace que figure en \u00e9sta. Esto no significa que la haya le\u00eddo tres veces en cinco minutos.<\/li>\n<li>5. No puede estimarse de modo fiable el tiempo que un usuario dedica a una p\u00e1gina o a una sesi\u00f3n. Qui\u00e9n sabe qu\u00e9 demonios est\u00e1 haciendo delante de la pantalla de su ordenador.<\/li>\n<li>6. Los robots pueden falsear las estad\u00edsticas: no son usuarios reales, s\u00f3lo es software que recorre sistem\u00e1tica y peri\u00f3dicamente todo el servidor. En servidores de baja carga pueden representar un alto porcentaje de los &#8216;hits&#8217;.<\/li>\n<li>7. Los &#8216;mirrors&#8217; incontrolados de recursos falsean a la baja las estad\u00edsticas.<\/li>\n<\/ol>\n<p>Con todos estos elementos, se comprende que extrapolar conclusiones sobre la conducta de las personas en base a los ficheros de registro debe hacerse, cuando menos, con mucha cautela.<\/p>\n<h2>Otra v\u00eda: los contadores<\/h2>\n<p>Los contadores de p\u00e1ginas son tan populares en el Web (v\u00e9ase, por ejemplo <a href=\"http:\/\/www.yahoo.com\/Computers_and_Internet\/Internet\/World_Wide_Web\/Programming\/Access_Counts\/\">&lt;URL: http:\/\/www.yahoo.com\/Computers_and_Internet\/Internet\/World_Wide_Web\/Programming\/Access_Counts\/&gt;<\/a>), que incluso hay p\u00e1ginas de humor sobre el tema (<a href=\"http:\/\/www.yahoo.com\/Computers_and_Internet\/Internet\/World_Wide_Web\/Programming\/Access_Counts\/Humor\/\">&lt;URL: http:\/\/www.yahoo.com\/Computers_and_Internet\/Internet\/World_Wide_Web\/Programming\/Access_Counts\/Humor\/&gt;<\/a>). Existen infinidad de versiones. Su proliferaci\u00f3n se debe a que muchas personas mantienen p\u00e1ginas personales en servidores Web pero no tienen acceso a los ficheros de registro del servidor.<br \/>\nUn contador muestra din\u00e1micamente el n\u00famero de &#8216;hits&#8217; que recibe una p\u00e1gina determinada. Cada &#8216;hit&#8217; incrementa el contador en una unidad y mediante una serie de ficheros GIF que representan cada uno de los 10 d\u00edgitos, se muestra en la p\u00e1gina el resultado. Existen contadores para instalarse uno mismo y servidores que ofrecen gratuitamente el servicio rellenando un formulario e incluyendo unas l\u00edneas HTML en la p\u00e1gina.<\/p>\n<h2>La necesidad de un control de difusi\u00f3n independiente<\/h2>\n<p>El c\u00e1lculo de estad\u00edsticas y el an\u00e1lisis de los registros de actividad son tareas habituales de los administradores del sistema. Pero la publicidad ha llegado al Web. Para bien (ayuda a mantener servicios gratuitos para el usuario) y para mal (fastidia al usuario retardando la carga de las p\u00e1ginas) est\u00e1 aqu\u00ed y est\u00e1 para quedarse.<\/p>\n<p>La importancia (y la necesidad) de un sistema de control de difusi\u00f3n independiente en el Web se comprende r\u00e1pidamente si atendemos al hecho de que los servicios que incluyen publicidad est\u00e1n cobr\u00e1ndola en funci\u00f3n de los &#8216;hits&#8217; que reciben. As\u00ed por ejemplo, seg\u00fan Bussines Week (12\/2\/96), Yahoo carga 2 centavos de d\u00f3lar por &#8216;hit&#8217; a los anunciantes. Yahoo recibe 7 millones de &#8216;hits&#8217; diarios de 1 mill\u00f3n de usuarios diferentes. InfoSeek realiza cerca de 7 millones de b\u00fasquedas cada d\u00eda y Altavista 3 millones. Se estima que el mercado publicitario del Web crecer\u00e1 desde los 37 millones de d\u00f3lares facturados en 1995 hasta m\u00e1s de 700 en 1998 (Forrester Research, Inc., citado en Bussines Week).<\/p>\n<p>Sin embargo, ya lo hemos dicho, el dise\u00f1o de los protocolos en uso en el WWW no facilita la tarea de los publicitarios y expertos en marketing. Seg\u00fan Tim Stehle, de Knight-Ridder Inc., (<a href=\"http:\/\/www.infi.net\/maa\/stehle.html\">&lt;URL:http:\/\/www.infi.net\/maa\/stehle.html&gt;<\/a>) lo que los expertos en marketing quieren saber de los anuncios en el Web es cuanta gente ve los mensajes publicitarios, qu\u00e9 parte atrae m\u00e1s su atenci\u00f3n, c\u00f3mo responden a la publicidad, c\u00f3mo son las personas a las que llega el mensaje, etc. Los expertos quieren cifras fiables para comparar entre &#8216;sites&#8217; y analizar las cifras a lo largo del tiempo. Tambi\u00e9n necesitan sistemas de auditoria que, al igual que sucede con las publicaciones impresas, sean fiables y cre\u00edbles, con una metodolog\u00eda contrastada y realizadas por terceras partes reputadas.<\/p>\n<p>Los usuarios, por otra parte, quieren que los sistemas de seguimiento no sean intrusivos o fastidiosos y, lo que es m\u00e1s importante, suficientes garant\u00edas sobre el uso de la informaci\u00f3n que se puede recolectar en los servicios de informaci\u00f3n sobre sus datos demogr\u00e1ficos, gustos y costumbres (\u00bfrecuerdan una versi\u00f3n &#8216;indiscreta&#8217; de Netscape que &#8216;h\u00e1bilmente interrogada&#8217; por un sencillo &#8216;script&#8217; CGI enviaba toda la informaci\u00f3n de configuraci\u00f3n que el usuario hab\u00eda introducido inocentemente? Esto es un ejemplo de lo que no se debe hacer). En este sentido, el W3C est\u00e1 estudiando diversas propuestas t\u00e9cnicas para conciliar los intereses leg\u00edtimos de los vendedores con los derechos inalienables de los usuarios. Los requerimientos son: reunir datos demogr\u00e1ficos y de impacto de la informaci\u00f3n, conocer la conducta de los usuarios (seguimiento o<br \/>\n&#8216;tracking&#8217;) e identificar usuarios y sesiones permanentemente. Por parte de los usuarios, es necesaria la garant\u00eda de la privacidad. Esto es, l\u00edmites legales y t\u00e9cnicos a la combinaci\u00f3n de informaci\u00f3n de diferentes fuentes, garant\u00edas del uso de la informaci\u00f3n demandada al usuario y juego limpio (por ejemplo, que los agentes de usuario no proporcionen informaci\u00f3n sin advertir al usuario o que \u00e9ste pueda escoger qu\u00e9 informaci\u00f3n proporciona en cada caso, por ejemplo, a traves del uso de diversos perfiles). Las diferentes propuestas t\u00e9cnicas pueden verse en <a href=\"http:\/\/www.w3.org\/pub\/WWW\/Demographics\/Proposals.html\">&lt;URL:http:\/\/www.w3.org\/pub\/WWW\/Demographics\/Proposals.html&gt;<\/a> y <a href=\"http:\/\/www.w3.org\/pub\/WWW\/Demographics\/Strawman.html\">&lt;URL:http:\/\/www.w3.org\/pub\/WWW\/Demographics\/Strawman.html&gt;<\/a>.<\/p>\n<p>Por su parte, CASIE (&#8216;Coalition for Advertising Supported Information and Entertainment&#8217;), un proyecto de las asociaciones nacionales norteamericanas de agencias de publicidad y de anunciantes, ha elaborado un conjunto de principios sobre la medida de audiencias en medios interactivos (<a href=\"http:\/\/elbonia.cent.uji.es\/jordi\/wp-admin\/%3Chttp:\/\/www.commercepark\/com\/AAAA\/bc\/casie\/guide.html%3E\">URL:&lt;http:\/\/www.commercepark\/com\/AAAA\/bc\/casie\/guide.html&gt;<\/a>). Entre las recomendaciones figura la necesidad de que las medidas de audiencia sean realizadas por terceras partes, y no por el medio que est\u00e1 siendo auditado, a fin de garantizar la objetividad, la independencia y el rigor t\u00e9cnico. Las medidas internas, en todo caso, deben ser certificadas por terceras partes especializadas e independientes.<\/p>\n<p>Mientras tanto, se est\u00e1n creando \u00e1reas de negocios nuevas: diversas firmas comerciales est\u00e1n introduciendo sistemas que permiten el seguimiento de usuarios y el posterior an\u00e1lisis de sus pautas de comportamiento (SiteTrack <a href=\"http:\/\/www.cortex.net\">&lt;URL:http:\/\/www.cortex.net&gt;<\/a>) (v\u00e9ase recuadro sobre nuevos desarrollos), o proporcionan perfiles demogr\u00e1ficos de usuarios que lo introducen en un servidor a cambio de una clave de acceso para todos los servicios de informaci\u00f3n que lo requieren (I\/PRO <a href=\"http:\/\/icode.ipro.com\">&lt;URL:http:\/\/icode.ipro.com&gt;<\/a>), cuentan los &#8216;hits&#8217; mediante la inserci\u00f3n de un peque\u00f1o logo en la p\u00e1gina (IAB <a href=\"http:\/\/www.intermet-audit.com\">&lt;URL:http:\/\/www.intermet-audit.com&gt;<\/a>), realizan el an\u00e1lisis de registros de acceso que se les remiten encriptados (NetCount <a href=\"http:\/\/www.netcount.com\/Product\/overview.html\">&lt;URL:http:\/\/www.netcount.com\/Product\/overview.html&gt;<\/a>) o desarrollan y venden herramientas sofisticadas de an\u00e1lisis de 4<br \/>\n&#8216;logs&#8217; (Inters\u00e9 <a href=\"http:\/\/www.interse.com\">&lt;URL:http:\/\/www.interse.com&gt;<\/a> o WebReporter de Open Market <a href=\"http:\/\/www.openmarket.com\/products\/webreport.html\">&lt;URL:http:\/\/www.openmarket.com\/products\/webreport.html&gt;<\/a>).<\/p>\n<p>Del administrador del sistema, que quer\u00eda saber a qu\u00e9 hora se producen los picos de acceso, a los ejecutivos de publicidad, que quieren estad\u00edsticas auditadas, comparativas entre diferentes &#8216;sites&#8217; y perfiles demogr\u00e1ficos de los usuarios, ha pasado poco tiempo. En los pr\u00f3ximos meses, si se cumple las promesas sobre las transacciones comerciales en el Web, cuando entremos por segunda vez en un servidor sabr\u00e1 hasta lo que hemos desayunado por la ma\u00f1ana. Al tiempo.<\/p>\n<h3>Recuadros:<\/h3>\n<table border=\"1\">\n<tr>\n<td>\n<h3 align=\"center\">El \u00abCommon Log File Format\u00bb<\/h3>\n<\/td>\n<\/tr>\n<tr>\n<td>El \u00abCommon Log File Format\u00bb es el formato que siguen la mayor parte de los servidores http para mantener un registro de accesos. Cada entrada, una l\u00ednea de texto en un fichero, contiene los siguientes campos:<\/p>\n<ol>\n<li>Nombre del host remoto o n\u00famero IP si no puede resolverse en el DNS.<\/li>\n<li>Identificaci\u00f3n del usuario (a menudo no implementado y sustituido por &#8216;-&#8216;).<\/li>\n<li>Autentificaci\u00f3n del usuario (sustituido por &#8216;-&#8216; si no es una p\u00e1gina que requiera autentificaci\u00f3n).<\/li>\n<li>Fecha y hora.<\/li>\n<li>Petici\u00f3n del cliente .<\/li>\n<li>C\u00f3digo de estado HTTP retornado al cliente.<\/li>\n<li>N\u00famero de bytes enviados.<\/li>\n<\/ol>\n<p>Las siguientes l\u00edneas son un ejemplo (falso) del registro de acceso en \u00abCommon Log File Format\u00bb:<\/p>\n<pre>maquina.uji.es - - [29\/Feb\/1996:00:56:56 +0100] \"GET \/documento.html HTTP\/1.0\" 302 64\r\n\r\notra.maquina.dominio.es - - [29\/Feb\/1996:00:57:00 +0100] \"GET \/mapes\/asturias.html HTTP\/1.0\" 200 1005\r\n\r\nmaquina.uji.es - - [29\/Feb\/1996:00:57:09 +0100] \"GET \/mapes\/fondo.gif HTTP\/1.0\" 200 5717\r\n\r\notro.dominio.edu - - [29\/Feb\/1996:00:57:14 +0100] \"GET \/mapes\/asturias.gif HTTP\/1.0\" 200 1005<\/pre>\n<p>Los c\u00f3digos de estatus HTTP pueden hallarse en la especificaci\u00f3n del protocolo HTTP. Hay de tres tipos: los que comienzan por 2 (transacci\u00f3n exitosas), por 3 (redirecci\u00f3n), por 4 y 5 (mensajes de error). Los m\u00e1s comunes son:<\/p>\n<ul>\n<li>200 &#8211; Transmisi\u00f3n realizada.<\/li>\n<li>302 &#8211; Redirecci\u00f3n a otro URL.<\/li>\n<li>304 &#8211; Debe usarse la copia local de la cach\u00e9 (es decir, el documento solicitado no ha cambiado desde la \u00faltima vez que se recuper\u00f3 y est\u00e1 disponible en cach\u00e9).<\/li>\n<li>4xx &#8211; Error (especialmente el odiado 404: el servidor no puede encontrar el URL solicitado).<\/li>\n<li>500 &#8211; Error interno del servidor.<\/li>\n<\/ul>\n<\/td>\n<\/tr>\n<\/table>\n<table border=\"1\">\n<tr>\n<td>\n<h3 align=\"center\">Glosario<\/h3>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<ul>\n<li><strong>Hit<\/strong>: Un hit es una transacci\u00f3n entre un cliente y un servidor. Sin embargo, un hit no equivale a una p\u00e1gina HTML le\u00edda por un usuario. En primer lugar, una p\u00e1gina puede estar formada, adem\u00e1s del texto HTML, por elementos no textuales (o &#8216;media objects&#8217;) como gr\u00e1ficos, sonido, &#8216;applets&#8217;, etc. As\u00ed, una p\u00e1gina HTML con nueve iconos (cada uno un fichero GIF diferente) recuperada 10 veces, representa 100 hits en el log de acceso. Los ficheros de registro de actividad del servidor registran una serie de datos de cada hit (v\u00e9ase el recuadro sobre el &#8216;Common Log File Format&#8217;).<\/li>\n<li><strong>Visita o sesi\u00f3n:<\/strong> Una secuencia de hits hecha por un usuario en un servidor. Convencionalmente se considera que si durante media hora un usuario no realiza ning\u00fan hit, el siguiente forma parte de una segunda visita. Del an\u00e1lisis de visitas o sesiones pueden determinarse pautas de comportamiento t\u00edpicas de grupos de usuarios (rutas, preferencias, etc.). Err\u00f3neamente se asume que un n\u00famero IP est\u00e1 asociado a un usuario: algunos hosts son utilizados por m\u00faltiples usuarios. Los proxies con cach\u00e9 falsean el n\u00famero real de hits y visitas al almacenar localmente las p\u00e1ginas m\u00e1s consultadas por sus usuarios.<\/li>\n<li><strong>Usuarios \u00fanicos:<\/strong> El n\u00famero de individuos \u00fanicos (no n\u00fameros IP) que visitan un servidor en un periodo de tiempo. Si no hay un sistema de \u00abloggin\u00bb o identificaci\u00f3n no es posible conocer dicho n\u00famero con exactitud.<\/li>\n<\/ul>\n<\/td>\n<\/tr>\n<\/table>\n<table border=\"1\">\n<tr>\n<td>\n<h3 align=\"center\">Nuevos desarrollos: &#8216;tokens&#8217; y &#8216;cookies&#8217;<\/h3>\n<\/td>\n<\/tr>\n<tr>\n<td>La necesidad de seguir la pista a lo que hacen los usuarios en una sesi\u00f3n ha conducido al desarrollo de varias t\u00e9cnicas, no sujetas a est\u00e1ndares por el momento, que son utilizadas por diversos productos comerciales.Hay dos maneras diferentes para que un servidor WWW pueda seguir la pista de sus usuarios: utilizando &#8216;tokens&#8217; o &#8216;cookies&#8217;.Los &#8216;tokens&#8217; son cadenas alfanum\u00e9ricas que el servidor inserta en los URLs contenidos en sus p\u00e1ginas a medida que las env\u00eda. A cada usuario que recupera una p\u00e1gina se le asigna un &#8216;token&#8217; para dicha sesi\u00f3n. Cuando el usuario sigue uno de los links, el servidor elimina el &#8216;token&#8217; del URL (para encontrar la p\u00e1gina en cuesti\u00f3n) y a\u00f1ade el &#8216;token&#8217; a cada URL local de la p\u00e1gina servida. De este modo es posible saber qu\u00e9 hace un usuario determinado en una sesi\u00f3n concreta. El software que intercepta el input y el output del servidor se complementa con utilidades de registro y posterior an\u00e1lisis de pautas de comportamiento de los usuarios. El precio de usar &#8216;tokens&#8217; es que los URLs que los contienen no pueden ser incluidos en listas o bases de datos ya que no funcionan m\u00e1s que durante la sesi\u00f3n concreta para la que han sido generados.<\/p>\n<p>Las &#8216;cookies&#8217; (o galletitas) son una manera diferente de representar la identidad del usuario. Para \u00e9ste, si su cliente WWW soporta cookies (los de Netscape y Microsoft lo hacen), el proceso es invisible e imposible de alterar. Las &#8216;cookies&#8217; son elementos simples de informaci\u00f3n que el servidor proporciona al cliente (y que \u00e9ste guarda) y que puede pedirle en posteriores transacciones. En una &#8216;cookie&#8217; puede incluirse un identificador de sesi\u00f3n, que el cliente presentar\u00e1 en todas sus futuras transacciones a petici\u00f3n del servidor, o una identificaci\u00f3n de usuario, o la historia pasada de transacciones con ciertos servidores, etc. La informaci\u00f3n que el cliente env\u00eda al servidor va en la cabecera y por tanto es invisible para usuario. Adem\u00e1s, aunque un usuario abandone un servidor, cuando vuelva se le identificar\u00e1 inmediatamente si se le ha asignado una identidad en una galletita. En la actualidad s\u00f3lo algunos clientes soportan<br \/>\n&#8216;cookies&#8217; (Netscape lo hace: mire en en el directorio donde se almacenan los ficheros de configuraci\u00f3n, preferencias y el archivo de la cach\u00e9. Tal vez alguien le ha dejado all\u00ed una galletita).<\/td>\n<\/tr>\n<\/table>\n","protected":false},"excerpt":{"rendered":"<p>Hit Parade: las estad\u00edsticas en el Web Jordi Adell Net Conexi\u00f3n n\u00ba 6, 90-93 (1a. parte) y Net Conexi\u00f3n n\u00ba 7, 80-83 (2a. parte) Alguien ha afirmado que en la red hay &#8216;informaci\u00f3n, desinformaci\u00f3n y ahora estad\u00edsticas de Web&#8217;. Uno de los \u00edtems casi obligados de la primera p\u00e1gina de un servidor WWW es un [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-61","post","type-post","status-publish","format-standard","hentry","category-uncategorized"],"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"jetpack_shortlink":"https:\/\/wp.me\/p74JOR-Z","_links":{"self":[{"href":"https:\/\/elbonia.cent.uji.es\/jordi\/wp-json\/wp\/v2\/posts\/61","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/elbonia.cent.uji.es\/jordi\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/elbonia.cent.uji.es\/jordi\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/elbonia.cent.uji.es\/jordi\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/elbonia.cent.uji.es\/jordi\/wp-json\/wp\/v2\/comments?post=61"}],"version-history":[{"count":1,"href":"https:\/\/elbonia.cent.uji.es\/jordi\/wp-json\/wp\/v2\/posts\/61\/revisions"}],"predecessor-version":[{"id":1402,"href":"https:\/\/elbonia.cent.uji.es\/jordi\/wp-json\/wp\/v2\/posts\/61\/revisions\/1402"}],"wp:attachment":[{"href":"https:\/\/elbonia.cent.uji.es\/jordi\/wp-json\/wp\/v2\/media?parent=61"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/elbonia.cent.uji.es\/jordi\/wp-json\/wp\/v2\/categories?post=61"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/elbonia.cent.uji.es\/jordi\/wp-json\/wp\/v2\/tags?post=61"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}