27
Ene

AntiSpyware 2009

AntiSpyware 2009 también conocido como AntiSpyware2009, es un falso anti-spyware. AntiSpyware 2009 puede mostrarnos alertas de sistema falsas y AntiSpyware 2009 puede intentar amenazarlo con el propósito de asustarlo e impulsarlo a comprar Antispyware 2009.

No malgaste su dinero, no descargue el software que se recomienda en los anuncios desplegados por AntiSpyware 2009.

Lo inteligente es deshacerse de AntiSpyware 2009.

¿Cómo deshacerse de AntiSpyware 2009?

Su mayor protección contra AntiSpyware 2009 es detectarlo rápidamente y eliminar los procesos de AntiSpyware 2009, las claves de registro, los DLLs, y demás archivos del AntiSpyware 2009 de su PC.

A continuación os pongo el link donde explican como desinstalarlo.

http://www.411-spyware.com/es/eliminar-antispyware-xp-2009

26
Ene

Canonical empieza a ser rentable.

mark1

En una reciente entrevista concedida a NY Times por Mark Shuttleworth, Mark comenta que la empresa Canonical esta a punto de lograr los 30 millones de dolares anuales, importante facturacion a partir de la cual la empresa seria rentable y capaz de automantenerse por si misma. Este era uno de los objetivos que se pretendian, pues actualmente Canonical, con sede en Londres y apenas una plantilla de unos 200 empleados, es financiada exclusivamente por los donativos del magnanimo millonario y la venta que se hace del soporte de Ubuntu a empresas.

Mas informacion| Teleobjetivo

22
Ene

Me pintan en el suelo !

pintura-suelo2

No hay mucho que comentar sobre esta imagen :)

20
Ene

Interclubbers

interclubbers2

Bueno pues a los que os guste diferentes tipos de música electrónica, Aqui os dejo el link de una radio On Line, de un amigo mío. Espero que entréis de vez en cuando para escucharla, Merece la pena.

Un saludo,  Giacomo Stallone

http://www.interclubbers.com/

16
Ene

Sesion techno: Lobo – Infiestón

Aquí os dejo una sesión techno realizada por Ricardo Miranda aka LoBo.

Audio clip: Adobe Flash Player (version 9 or above) is required to play this audio clip. Download the latest version here. You also need to have JavaScript enabled in your browser.

Gracias. LoBete.

16
Ene

El Museo del Prado en Google Earth

Las obras maestras del Museo del Prado en súper alta resolución en Google Earth.

YouTube Preview Image


15
Ene

De fiesta por Gijón !!

De fiesta!

Pues nada, esa foto nos la echaron a Juanin y a mi por ahí de fiesta por Gijón. Jejeje, que bien lo pasamos por ahí de ruta.

13
Ene

(Ubuntu)

ubuntu

En primer lugar me gustaria explicar un poco a los que no sabeis que es ni que significa Ubuntu.

Significado: Ubuntu es una regla ética o ideología sudafricana enfocada en la lealtad de las personas y las relaciones entre éstas. La palabra proviene de las lenguas zulú y xhosa. Ubuntu es visto como un concepto africano tradicional.

Este es el nombre que Mark Shuttleworth creador de la distribucion Linux con nombre (Ubuntu) decidio ponerle a dicha distribución.

Como obtener Ubuntu:

Hay varios métodos para obtener una copia de Ubuntu, todos descritos en la página de descarga del sitio Web de Ubuntu.

El primer método es descargar una imagen ISO de un servidor espejo cercano a usted, y crear con él un CD para instalar Ubuntu. Hay disponibles dos tipos de CDs:

  • CD de escritorio – El CD de escritorio le permite probar Ubuntu sin cambiar nada en su equipo, y le da la opción posterior de instalarlo permanentemente. Este es el tipo de CD que la mayoría de la gente querrá usar.
  • CD de instalación en modo texto – El CD de instalación en modo texto le permite realizar ciertas instalaciones especializadas de Ubuntu. Este tipo de CD está pensado para casos como crear sistemas OEM preconfigurados o configurar despliegues masivos automáticos; también puede usarse como origen de paquetes para actualizar instalaciones más antiguas.

Si no tiene una grabadora de CDs o tiene un ancho de banda limitado o caro, podemos enviarle copias del «CD de escritorio» gratuitamente. Puede solicitar los CDs a través de Shipit, el sistema de distribución de CDs de Ubuntu.

[Sugerencia]
Los CDs solicitados podrían tardar varias semanas en llegar.

También puede contactar con un Equipo Local de la Comunidad Ubuntu (LoCoTeam por su acrónimo en inglés) cercano a usted. Estos son grupos auto-organizados de entusiastas de Ubuntu que quieren llevar la Comunidad Ubuntu a un nivel local. La mayoría de los LoCoTeams tienen copias extras de Ubuntu y las dan gratis. Puede encontrar una lista de los LoCoTeams existentes en el wiki de Ubuntu.

Otro método para obtener Ubuntu es unirse al Grupo de Usuarios de Linux (LUG) local y pedir que alguien le haga una copia. Normalmente, tendrá que pagar el coste del CD y su envío.

Si no conoce ningún LUG cerca de usted, puede encontrar una lista de éstos en Grupos Mundiales de Usuarios de Linux.

12
Ene

Algo de seguridad en Windows.

Para establecer una primera barrera de seguridad sin gastar un euro, tenemos a nuestro alcance herramientas on-line y el cortafuegos de Windows

Desde que el 3 de mayo de 1978 Gary Thuerk enviase el primer spam a través de ARPANET ha llovido mucho. Aquella primera vez, él decidió que era mucho más sencillo enviar un e-mail general a la lista de receptores que andar configurando todos los correos para personalizarlos.

El problema de aquella idea es que dio resultado y, desde entonces, el uso del spam se ha ido generalizando. Llevamos ya 30 años recibiendo spam y como todo avance tecnológico, si se le puede llamar así, esta técnica ha ido evolucionando con el tiempo.


Hoy en día ya no es sólo una cuestión de publicidad no deseada, sino que encierra un problema de seguridad informática porque el propio e-mail puede enmascarar intentos de acceso a nuestra máquina, fraudes a través de la Red, instalación de troyanos a fin de controlar nuestros equipos, y un largo etcétera de actividades delictivas.

 

La Red, un mar peligroso

Hay un dicho que circula por ahí que dice que lo mejor para estar protegido frente a fraudes y timos de la Red es no estar conectado a Internet. En cambio, en el mundo en que vivimos, Internet se ha convertido en un referente. Las nuevas generaciones vienen con Internet de fábrica, de serie. Los nuevos teléfonos móviles tienen teclas que directamente se conectan a la Red sin darnos casi ni cuenta…

Y, sin embargo, la realidad es que los daños que pueden causar las actividades delictivas en la Red van más allá de que espíen nuestras preferencias de navegación o tener que formatear el PC. Pueden llegar a afectar a nuestra economía, llegándonos a robar información confidencial, contraseñas y claves de acceso a los bancos.

 

Para evitar estas situaciones, el primer paso es no aceptar la instalación de software desconocido, del que no estemos seguros ya no sólo de dónde provenga, sino también de su integridad. Los programas que atacan vulnerabilidades del sistema operativo también están a la orden del día. Por eso las actualizaciones y parches de seguridad tienen mucha importancia, ya que detectan posibles puntos de ataque de los ciberdelincuentes.

Otra acción relativamente común es el secuestro del navegador. Si alguna vez te han cambiado la página de inicio sin tu consentimiento o la propia página de inicio que tienes no la has puesto tú y, aun así, no la puedes quitar, es que estás delante de un secuestro del navegador. Si además de esto ves que tienes nuevas barras de herramientas que tú no has instalado o se comienzan a abrir ventanas, también es muy probable que estés delante de un secuestro del navegador.

 

Los secuestros de navegador pueden llegar a hacer algo más que cambiar la página de inicio o sacar continuamente ventanas emergentes de publicidad. Han llegado a cambiar la lista de resultados de Google para ofrecer los que al software que secuestra le parecía mejor. Por suerte, los propios sistemas antispyware son capaces de solucionar estas incidencias.


 

Vacunas y remedios

Hoy en día, las empresas de seguridad informática que desarrollan los antivirus comerciales están muy concienciadas con estos problemas y ofrecen soluciones que incluyen en un mismo paquete todo el abanico de software necesario para estar protegido frente a estas amenazas. Sin embargo, también podemos encontrar propuestas gratuitas que proporcionan cierta salvaguarda, aunque teniendo que instalar varios programas para lograrla.

 

En este informe, abordaremos una revisión de 6 propuestas de antivirus on-line, algunas de ellas con desinfección en línea. Hay que tener en cuenta que estas soluciones no están residentes en nuestra máquina, por lo que en cuanto terminemos el escaneo, nada nos protegerá si no tenemos un antivirus instalado en nuestro PC.

También veremos tres escaneadores de puertos on-line, con los que detectar si tenemos algún puerto abierto en nuestro equipo que franquee la entrada a un programa o un proceso delictivo. Por cuestiones de espacio, sobre fraudes on-line (phishing, spam, pharming, falsas loterías, vishing, smishing, webs de falsas recargas, compras por Internet, etc.) hablaremos en próximos artículos largo y tendido.

 

En todo caso, no debemos relajarnos por tener instalado un antivirus de última generación con firewall y antispyware. Siempre pueden salir técnicas novedosas que logren doblegar nuestros sistemas de seguridad.


 

Actividades delictivas

* Adware: Muestra de publicidad no deseada en pantalla.

* Backdoors: Permiten el acceso a nuestra máquina a través de una puerta trasera.

* Bots: Permiten al atacante controlar el ordenador mediante órdenes remotas.

* Dialers: Establecen conexiones telefónicas a números de tarificación especial.

* Malware: Software malicioso. Cualquier programa que pueda resultar perjudicial para nuestro PC, desde el uso indebido de parte de nuestro ancho de banda, pasando por una pérdida de datos, hasta la captación de nuestras claves bancarias.

* Phishing: Mensajes de correo electrónico que intentan lograr que el usuario les diga sus claves de acceso a los sistemas bancarios on-line de los que sea cliente.

* Smishing: Envío de mensajes de móvil SMS con textos de captación, como por ejemplo, que el banco te ha hecho un cargo de una importante suma y que llames para confirmarlo. En la llamada de confirmación, voces muy convincentes intentarán sacarte información sobre tu número de cuenta y demás datos bancarios.

* Spam: Publicidad no deseada por e-mail.

* Spyware: Técnicas encargadas de capturar nuestros hábitos de navegación.

* Troyanos: Programas que nos podrán robar información como contraseñas y datos bancarios. En este grupo, destacan los keyloggers, que monitorizan la actividad del teclado. Los hay incluso que graban y remiten a su controlador la actividad del ratón, enviando capturas de pantalla cada vez que el usuario hace un clic.

* Vishing: Correos electrónicos que especifican un número gratuito al que llamar, en donde serás atendido por voces con aspecto muy profesional que intentarán convencerte de que les facilites tu número de cuenta, de tarjeta, claves PIN, firmas electrónicas, etc.

Antivirus gratuitos on-line analizados

 

Los antivirus on-line no se instalan en el PC como lo haría un programa al uso y tampoco se quedan residentes protegiendo continuamente la máquina.

Básicamente, necesitan descargar un pequeño software al PC (por lo que consumien más tiempo la primera vez que se ejecutan) e instalar una serie de controles ActiveX, lo que el sistema nos notificará a través de los mensajes de fondo amarillo del navegador. Pinchando sobre esos mensajes, aceptaremos la instalación del ActiveX y daremos permiso para su ejecución.

 

* BitDefender Online Scanner

* McAfee FreeScan

* Panda ActiveScan 2.0

* PC Pitstop Virus Scan

* Symantec Security Check

* Trend Micro HouseCall 6.5

 

Escaneadores de puertos gratuitos on-line analizados

 

Como sabéis, el protocolo más usado hoy en día para gestionar los diferentes PCs de una red es TCP/IP, que asigna una dirección IP única a cada equipo dentro de esa red. También determina métodos de transmisión de datos, así como los puertos o canales por los que serán transmitidos, de los que define hasta 65.025. Cuando se inicia una comunicación, se abre un puerto a través del cual enviar y recibir información.

Hay algunos que históricamente se han destinado a ciertos servicios, como el 25, usado para la transferencia de correo electrónico (SMTP); el 110, para POP3; el 143, para IMAP; o el 21, para FTP. Por esto, es tan importante conocer qué puertos están abiertos en nuestra máquina, y lo podemos hacer gracias a los tres programas on-line escaneadores de puertos que revisamos.

 

* Asociación de Internautas

* ShieldsUP!

* Upseros

 

 

La opinión de PC Actual: vigila la salud del sistema

La seguridad on-line nos provee de medios realmente interesantes para conocer cuál es el estado de salud informática de nuestro PC. Es posible que alguna vez, incluso teniendo un antivirus instalado en nuestra máquina, algún virus se cuele en nuestro sistema, y es entonces cuando un antivirus on-line puede ayudarnos a solucionar estos problemas.

Igualmente, con las propuestas gratuitas que nos hacen las empresas de seguridad podemos hacernos una idea una idea sobre lo que son sus suites comerciales. Desde este enfoque, no entendemos que algunas propuestas no presenten la reparación o eliminación de las infecciones detectadas, dado que el uso de estas soluciones no va a suponer una merma en las ventas de las versiones comerciales, pues no llegan nunca a protegernos real y permanente.

Son simples escaneos del sistema con los que asegurarnos de que nuestro equipo está limpio. También son útiles desde el punto de vista que comentábamos antes: si un virus se cuela en nuestro sistema, después de eliminarlo, nos podríamos plantear si la integridad de nuestro antivirus sigue intacta. Y una buena forma de quitarnos los temores y de asegurarnos de que la limpieza se ha efectuado de forma correcta es pasar un antivirus on-line.


Antivirus on-line

La propuesta gratuita y on-line de Panda merece despuntar en nuestra comparativa. Al margen de una interfaz tremendamente accesible, ha sobresalido tanto en la eficacia de la detección como en la limpieza y eliminación, además de abarcar un mayor rango de áreas a la hora de escanear el sistema.

Desgraciadamente, nos hemos llevado una sorpresa menos agradable al evaluar la solución de Symantec. No podemos entender por qué hay tantas diferencias entre un servicio y otro. Deberían de darse cuenta que su propuesta on-line es un escaparate de su suite de seguridad. En cambio, es sustancialmente más limitada que la opción de Panda y, encima, no se ha traducido al castellano.

Por el contrario, BitDefender Online Scanner, pese a que también se encuentra en inglés, presenta un entorno «muy Windows», por lo que el usuario no se siente perdido en su manejo. Es más, se complementa muy bien con la solución de Panda.

Por su lado, McAfee adolece de selección manual y limpieza on-line, con lo que cumple una función meramente informativa; pero es aún peor la alternativa de PC Pitstop, lenta en la descarga del ActiveX y con una interfaz poco intuitiva.

Finalmente, Trend Micro HouseCall es un buen producto y en su web encontraremos todo tipo de información sobre seguridad. Lástima que no sea tan pródigo en detalles sobre las infecciones detectadas.


 

Escaneadores de puertos

Pero no sólo el antivirus es la herramienta con la que tenemos que estar protegidos, también son relevantes los escaneadores de puertos, que al fin de cuentas, son las puertas hacia nuestros ordenadores.

Nos ha gustado mucho la propuesta de Upseros e, independientemente del idioma, los animamos a que den a su solución la calidad informativa de ShieldsUP! A la Asociación de Internautas hay que agradecerle la celeridad de su servicio pero reclamarle una mayor calidad en sus observaciones.


 

Lo mejor: Muchas opciones gratuitas

Lo más positivo es lograr encontrar en Internet tantas soluciones de diversos fabricantes (nos hemos dejado algunas en el tintero), gratuitas y on-line, que nos ayuden a conocer la salud informática de nuestros equipos. En cuanto a los escaneadores de puertos, lo mejor es el nivel de detalle de los informes de ShieldsUP!


 

Lo peor: Poca acción

Es una lástima que algunos antivirus on-line no realicen la desinfección de los problemas encontrados, mientras que es el idioma de la interfaz de usuario la máxima pega de los escaneadores de puertos.

12
Ene

Como funciona Google ?

Descripcion general

El motor de indexación de Google esta implementado en C/C++ por razones de eficiencia y puede correr tanto sobre Solaris como sobre Linux. En Google, el proceso de exploración (descargar las páginas a indexar) es realizado por varios exploradores distribuidos. Existe un proceso URLserver que envía listas de URLs a ser descargados a los exploradores. Las páginas que son descargadas son enviadas luego al storeserver. El storeserver comprime y guarda las páginas en un repositorio. Toda página tiene asociado un ID denominado docID que es asignado cada vez que un nuevo URL es interpretado desde una página. La función de indexación es llevada a cabo por un proceso indexador y un clasificador. El indexador lleva a cabo varias funciones: Lee el repositorio, descomprime los documentos y los interpreta, cada documento es convertido en un conjunto de ocurrencias de palabras llamadas hits o aciertos. Cada acierto registra la palabra, posición en el documento y una aproximación del tamaño de la fuente y si está o no en mayúsculas. El indexador distribuye estos aciertos en una serie de ?barriles? (barrels) creando un índice. Además, el indexador interpreta todos los enlaces en cada página y guarda información importante sobre los mismos en un archivo llamado anchors, este archivo contiene información suficiente sobre origen y el destino del enlace, y cual es el texto del mismo.

El URLresolver lee registros del archivo de enlaces y convierte URLs relativos en URLs absolutos (por ejemplo si el enlace es desde http://foo.bar/index.htm hacia images/bar.gif el URL absoluto es http://foo.bar/images/bar.gif). Luego convierte los URLs absolutos en docIDs. Pasa el texto del enlace al índice y los asocia con el docID apuntado por el enlace. También genera una base de enlaces que son simplemente pares de docIDs de la forma ?desde-hasta?. La base de enlaces es luego usada por el algoritmo de PageRanking para determinar la importancia de cada documento.

El proceso clasificador toma los barrels que están ordenados por docId y los reordena por wordID para generar un índice invertido. Esto es realizado en el mismo lugar para ahorrar espacio auxiliar. El clasificador produce también una lista de wordIDs y desplazamientos al índice invertido. Un programa denominado DumpLexicon toma la lista junto con el léxico producido por el indexador y genera un nuevo léxico para ser usado por el buscador. El buscador es invocado por el servidor web y usa el léxico construido por DumpLexicon junto con el índice invertido y los PageRanks para resolver las búsquedas.

Estructuras de datos

Las estructuras de datos de Google están optimizadas de forma tal que enormes colecciones de documentos puedan ser exploradas, indexadas y buscadas con poco o casi ningún costo.

BigFiles

Un BigFile es un archivo que puede ocupar varios sistemas de ficheros y que se puede direccionar por un desplazamiento de 64 bits, la distribución del archivo en múltiples sistemas de ficheros es manejada automáticamente por la biblioteca de Bigfiles. La biblioteca da al programador una interfaz abstracta que permite manejar los BigFiles como si fueran archivos comunes encargándose de todo el proceso interno necesario para almacenar archivos inmensos.

Repositorio

El repositorio contiene el HTML completo de cada página. Cada página es comprimida usando Zlib. En el repositorio, los documentos se almacenan comprimidos uno a continuación del otro en un archivo secuencial simple y esta prefijados por el docId, longitud y URL como puede verse en la figura 2. El repositorio no requiere otras estructuras para ser usado y accedido. Esto ayuda a darle consistencia al sistema ya que todo el motor de Google y toda la base pueden reconstruirse únicamente a partir del repositorio. Así mismo, el repositorio permite que toda página devuelta por el buscador luego de una consulta pueda ser mostrada al usuario aunque ya no esté disponible en línea. Esto se logra con la opción cached-page del buscador, sumamente útil para sitios antiguos que ya no están, o fueron actualizados, o incluso para los que están fuera de línea en el momento de hacer la consulta.

Document Index

El document index guarda información sobre cada documento. Es un archivo secuencial indexado ISAM ordenado por docID. La información almacenada en cada entrada incluye el estado del documento, una referencia al documento dentro del repositorio, un checksum y varias estadísticas. Si el documento que ha sido explorado contiene también un puntero a un archivo de tamaño variable llamado docinfo que contiene el URL y el título del documento. En el caso contrario, el puntero apunta al URLlist que contiene sólo el URL. Adicionalmente, existe un archivo que es usado para traducir URLs en docIDs, es una lista de URL checksums con sus correspondientes docIds y está ordenada por checksum. Para encontrar el docId de un URL especifico se calcula el checksum del URL y luego se hace una búsqueda binaria dentro de este archivo para encontrar el docID que corresponda al checksum. Los URLs puede ser convertidos en docIDs en lotes haciendo un refundido con este archivo. Esta técnica es usada por el URLresolver para convertir URLs en docIDs. Este modo lotes de actualización es crucial en cuanto a la eficiencia del sistema.

Lexico

El léxico tiene varios formatos diferentes. Un cambio importante es que el léxico puede manejarse en memoria a un precio razonable. El léxico consta de 14 millones de palabras y esta implementado en 2 partes. Una lista de palabras concatenadas entre sí y separadas por NULLs, Y una tabla de hash (dispersión) de punteros. Para varias funciones adicionales, la lista de palabras tiene alguna información auxiliar que esta mas allá del nivel de explicación de este informe.

Hit Lists

Las hit lists (lista de aciertos) es una lista con las ocurrencias de una determinada palabra en un documento en particular incluyendo la posición, fuente y si está o no en mayúsculas. Las hit lists ocupan la mayoría del espacio necesario para los índices, por tal razón deben almacenarse en forma eficiente. Los detalles de codificación de las hit lists se muestran en la siguiente figura:

Este formato de codificación usa dos bytes por cada hit. Hay dos tipos de hits, fancy-hits y plain-hits. Fancy-hits son aquellos que ocurren dentro de una URL, titulo, anchor o meta-tag. Plain-hits son todos los demás. Un plain-hit consiste en un bit que indica si la palabra esta en mayúsculas o minúsculas, tamaño de la fuente y 12 bits para la posición de la palabra en el documento. Todas las posiciones mayores a 4095 se rotulan 4096. El tamaño de la fuente se representa en forma relativa al resto del documento usando 3 bits. Solo 3 valores se usan porque 111 representa un fancy-hit. Un fancy-hit almacena el bit de mayúsculas/minúsculas, el tamaño de la fuente fijada en 111, 4 bits para indicar el tipo de fancy-hit y 8 bits para la posición del mismo. Para enlaces, los 8 bits de posición se separan en 4 bits de posición dentro del texto del anchor y 4 bits para un clave (hash) del docId del documento en el cual esta el enlace.

La longitud de cada hit-list es alamcenada antes de la lista misma.

El índice

El índice sin invertir está en realidad parcialmente ordenado. Está distribuido en barrels (se usan 64 barrels). Cada barrel guarda un rango de wordIDs. Si un documento contiene palabras que corresponden a un determinado barrel, los docIds son registrados en el barrel seguidos de una lista de wordIDs con hit-lists que corresponden a dichas palabras. Este esquema requiere un poco mas de espacio al duplicar los docIDs, pero la diferencia es muy chica por un numero razonable de buckets y salva mucho tiempo y complejidad de programación en la fase final de indexación.

El índice invertido

El índice invertido consiste en los mismos barrels que el índice pero ya procesado por el clasificador. Para cada wordId válido, el léxico contiene un puntero al barrel correspondiente a la palabra. El puntero apunta a una lista de docIDs junto con sus correspondientes hit-lists. Esta lista representa las ocurrencias de la palabra en todos los documentos indexados.

Procesos

Exploración (crawling)

Ejecutar los web exploradores es un proceso complejo. Hay asuntos altamente intrincados referidos al rendimiento y confiabilidad de los procesos y hasta existen problemas sociales involucrados. El proceso de exploración es sin dudas la más frágil de las aplicaciones ya que implica interactuar con cientos de miles de servidores web y servidores de nombre que están mas allá del campo de control del sistema. Para escalar a miles de millones de páginas, Google usa un sistema veloz de exploración distribuido. Un solo URLserver sirve listas de URLs a un numero de exploradores (típicamente 3). Tanto el URLserver como los exploradores están implementados en Python. Cada explorador abre unas 300 conexiones HTTP simultáneamente, esto es necesario para poder bajar páginas a un ritmo razonable. En momentos pico el sistema puede descargar 100 páginas por segundo usando 4 exploradores. Esto implica unos 600KBytes por segundo de datos. Un punto mayor de estrés es el DNS lookup, cada explorador mantiene su propio cache de DNS de forma tal de no tener que hacer un DNS lookup antes de explorar cada documento. Cada una de las cientos de conexiones puede estar en un determinado estado: looking up DNS, conectándose al servidor, enviando solicitud o recibiendo respuesta. Estos factores hacen del explorador un componente complejo en el sistema. Se usa IO asincrónica para manejar eventos y un numero de colas para mover las URLs solicitados de un estado a otro.

Los exploradores utilizados por Google respetan estrictamente el protocolo ?robots.txt? para exclusión de robots en algunos sitios y, además, esperan 1 segundo entre conexión y conexión para un mismo servidor web de forma tal de no alterar significativamente el rendimiento de los mismos.

Indexación

Lo primero necesario para indexar páginas web es interpretarlas. El proceso de interpretación debe contemplar un gran, enorme, numero de posibles errores que varían desde errores en etiquetas HTML, miles de ceros en medio de un tag, caracteres no-ASCII, etiquetas mal anidadas y no cerradas, etiquetas anidados en forma casi infinita y gran variedad de otros errores. Para maximizar la velocidad Google usa flex para generar un analizador léxico que se alimenta con su propia pila. El desarrollo de este intérprete, que debe correr a una velocidad razonable y ser muy robusto, involucra gran cantidad de trabajo. Una vez interpretado cada documento es codificado en los barrels. Cada palabra es convertida en un Word-Id usando una tabla de hashing mantenida en memoria, o sea, el léxico. Nuevos agregados a la tabla de hashing del léxico son registrados en un archivo. Una vez que las palabras son convertidas en wordIDs sus ocurrencias en el documento son traducidas a hit-lists y son almacenadas en los barrels. La mayor dificultad con la paralelización de la fase de indexado es que el léxico debe compartirse. En lugar de compartir el léxico, Google escribe un registro de todas las palabras extras que no están en el léxico base que se fijó en 14 millones de palabras. De esta forma múltiples indexadores pueden ejecutarse en paralelo y luego el archivo de registro puede ser procesado por el último indexador.

Para generar el índice invertido, el indexador toma cada uno de los barrels ordenándolo por wordID para producir un barrel invertido. El proceso de ordenamiento también es paralelizado para usar tantas máquinas como se pueda simplemente corriendo múltiples ordenadores que pueden procesar diferentes buckets al mismo tiempo. Dado que los barrels no caben en memoria, el clasificador los subdivide en baskets ordenando cada basket en memoria y volcando el contenido combinado al barrel.

Búsqueda (Searching)

El objetivo del proceso de búsqueda es proveer una búsqueda de calidad y eficiente. Muchos de los grandes buscadores comerciales han hecho grandes progresos en cuanto a la eficiencia, por lo que Google se ha concentrado en proveer calidad en los resultados. El proceso de consultas de Google involucra 4 pasos: interpretar la consulta, convertir palabras en wordIDs, buscar el principio de la doclist en el barrel que corresponde a cada palabra. Buscar en los doclists hasta que se encuentre un documento que contiene todos los términos buscados y finalmente computar el orden (ranking) correspondiente de cada documento.

El sistema de ranking

Para ordenar documentos (decidir su importancia respecto de una consulta) Google utiliza un algoritmo propio denominado PageRank. El algoritmo de PageRank está basado en el grafo de enlaces de la web que como tal es un recurso sumamente importante y largamente ignorado en la mayoría de los buscadores. Google dispone de tablas con miles de millones de enlaces de la forma (docID desde-docID hasta), lo cual constituye una buena representación de la web como un grafo de enlaces.

El concepto básico del algoritmo PageRank es que una página es más importante en la medida en que mas páginas apuntan hacia ella. El algoritmo de PageRank extiende este concepto computando no solamente la cantidad de enlaces, sino también normalizando de acuerdo a la cantidad de enlaces en una página, y propagando infinitamente de forma tal que la importancia de una página depende de: cuantas páginas apuntan a ella, de la cantidad de enlaces en estas páginas, y de cuantas y que tan importantes son las páginas que apuntan a las que apuntan a la página. El algoritmo se resume así:

Asumimos que una página “A” tiene páginas T1..Tn que la apuntan. El parámetro d es un parámetro probabilístico que vale entre 0 y 1. Google usa d=0.85. Se define C(A) como la cantidad de enlaces que salen de la página (A). El PageRank de A se calcula como PR(A)=(1-d)+d(PR(T1)/C(T1)+ … + PR(Tn)/C(Tn))

Notar que los PageRanks forman una distribución probabilística sobre las páginas, la suma de los PageRanks de todas las páginas da 1. El PageRank de una página puede calcularse usando un simple algoritmo iterativo, el PageRank de 26 millones de páginas se puede calcular en pocas horas en una maquina modesta. Dadas n páginas se comienza con PR(Ai)=1/n y luego simplemente se corren x pasadas del algoritmo que calcula el PageRank de cada página hasta que los valores se estabilizan, esta es una técnica comúnmente usada en algoritmia para simplificar algoritmos recursivos.

Justificación intuitiva

El método de PageRank puede verse como un modelo del comportamiento del usuario. Supongamos que tenemos a un navegador aleatorio (random surfer) que dada una página aleatoria elige enlaces y clickea sin usar el botón back, pero eventualmente se aburre y comienza desde otra página aleatoria. ¡La probabilidad de que el visitante llegue a una página es su PageRank!. Y el valor d es la probabilidad de que en una página dada el visitante se aburra y empiece de nuevo desde otra página.

Conclusiones

Google esta diseñado para ser una herramienta de búsqueda escalable eficiente y con un sistema altamente avanzado de ranking de páginas. El uso del algoritmo de PageRank le da una gran calidad a los resultados de búsquedas ?comunes?, la enorme cantidad de datos, de lejos la colección mas grande de páginas web del mundo, le permiten resolver eficazmente búsquedas ?difíciles? mientras que el repositorio de páginas asegura que los resultados devueltos pueden ser accedidos y consultados por el usuario siendo a su vez de enorme valor como una colección histórica de los documentos en la web.