REVISIîN

Perspectiva general sobre el proceso de desarrollo de f‡rmacos y las tŽcnicas de cribado virtual basadas en la similitud molecular

îscar Miguel Rivera Borroto1, 3*, Yoandy Hern‡ndez D’az1, JosŽ Manuel Garc’a de la Vega2, Ricardo Grau1, Yovani Marrero Ponce3, Maikel Cruz Monteagudo4

1Laboratorio de Bioinform‡tica, Centro de Estudios de Inform‡tica, Facultad de Matem‡tica, F’sica y Computaci—n, Universidad Central ÒMarta AbreuÓ de Las Villas, Santa Clara, 54830 Villa Clara, Cuba. 2Departamento de Qu’mica F’sica Aplicada, Facultad de Ciencias, Universidad Aut—noma de Madrid (UAM), 28049 Madrid, Espa–a. 3Unit of Computer-Aided Molecular ÒBiosilicoÓ Discovery and Bioinformatics Research (CAMD-BIR Unit), Faculty of Chemistry-Pharmacy, Central University of Las Villas, Santa Clara, 54830 Villa Clara, Cuba. 4Applied Chemistry Research Center-Faculty of Chemistry and Pharmacy, Molecular Simulation and Drug Design Group, Chemical Bioactive Center, Central University of Las Villas, Santa Clara, 54830, Cuba.

*e-mail: oscarrb@uclv.edu.cu


                                                                                                         Recibido el 2 de octubre de 2013     An. Real Acad. Farm. Vol 79, N¼ 4 (2013), pag. 530-561

RESUMEN

El desarrollo de f‡rmacos es una tarea en extremo compleja pero tambiŽn muy apreciada por la sensibilidad que genera el impacto negativo de las enfermedades en la sociedad moderna. En este trabajo de revisi—n se tratar‡n las caracter’sticas generales del paradigma tradicional del proceso de desarrollo de f‡rmacos. Posteriormente, se abordar‡n las tŽcnicas de cribado virtual basadas en el concepto de similitud molecular como alternativa racional y complementaria a las primeras fases dicho proceso. En este sentido, se har‡ Žnfasis en la bœsqueda de similitud y sus componentes esenciales.

Palabras clave: Proceso de desarrollo de f‡rmacos; TŽcnicas de cribado virtual; Similitud molecular; Bœsqueda de similitud.

aBSTRACT

Overview on the drug development process and molecular similarity-based virtual screening techniques

Drug development is a very complex task but also very appreciated by the sensibility that generates the negative impact of diseases in modern society. In this review, we will address the general characteristics of the traditional paradigm of drug development pipeline. Later, virtual screening techniques will be introduced as a rational and complementary alternative to the early stages of this process. In this sense, we will focus on similarity searching and its key components.

Keywords: Drug development process; Virtual screening techniques; Molecular similarity; Similarity searching.

1. INTRODUCCIîN

El desarrollo de una terapia para una patolog’a espec’fica es un proceso usualmente estructurado en tres pasos. El primer paso -identificaci—n de la diana biol—gica o terapŽutica- consiste en la identificaci—n de una molŽcula biol—gica, mayormente prote’nas, involucrada en algœn mecanismo que participa en algœn proceso patol—gico. El prop—sito del segundo paso es identificar una molŽcula con un perfil biol—gico interesante, capaz de interferir con el blanco terapŽutico antes mencionado. Eventualmente, antes de que el candidato a f‡rmaco entre al mercado, en el tercer paso -validaci—n cl’nica- debe probar su eficiencia y seguridad a travŽs de una evaluaci—n extensiva en animales y humanos (1, 2).

1.1. Identificaci—n de la diana biol—gica o terapŽutica

El objetivo principal en la investigaci—n terapŽutica es interferir alguna v’a o se–al metab—lica responsable de una enfermedad o proceso patol—gico. Las v’as o se–ales metab—licas son cascadas de reacciones qu’micas intracelulares que llevan respectivamente a la formaci—n de un producto metab—lico que es usado por la cŽlula, o a una alteraci—n de la expresi—n de un gen debido a la activaci—n de factores de transcripci—n. La tarea de la investigaci—n terapŽutica es encontrar una molŽcula de f‡rmaco capaz de modificar esta v’a mediante la alteraci—n de una entidad clave involucrada en la cascada de reacciones correspondiente: el blanco terapŽutico. La identificaci—n del blanco involucra conocimientos tanto biol—gicos como qu’micos, con el objetivo de descubrir blancos potenciales y conocer en quŽ medida este puede ser alterado por una molŽcula de f‡rmaco (2). Previo a la fase de descubrimiento de f‡rmacos, el blanco terapŽutico identificado debe ser validado con el objetivo de demostrar su papel determinante en la enfermedad. Esta validaci—n usualmente involucra experimentos in vitro e in vivo (3).

1.2. Descubrimiento de f‡rmacos

En este segundo paso, el objetivo es encontrar una molŽcula peque–a, denominada ligando, capaz de unirse mediante fuerzas intermoleculares al blanco biol—gico y alterar su funcionamiento normal. Esta interacci—n se dice que es directa cuando el f‡rmaco se une al sitio activo del blanco y compite con su sustrato natural, o indirecta si el f‡rmaco se une a un sitio secundario e induce cambios en la conformaci—n qu’mica del blanco, modulando as’ su afinidad con el ligando natural (4). Para cuantificar la actividad del ligando, correspondiente al grado de interacci—n con el blanco, se debe dise–ar un procedimiento experimental denominado ensayo de la actividad biol—gica. La actividad de las molŽculas candidatas puede ser subsecuentemente ensayada con el objetivo de encontrar candidatos a f‡rmacos, o compuestos l’deres, capaces de interferir con el blanco a bajas concentraciones (1). La identificaci—n de candidatos prometedores en esta vasta (casi infinita) cantidad de molŽculas depende fuertemente de la pericia bioqu’mica y que tradicionalmente se logra en un proceso iterativo, denominado como el ciclo de descubrimiento de f‡rmacos que alterna entre los pasos de selecci—n, s’ntesis y ensayo biol—gico de los candidatos, guiando este œltimo al pr—ximo paso de selecci—n (5).

Durante los ensayos biol—gicos iniciales del ciclo de descubrimiento de f‡rmacos son identificados las entidades noveles o ÒhitsÓ. A esta fase de generaci—n de hits le sigue la fase de generaci—n de cabezas de serie, l’deres o ÒleadsÓ, donde los hits identificados son validados mediante ensayos confirmativos y refinados estructuralmente con el objetivo de incrementar su potencia con respecto al blanco. De lograrse una potencia suficiente, se pueden realizar ensayos biol—gicos adicionales para asegurar que el compuesto l’der no interacciona con prote’nas hom—logas al blanco, con el fin de limitar sus efectos secundarios (6).

Hasta este punto, es posible identificar compuestos l’deres con perfiles de uni—n al blanco adecuado. Sin embargo, el f‡rmaco no solo debe interferir con el blanco terapŽutico, sino que adem‡s debe poseer un perfil biol—gico favorable, espec’ficamente una toxicidad baja, de manera que no sea da–ino para el organismo, y propiedades farmacocinŽticas adecuadas. De manera general, la farmacocinŽtica est‡ relacionada con el comportamiento de un f‡rmaco en el organismo, tales como su capacidad de pasar al torrente circulatorio y alcanzar el blanco, y ser posteriormente destruido y eliminado por el organismo. Las principales propiedades farmacocinŽticas se resumen en el acr—nimo ADME, que incluye los procesos de Absorci—n, Distribuci—n, Metabolismo y Excreci—n (7, 8).

De este modo, el desarrollar un medicamento exitoso es el resultado del descubrimiento del mejor compromiso entre numerosos objetivos que muy a menudo compiten entre s’. El fracaso de un candidato a f‡rmaco con una potencia adecuada durante el proceso de desarrollo es debido principalmente a una pobre biodisponibilidad, y/o toxicidad (9). De forma simplificada, el f‡rmaco ideal deber’a tener la mayor eficacia terapŽutica y biodisponibilidad, y la m’nima toxicidad posible, lo que evidencia la naturaleza multiobjetiva del proceso de descubrimiento de f‡rmacos (ver Figura 1). Lo anterior sugiere que en la fase de optimizaci—n del l’der, la capacidad de mejorar el perfil terapŽutico del candidato seleccionado bas‡ndose solamente en su actividad farmacol—gica se ha sobreestimado lo que refuerza, durante la fase de identificaci—n del l’der, considerar las propiedades toxicol—gicas y farmacocinŽticas del candidato paralelamente a sus propiedades farmacol—gicas en etapas anteriores a la optimizaci—n (10). Todo lo anterior ha llevado tanto a la academia como a la industria farmacŽutica a una reconsideraci—n del paradigma secuencial del proceso de descubrimiento de f‡rmacos en favor a un enfoque multiobjetivos del proceso del mismo (11, 12).

Figura 1.- Ilustraci—n gr‡fica del compromiso entre eficacia terapŽutica (potencia), biodisponibilidad (propiedades ADME) y toxicidad (seguridad) requerido para alcanzar un f‡rmaco exitoso.

La fase final del descubrimiento de f‡rmacos es la fase de optimizaci—n del l’der, donde se refina la estructura qu’mica del mismo de manera que cumpla con los criterios requeridos para convertirse en un f‡rmaco. Este proceso de optimizaci—n es altamente iterativo y se considera la fase m‡s cr’tica del proceso de descubrimiento de f‡rmacos ya que es aqu’ donde ocurre la mayor cantidad de fallas. Una vez descubierto un compuesto l’der con caracter’sticas de f‡rmaco prometedoras, el paso final hacia la puesta en el mercado del f‡rmaco es la fase de validaci—n cl’nica (11).

1.3. Validaci—n cl’nica

Previo a la puesta en el mercado, el candidato a f‡rmaco debe ser validado durante una fase de prueba extensiva, dirigida a demostrar su eficacia y seguridad para el organismo humano: la validaci—n cl’nica. Esta fase comienza con la realizaci—n de pruebas preliminares de seguridad en animales, la etapa precl’nica, y es subsecuentemente articulada en tres fases (11):

¥ Fase I (1 a 2 a–os): Inicialmente se llevan a cabo pruebas de seguridad con un nœmero limitado (< 100) de personas sanas.

¥ Fase II (1 a 2 a–os): Seguidamente se llevan a cabo pruebas de seguridad y eficacia a una muestra mayor compuesta por cientos de personas que incluye grupos de sanos y enfermos.

¥ Fase III (2 a 3 a–os): Finalmente, el estudio se completa con la realizaci—n de pruebas de eficacia a gran escala, las que involucran una muestra mucho mayor de personas (miles) de diferentes ‡reas demogr‡ficas.

Eventualmente, una vez previstos los resultados de este estudio cl’nico y concedida la aprobaci—n gubernamental, entonces puede comenzar la explotaci—n comercial del f‡rmaco. La aprobaci—n gubernamental es concedida, por ejemplo, por la Administraci—n de Alimentos y Medicamentos (FDA, del inglŽs Food and Drugs Administration) en los Estados Unidos de AmŽrica, por la Agencia Europea de Medicamentos (EMA, del inglŽs European Medicines Agency) en la comunidad Europea, por la Agencia Espa–ola de Medicamentos y Productos Sanitarios (AEMPS) en Espa–a o para el caso particular de Cuba por el Centro para el Control Estatal de la Calidad de los Medicamentos (CECMED).

Figura 2.- Representaci—n esquem‡tica general del proceso de descubrimiento y desarrollo de f‡rmacos.

Un estudio relativamente reciente llevado a cabo por el Boston Consulting Group (BCG) y que involucr— a 50 compa–’as e instituciones acadŽmicas, mostr— que el coste de desarrollo de un nuevo medicamento desde la identificaci—n de su diana farmacol—gica, el descubrimiento y optimizaci—n de uno de los nuevos compuestos l’deres, el desarrollo de los ensayos cl’nicos requeridos y su uso autorizado en terapŽutica es como promedio de 880 millones de d—lares (USD) y se necesita tambiŽn como promedio un per’odo de 15 a–os de investigaci—n [ver figura 2] (13)

1.4. Necesidad de nuevos paradigmas

Hasta los a–os 80, el paso de generaci—n de hits o candidatos potenciales (molŽculas que muestran una determinada actividad qu’mica pero que no necesariamente cumplen con los requerimientos de eficiencia de un lead o compuesto l’der) constitu’a el principal paso limitante del proceso de descubrimiento y desarrollo de nuevos f‡rmacos (DDDP, del inglŽs Drug Discovery and Development Process) debido al costo de la s’ntesis y evaluaci—n de nuevas molŽculas (10). Durante esta etapa las esperanzas de resolver el problema del DDDP fueron puestas en el desarrollo de las tecnolog’as de alto rendimiento (14) y la qu’mica combinatoria (15), a travŽs de una paralelizaci—n masiva del proceso. En la pr‡ctica, se evidenci— que si no eran utilizadas cuidadosamente, el uso indiscriminado de estas tŽcnicas podr’a conducir a un aumento dram‡tico del nœmero de molŽculas o candidatos, de manera que el descubrimiento de un nuevo f‡rmaco ser’a como hallar una aguja en un pajar. Mientras que el nœmero de hits identificados pudo ser incrementado sustancialmente, se observ— que no exist’a una correspondencia con el crecimiento del nœmero de f‡rmacos que entraban al mercado, dejando esto claro que el verdadero paso limitante del descubrimiento de f‡rmacos no era la generaci—n de hits, sino los pasos de identificaci—n y optimizaci—n del compuesto l’der (10). Como resultado, este tipo de soluci—n a gran escala ha sido abandonada progresivamente en los œltimos a–os, favoreciŽndose una racionalizaci—n del proceso, en la que los mŽtodos computacionales han ganado una importancia creciente (10).

2. MƒTODOS COMPUTACIONALES O IN SILICO

Debido a la necesidad de explotar las cantidades masivas de datos generados por las tecnolog’as de alto rendimiento, los mŽtodos computacionales se han ido implementando de manera creciente en el proceso de descubrimiento de f‡rmacos (7). Para unificar la combinaci—n de los mŽtodos computacionales y la Qu’mica Medicinal, F. K. Brown acu–— en 1998 el tŽrmino Òquimioinform‡ticaÓ definiŽndola como: Òla combinaci—n de aquellos recursos de informaci—n para transformar datos en informaci—n y la informaci—n en conocimiento con el prop—sito de tomar mejores y m‡s r‡pidas decisiones en el ‡rea de la identificaci—n y optimizaci—n de compuestos l’deresÓ (16). Actualmente, este concepto aparece definido de una manera m‡s amplia para considerar la quimioinform‡tica como Òla aplicaci—n de mŽtodos inform‡ticos para resolver problemas qu’micosÓ (17). Esta definici—n general engloba mœltiples aspectos como la representaci—n, almacenamiento, recolecci—n y an‡lisis de la informaci—n qu’mica en un sistema inform‡tico. Algunos de los frentes de trabajo abiertos en esta ‡rea relativamente joven continœan siendo la miner’a de textos qu’micos, los estudios QSAR, el dise–o de f‡rmacos basado en estructura y el dise–o de f‡rmacos basado en fragmentos (18).

2.1. Cribado virtual

El cribado virtual (VS, del inglŽs Virtual Screening) in silicoconsiste en el an‡lisis computacional de bases de datos de compuestos, dirigido a identificar y seleccionar un nœmero limitado de candidatos que posean la actividad biol—gica deseada sobre un blanco terapŽutico espec’fico (19). Este paradigma Òm‡s racionalÓ puede verse como una alternativa al cribado de alto rendimiento (HTS, del inglŽs High Throughput Screening) con las ventajas de que pueden ser evaluadas in silico cantidades arbitrarias de molŽculas reales o virtuales y se pueden ahorrar como promedio 140 millones de USD y 0.9 a–os por cada f‡rmaco (20). En esencia, los enfoques HTS y VS poseen una naturaleza complementaria entre s’, por cuanto se han introducido varios y diversos conceptos y mŽtodos computacionales para analizar datos de cribado experimental, extraer conocimiento de los experimentos HTS y derivar modelos predictivos de actividad (21).

En la pr‡ctica, el cribado virtual requiere del conocimiento de la estructura del blanco terapŽutico, usualmente obtenido por mŽtodos cristalogr‡ficos, o de la actividad, medida experimentalmente, en un conjunto de compuestos. Si la estructura de la diana farmacol—gica es conocida, el enfoque m‡s comœn para el cribado virtual son los estudios de acoplamiento o ÒdockingÓ, los que consisten en la derivaci—n de una puntuaci—n o ÒscoreÓ de la actividad a partir del posicionamiento —ptimo del ligando en el sitio activo del blanco (6). Este enfoque de cribado virtual suele brindar los resultados m‡s confiables y al mismo tiempo resulta atractivo por el gran nœmero (alrededor de 500) de dianas farmacol—gicas disponibles (ver Figura 3).

Figura 3.- Dianas farmacol—gicas distribuidas en siete clases bioqu’micas principales, donde las enzimas y receptores representan la parte mayoritaria.

Si se desconoce la estructura del blanco, los mŽtodos de cribado virtual pueden derivarse de un grupo de compuestos con actividad conocida obtenidos de ensayos experimentales previos. Estos mŽtodos se conocen como enfoques de cribado virtual basados en ligandos, en oposici—n al enfoque anterior basado en la estructura del blanco. Alternativamente, el conjunto de compuestos activos puede usarse para derivar un modelo farmac—foro que puede usarse como un filtro para eliminar aquellos compuestos que no cumplan con las condiciones de actividad necesarias (22).

Una de las herramientas m‡s simples y populares del cribado virtual de conjuntos de datos quimio(bio)inform‡ticos lo constituye la bœsqueda de similitud, la cual es ampliamente utilizada en las etapas m‡s tempranas de los programas de descubrimiento de l’deres. Su funci—n principal es identificar los compuestos activos que m‡s se asemejan a la estructura de referencia que luego pueden servir de base para m‡s estudios detallados de cribado virtual que emplean tŽcnicas m‡s refinadas (23). Dentro de las tŽcnicas m‡s usadas en el an‡lisis de diversidad de bibliotecas de cribado y combinatorias se encuentran los algoritmos de agrupamiento, cuya idea esencial consiste en subdividir el conjunto de molŽculas en grupos o clœsteres de modo que la similitud intra cluster sea m‡xima mientras que la similitud inter clœster sea m’nima; los algoritmos de partici—n, que consisten en subdividir el rango de valores de un peque–o grupo de caracter’sticas, relevantes a la uni—n del ligando al receptor y previamente identificadas por el investigador, en sub rangos, cuya combinaci—n genera una malla n-dimensional de celdas a las cuales son asignadas las molŽculas del repositorio, de modo que los valores de las caracter’sticas estudiadas en las mismas concuerden con aquellos ÒencerradosÓ en una celda espec’fica; los algoritmos basados en disimilitud, que a diferencia de los anteriores buscan identificar directamente un subconjunto diverso mediante la selecci—n iterativa de compuestos que son lo m‡s diferentes posible a aquellos que han sido seleccionados previamente; y los algoritmos basados en optimizaci—n, que parten de definir una medida de diversidad cuantitativa y entonces la selecci—n del conjunto m‡s diverso posible se formula en tŽrminos de los problemas de optimizaci—n combinatoria (24).

Algunos estudios previos sugieren que los algoritmos de agrupamiento brindan un mejor balance entre representatividad y diversidad que otras tŽcnicas basadas en disimilitud para el an‡lisis de diversidad (25,26). Un estudio muy reciente que aborda la comparaci—n de varios de los algoritmos de agrupamiento m‡s exitosos en Quimioinform‡tica (i.e., la clase de los algoritmos no superpuestos, jer‡rquicos, aglomerativos, secuenciales y combinatorios, CSAHN) puede encontrarse en (27). En este contexto, atenci—n especial merecen las tŽcnicas r‡pidas de tendencia al agrupamiento que permiten obtener una evaluaci—n de la Òpredisposici—nÓ de los datos qu’micos a ser agrupados antes de ejecutarse la tŽcnica de agrupamiento en s’. La importancia pr‡ctica de estas tŽcnicas radica en evitar formarse una idea err—nea acerca de la organizaci—n de los datos como estructurados en clœsteres cuando en realidad provienen de una œnica poblaci—n aleatoria, adem‡s que evitan el malgasto de recursos computacionales y de tiempo (28).

Un enfoque m‡s exacto de los mŽtodos de cribado virtual consiste en la construcci—n de un modelo que correlacione la estructura de las molŽculas con sus respectivas actividades biol—gicas a partir de un grupo de molŽculas previamente evaluadas. Este problema se conoce como la modelizaci—n de la relaci—n estructura-actividad (REA) m‡s comœnmente conocido por sus siglas en inglŽs QSAR, acr—nimo de Quantitative Structure-Activity Relationship, e involucra mŽtodos de los campos de la Estad’stica y el Aprendizaje Autom‡tico (29, 30). La utilidad pr‡ctica de este enfoque se ha constatado, por ejemplo, en estudios de identificaci—n de nuevas entidades anti protozoarias (Trichomona vaginalis) mediante la tŽcnica estad’stica An‡lisis Discriminante Lineal usando descriptores moleculares definidos por el Prof. Dr. Yovani Marrero Ponce (31-33). Este enfoque tambiŽn se ha aplicado en el descubrimiento de f‡rmacos frente a la enfermedad de Chagas (34). Algunos de los algoritmos m‡s populares en el ‡rea de la miner’a de datos pueden estudiarse en (35).

3. GENERALIDADES DE LA SIMILITUD MOLECULAR

El concepto de similitud ha ganado un espacio cada vez m‡s importante en la quimioinform‡tica debido fundamentalmente al principio de similitud, el cual plantea que molŽculas con estructuras similares tienden a exhibir propiedades similares (36). Este principio parece ser una adaptaci—n de un proceso que, segœn algunos autores, es el reflejo directo del nœcleo del sistema cognitivo humano, el razonamiento por analog’a (37), y ha sido apoyado por un buen nœmero de resultados experimentales [ver por ejemplo referencia (38)]. Sin embargo, otros hallazgos han sugerido que eventualmente molŽculas estructuralmente similares exhiben comportamientos disimilares, as’ como molŽculas estructuralmente disimilares exhiben comportamientos similares (39). Para sistematizar este cuerpo de evidencias algunos autores han propuesto, en el contexto del dise–o de f‡rmacos, un cuadro (matriz de confusi—n) de cuatro hip—tesis bayesianas , i.e., i-) molŽculas estructuralmente similares es muy plausible que tengan actividades similares, ii-) molŽculas estructuralmente similares es plausible que tengan actividades disimilares, iii-) molŽculas estructuralmente disimilares es plausible que tengan actividades similares, iv-) molŽculas estructuralmente disimilares es muy plausible que tengan actividades disimilares (40). Las hip—tesis i-) y iv-) conforman la l—gica de base para tŽcnicas como la bœsqueda de similitud y los algoritmos de agrupamiento para la selecci—n de compuestos intra clœster (41, 42). La hip—tesis ii-) conforma la l—gica de base de un grupo de tŽcnicas novedosas para el an‡lisis y visualizaci—n de los acantilados de actividad y una de sus aplicaciones potenciales es la identificaci—n de peque–os cambios moleculares responsables de un cambio abrupto en la actividad, que de por s’ conlleva un gran interŽs (43). Por œltimo, la hip—tesis iii-) conforma la l—gica de base de tŽcnicas basadas en diversidad para la bœsqueda de estructuras patrones o ÒScaffold HoppingÓ, que se refiere a la capacidad para identificar clases estructurales diferentes de compuestos activos a travŽs del cribado computacional y constituye el criterio de Žxito m‡s importante en las aplicaciones de cribado virtual prospectivo (44).

3.1. TŽcnica de bœsqueda de similitud

La bœsqueda de similitud es una de las tŽcnicas de cribado virtual m‡s simples (vide supra), en la cual una estructura bioactiva conocida se usa como consulta frente a una base de datos para identificar las molŽculas vecinas m‡s cercanas, que al mismo tiempo son las m‡s probables que exhiban la bioactividad de interŽs (45). En la literatura se han reportado varios estudios comparativos entre tŽcnicas de bœsqueda de similitud resaltando sus meritos y deficiencias [ver por ejemplo (46)]. Sin embargo, como Sheridan y Kearsley (2002) han se–alado, es muy poco probable que un solo mecanismo de bœsqueda pueda comportarse consistentemente superior a los dem‡s en todos los problemas (47). Por esta raz—n, tiene sentido aplicar tŽcnicas de bœsqueda complementarias y combinar los resultados individuales en un resultado consenso para extender el dominio de problemas con resultados satisfactorios, este enfoque se ha dado a conocer en los œltimos a–os como fusi—n de datos (48).

3.2. Componentes de la bœsqueda de similitud

La bœsqueda de similitud molecular comprende cuatro componentes esenciales: el conjunto de datos estructurales qu’micos, que cubre cierta regi—n del espacio qu’mico a explorar; las estructuras de referencia o consulta, que contienen la informaci—n qu’mica de interŽs a recuperar; la representaci—n matem‡tica de los compuestos qu’micos, a travŽs de descriptores moleculares; la medida de (di)similitud, que cuantifica el grado y tipo de semejanza entre dos compuestos qu’micos; y el algoritmo de emparejamiento o ÒmatchingÓ, cuya funci—n es buscar y recuperar los compuestos m‡s parecidos a la molŽcula de referencia (49).

3.2.1. Conjuntos de datos qu’micos

El desempe–o de los ’ndices de similitud, descriptores moleculares e, incluso, enfoques de validaci—n, es altamente dependiente de las bases de datos de entrenamiento y prueba. Actualmente existe un nœmero considerable de conjuntos de datos estructurales para la evaluaci—n pr‡ctica de las tŽcnicas de cribado virtual, de entre los m‡s populares se encuentran: la mega base de datos del proyecto PubChem, disponible gratuitamente (50); la base de datos de los cribados anti-VIH y anti cancer’geno del Instituto Nacional del C‡ncer (NCI, del inglŽs National C‡ncer Institute), disponible gratuitamente (51); los repositorios de datos de la Sociedad de Quimioinform‡tica y QSAR, disponibles gratuitamente (52); los conjuntos de datos de la Academia Internacional de Qu’mica Matem‡tica, disponibles gratuitamente (53); la base de datos MDDR (MDL Drug Data Report), comercial; la base de datos WDI (World Drug Index), comercial (54); y la base de datos WOMBAT (World of Molecular Bioactivity Data), comercial (55). La tendencia actual de las bases de datos quimioinform‡ticas es pasar al dominio pœblico (56, 57).

Especial atenci—n merecen los conjuntos de datos para prop—sitos de comparaci—n de nuevas herramientas de cribado. En la literatura se recomienda el uso de los conjuntos de datos MUV dise–adas por Rohrer et al. (2009). Estos conjuntos de datos de compuestos activos y se–uelos de activos ÒdecoysÓ (inactivos confirmados) fueron construidos usando herramientas estad’sticas de dise–o experimental basadas en la tŽcnica del an‡lisis refinado de los vecinos m‡s cercanos y est‡n orientadas a minimizar problemas encontrados con el uso de las mŽtricas de desempe–o (vide infra) en otros conjuntos de validaci—n como el enriquecimiento artificial, donde la clasificaci—n es causada por diferencias en propiedades simples y usualmente irrelevantes entre activos y decoys; el sesgo de an‡logos, causada por la tendencia de los conjuntos de datos a sobre representar las clases de activos y deriva en una clasificaci—n sobreestimada de los mismos. Estos dos problemas se tienden a englobar en el problema denominado sesgo de conjuntos de datos de referencia. El œltimo problema de este tipo se refiere a la varianza de los resultados de validaci—n, causada por usar conjuntos indebidamente desbalanceados que conducen al efecto de saturaci—n de las curvas ROC correspondientes (58). En los œltimos a–os, algunos autores han alertado acerca de otro tipo de problemas m‡s sutiles que concierne la calidad de conjuntos de datos altamente referenciados como son los errores estructurales, presencia de compuestos duplicados, errores de correspondencia de los datos estructurales con las mediciones experimentales, falta de reproducibilidad en las mediciones experimentales, etc. Los hallazgos sugieren que el tener estructuras err—neas representadas por descriptores err—neos deriva en un efecto perjudicial para el desempe–o y la fiabilidad de las predicciones de los modelos de cribado. Para solucionar estos problemas los investigadores proponen se utilicen un buen nœmero de potentes herramientas de software libre as’ como una œltima etapa de inspecci—n ÒmanualÓ (59).

Hasta el momento, la comunidad cient’fica internacional no ha adoptado ningœn conjunto de datos est‡ndar para la comparaci—n de medidas de similitud, probablemente por la imposibilidad de encontrar un grupo œnico de molŽculas que reagrupe todas las necesidades de cribado de la Quimioinform‡tica moderna (39). Por este motivo se ha sugerido que, para validar un mŽtodo nuevo, los investigadores deben presentar al menos 10 conjuntos con actividades diversas con m‡s de un est‡ndar de comparaci—n (47).

3.2.2. Espacio qu’mico y representaci—n molecular

Cercanamente aliado con la noci—n de similitud molecular es el de espacio qu’mico. Los espacios qu’micos proveen un medio para conceptualizar y visualizar la similitud molecular. El concepto de espacio qu’mico se deriva de la noci—n de espacio usado en Matem‡ticas y consiste en un conjunto de molŽculas y un conjunto de relaciones asociadas (similitudes, disimilitudes, distancias) entre las molŽculas, lo cual le da al espacio una ÒestructuraÓ (60).

El espacio qu’mico se puede describir usando una codificaci—n basada en coordenadas o una codificaci—n libre de coordenadas de las estructuras qu’micas. En la codificaci—n individual de molŽculas (espacio basado en coordenadas), cada molŽcula se describe mediante un vector de fragmentos o subestructuras, traducido posteriormente en un vector de descriptores moleculares (DMs) y, por tanto, tiene una posici—n absoluta en un espacio multidimensional. La dimensi—n de este espacio se especifica por el nœmero de rasgos no correlacionados (descriptores de complejidad, descriptores de solubilidad, huellas dactilares o ÒfingerprintsÓ, tripletes de farmac—foros, u otro vector de descriptores). Por otra parte, en la codificaci—n por pares de molŽculas (espacio libre de coordenadas) solo se calculan las distancias entre dos molŽculas usando una medida de similitud expl’cita o impl’cita. La posici—n absoluta de las molŽculas en este espacio se puede calcular solamente si se miden todas las distancias por pares y se conoce la dimensionalidad del espacio (descriptores de pares de ‡tomos, ‡rboles de rasgos, enfoques de Subestructura M‡xima Comœn) (61-63).

Cuatro tipos de objetos matem‡ticos se utilizan normalmente para representar las molŽculas, estos son: conjuntos, grafos, vectores y funciones. Los conjuntos son los objetos m‡s generales y, b‡sicamente, la base de los otros tres. Normalmente, los qu’micos representan molŽculas como Ògrafos qu’micosÓ (64), que est‡n estrechamente relacionados con los tipos de grafos tratados por los matem‡ticos en el campo de la teor’a de grafos (65).

Los grafos qu’micos proporcionan una met‡fora potente e intuitiva para la comprensi—n de muchos aspectos de la qu’mica, pero sin embargo tienen sus limitaciones, especialmente cuando se trata de cuestiones de interŽs en la quimiometr’a y quimioinform‡tica.

En estos campos de informaci—n molecular se representan normalmente los vectores de caracter’sticas, donde cada componente corresponde a una funci—n local o global caracter’stica de una molŽcula. Las caracter’sticas locales incluyen fragmentos moleculares (subestructuras), farmac—foros (66), varios ’ndices topol—gicos (67), y cargas at—micas parciales, entre otras. Las caracter’sticas globales incluyen caracter’sticas tales como el peso molecular, logP, la superficie polar, varios BCUTs y el volumen molecular (49).

M‡s recientemente, con el aumento significativo de la potencia de los ordenadores, incluso en PCs de escritorio, los mŽtodos para identificar directamente los rasgos de las molŽculas 3D se han vuelto m‡s frecuentes. Las caracter’sticas aqu’ se refieren generalmente a diversos tipos de campos moleculares, algunos, como la densidad electr—nica ("estŽrica"), otros como los campos potenciales elŽctricos (26) y tambiŽn como campos potenciales lipof’licos (68). Los campos moleculares son generalmente representados como funciones continuas. Los campos discretos tambiŽn se han utilizado aunque algo menos frecuente (69).

De acuerdo a la naturaleza en su definici—n y a la complejidad de los rasgos moleculares estructurales que se codifican, los DMs se clasifican de forma general segœn las dimensiones que abarcan en: DMs-0D (Descriptores Constitucionales), DMs-1D (Descriptores Unidimensionales), DMs-2D (Descriptores Bidimensionales o Invariantes de Grafos), DMs-3D (Descriptores Tridimensionales), y DMs-4D (Descriptores Tetradimensionales).

Los DMs-0D son descriptores que se obtienen directamente de la f—rmula molecular y son independientes de cualquier conocimiento sobre la estructura molecular, por ejemplo, el nœmero de ‡tomos (A), el peso molecular (MW), conteo de ‡tomos-tipo (Nx) o cualquier funci—n de las propiedades at—micas. Los DMs-1D est‡n basados en la representaci—n unidimensional de la molŽcula (o representaci—n que consiste en una lista de fragmentos estructurales de la molŽcula), aunque no requieren del conocimiento completo de la estructura molecular, tal es el caso de los descriptores de bœsqueda y an‡lisis subestructural, como los Descriptores de Conteo de Fragmentos.

Los DMs-2D se basan en la representaci—n bidimensional o topol—gica de la molŽcula, o sea, que consideran la conectividad de los ‡tomos (vŽrtices) en la molŽcula (pseudografo) en tŽrminos de la presencia y naturaleza de los enlaces qu’micos (aristas). Los DMs-3D son derivados de la representaci—n tridimensional de la molŽcula y se basan no solo en la naturaleza y conectividad de los ‡tomos, sino tambiŽn en la configuraci—n espacial de la molŽcula.

Finalmente los DMs-4D son descriptores basados no solo en la configuraci—n espacial de la molŽcula, sino tambiŽn en los campos escalares de interacci—n que se originan como consecuencia de la distribuci—n electr—nica en dicha entidad qu’mica, tales como los Valores de la Energ’a de Interacci—n (39).


Tabla 1.- Relaci—n entre la dimensionalidad de los descriptores y la complejidad de la representaci—n que describen.

Dimensi—n

Representaci—n T’pica

Descriptores T’picos

0D

C9H8O4

Descriptores constitucionales

(e.g., Peso molecular, Conteo de ‡tomos)

1D

 

Conteo de grupos funcionales

2D

 

Descriptores topol—gicos

3D

 

Descriptores geomŽtricos

4D

 

Energ’a de interacci—n

Otra clasificaci—n de los DMs que aunque no se menciona expl’citamente en los textos quimioinform‡ticos tiene una importancia trascendental a la hora de aplicar la modelizaci—n estad’stica y/o de aprendizaje autom‡tico es la de acorde a la naturaleza numŽrica de definici—n de los mismos, esto es, en continuos y discretos. Por ejemplo, la mayor’a de los descriptores implementados en el software DRAGON  son continuos, las principales excepciones son los bloques constitucionales, donde se pueden encontrar varios descriptores con valores discretos, y todos resultan ser los ÒcontadoresÓ (number of atoms, etc); los bloques de grupos funcionales y fragmentos centrados en ‡tomos, todos son contadores y por ende tienen valores discretos; algunos descriptores de propiedades moleculares, los descriptores tipo-f‡rmacos que comienzan en LAI y terminan en Infective-50 son binarios o booleanos (1/0); las huellas dactilares binarias 2D todas son binarias (1/0); las huellas dactilares de frecuencia 2D, todos tienen valores discretos.

Desde el punto de vista estad’stico, de acorde a la fortaleza de la medici—n de las variables o DMs, estos pueden clasificarse en las escalas de proporci—n, intervalo, ordinal y categ—rica (el caso binario para dos categor’as). Una pr‡ctica comœn en quimioinform‡tica consiste en transformar descriptores continuos y discretos (proporci—n/intervalo) en binarios (categ—rica) a travŽs de un valor de corte como la mediana, o simplemente trabajar con huellas dactilares, para aumentar la eficiencia de los algoritmos de clasificaci—n/predicci—n; sin embargo, esta pr‡ctica tambiŽn conduce a una pŽrdida de informaci—n estad’stica que se traduce en la aparici—n de ataduras en los valores de similitud y disminuci—n de la potencia de las tŽcnicas, resultando adem‡s en una menor versatilidad de las mismas (70).

La presentaci—n que se muestra en la Tabla 1 est‡ lejos de ser representativa, por lo que para una presentaci—n detallada los lectores interesados pueden referirse a la œltima versi—n del manual de descriptores moleculares de Todeschini y Consonni (2009) donde se trata este tema con profundidad (71). El nœmero de descriptores moleculares propuestos en la literatura hasta el momento es realmente amplio, para ello recientemente se han desarrollado sistemas para el c‡lculo de grandes conjuntos de descriptores algunos de ellos son el software DRAGON, comercial (72); PaDEL, disponible gratuitamente (73); y MODEL, en plataforma web y disponible gratuitamente (74). Una lista m‡s ampliada de programas para este fin puede encontrarse en el sitio web de la ref. (75).

3.2.3. Selecci—n de rasgos

Actualmente, existe un nœmero realmente grande de descriptores desarrollados que pueden ser usados en los c‡lculos de similitud (76). Sin embargo, a medida que la dimensionalidad de los datos incrementa, muchos tipos de an‡lisis de datos y problemas de clasificaci—n se vuelven computacionalmente dif’ciles. En ocasiones, tambiŽn los datos se vuelven crecientemente dispersos en el espacio que ocupan. Esto puede conducir a grandes problemas para ambos, para el aprendizaje supervisado y no supervisado. En la literatura este fen—meno se refiere como la maldici—n de la dimensionalidad (77). Para prop—sitos de bœsqueda de similitud, el aspecto m‡s relevante de la maldici—n de la dimensionalidad concierne a la medida de distancia o similitud.

Para ciertas distribuciones de datos, la diferencia relativa entre las distancias de los puntos m‡s cercanos y lejanos a un punto, independientemente seleccionado, tiende a cero a medida que la dimensionalidad aumenta (78). Por otra parte, un nœmero grande de descriptores en la representaci—n pueden contener rasgos irrelevantes o dŽbilmente relevantes, que se conoce afectan negativamente la exactitud de los algoritmos de predicci—n (79), el caso extremo de este fen—meno se ilustra en el teorema del patito feo de Watanabe; basicamente, si uno considera el universo de rasgos de los objetos y no tiene algœn sesgo cognitivo acerca de cuales de ellos son mejores, no importa cuales dos objetos uno compare, todo resultar‡ igualmente similar (disimilar) (80). En este sentido, algunos investigadores de la qu’mica medicinal han planteado que no tiene sentido hablar de diversidad sin un sistema de referencia, que est‡ dado en este caso por el ensayo biol—gico (81). Una estrategia para solucionar esta dificultad es seleccionar un conjunto de descriptores en particular para los cuales se demostr— que funcionan bien en un cierto problema. Otra estrategia es calcular primero un gran nœmero de descriptores y luego eliminar aquellos descriptores del conjunto que muestran un coeficiente de correlaci—n por encima de cierto valor. Un enfoque diferente es dejar que la computadora escoja la combinaci—n —ptima de descriptores para el problema en cuesti—n (82).

Numerosos mŽtodos autom‡ticos han sido propuestos en quimioinform‡tica para la selecci—n de rasgos, por ejemplo, la tŽcnica paso a paso de los procesos de integraci—n hacia adelante o eliminaci—n hacia atr‡s y el an‡lisis de componentes principales (83); tambiŽn ha sido propuesto el uso de los k-vecinos m‡s cercanos (84). Otros mŽtodos de selecci—n m‡s usados en la modelaci—n REA se encuentran la selecci—n secuencial hacia delante (Sequential Feature Forward Selection), la eliminaci—n secuencial hacia atr‡s (Sequential Feature Backward Elimination), el recocido simulado (Simulated Annaeling) y la selecci—n basada en algoritmos genŽticos, siendo esta œltima una de las m‡s eficientes en el campo de modelaci—n REA (85).

En el pasado, algunos enfoques estaban directamente relacionados con las Redes Neuronales Artificiales, como son: divisi—n de los pesos (86), correlaci—n en cascada (87), mapas de Kohonen (88), determinaci—n de la relevancia autom‡tica (89), etc. TambiŽn han sido presentados en la literatura especializada los Sistemas Artificiales de Colonias de Hormigas y Enjambres (90). TambiŽn ha sido evaluada la eficiencia de algunos algoritmos de poda (91).

En resumen, existe una amplia variedad de descriptores moleculares y mŽtricas usadas en los mŽtodos de similitud molecular; parece ser, sin embargo, que el mejor rendimiento se logra adaptando dicha combinaci—n al problema estudiado (92).

Una fuente excelente que aborda el tema de la selecci—n de rasgos en el contexto del Aprendizaje Autom‡tico lo constituye la revisi—n de Guyon y Elisseeff (93). Un buen nœmero de estas tŽcnicas aparecen implementadas en el software de aprendizaje autom‡tico y miner’a de datos Weka (94), que tambiŽn puede usarse para la modelizaci—n QSAR. Este producto es uno de los m‡s populares en el ‡rea del Aprendizaje Autom‡tico, es de c—digo abierto y se encuentra disponible gratuitamente (95).

3.2.4. Medidas de similitud

El concepto de similitud es fundamental para varios aspectos del razonamiento y an‡lisis qu’micos, de hecho, es tal vez la premisa fundamental de la qu’mica mŽdica, y cae bajo la rœbrica general de an‡lisis de similitud molecular. La determinaci—n de la similitud de un "objeto molecular" con otro es b‡sicamente un ejercicio de comparaci—n de patrones qu’micos.

El resultado de este ejercicio es un valor, la medida de similitud, que caracteriza el grado de concordancia, de asociaci—n, proximidad, semejanza, alineamiento, porcentaje de identidad o similitud entre pares de molŽculas manifestada por sus Òpatrones molecularesÓ, que se componen de conjuntos de rasgos.

La terminolog’a de ÒproximidadÓ a veces se utiliza en un sentido m‡s general para referirse a la similitud, disimilitud, o la distancia entre los pares de molŽculas. Las medidas de similitud son funciones que hacen corresponder pares de representaciones moleculares de la misma forma matem‡tica con nœmeros reales que usualmente, pero no siempre, yacen en el intervalo unitario [0,1] (61). La similitud es generalmente considerada como una propiedad simŽtrica, es decir, ÒAÓ es tan similar a ÒBÓ como ÒBÓ a ÒAÓ, y la mayor’a de los estudios se basan en esta propiedad. Tversky (96), sin embargo, ha argumentado persuasivamente que ciertas similitudes son inherentemente asimŽtricas.

Aunque su trabajo se orient— hacia la psicolog’a, este tiene aplicabilidad adem‡s en los estudios de similitud molecular (97). Por otra parte, cuando se aplican los conceptos de similitud y diversidad en qu’mica, es necesario definir similitudes globales y locales; las similitudes locales se centran en parte en un objeto (‡tomo, grupo funcional, las cadenas de prote’nas, cadena de ADN, etc.), mientras que las similitudes globales la semejanza se mide entre dos objetos enteros (molŽculas, prote’nas, etc.) (98).

Consideremos dos objetos qu’micos arbitrarios A y B descritos mediante vectores X e Y, respectivamente, de n atributos, de modo que .e . En la Tabla 2 se muestra un grupo de medidas de (di)similitud de amplio uso en quimioinform‡tica extra’das de la revisi—n de Ellis et al (99). Otro trabajo de revisi—n excelente sobre medidas de similitud puede encontrarse en (100).


Tabla 2.- Algunas de las medidas de proximidad m‡s usadas en la bœsqueda de similitud

Medida

F—rmulaa

Tipob

Manhattan Media

D

Euclidiana Media

D

Bray/Curtis

D

Tan

A

Dice

A

Sokal/Sneath(1)

A

Cosine/Ochiai

A

Pearson

C

axj (yj) representa el valor del descriptor del vector X (A) e Y (B) en el atributo j; bClasificaci—n de las medidas de proximidad acorde a su naturaleza de definici—n. D, coeficientes de distancia: est‡n basados en la suma de diferencias, sus valores var’an en proporci—n inversa con el grado de similitud; A, coeficientes de asociaci—n: se basan en el producto interno, y sus valores var’an en proporci—n directa con el grado de similitud, por lo que una mayor similitud se indica por el aumento de los valores; C, coeficientes de correlaci—n: Los coeficientes de correlaci—n se basan en una tercera funci—n m‡s compleja: la suma de los productos de la diferencias entre cada valor-atributo y la media de todos los valores de los atributos de cada uno de los dos vectores. Los valores de estos por lo general var’an de 1 (lo que indica que cualquier cambio en los atributos de un objeto ser’a acompa–ado por un cambio idŽntico en los atributos del otro) a -1 (que indica que un cambio en uno y ser’a acompa–ado por un cambio igual y opuesto en el otro).

Cuando los valores de atributo se limitan a 0 y 1, las expresiones utilizadas por varias similitudes y medidas de distancia pueden a menudo ser simplificadas considerablemente. Si los objetos A y B que se caracterizan por vectores X e Y que contienen n valores binarios (tales como huellas digitales) se pueden definir las cantidades a, b, c, d o elementos de la matriz de confusi—n como:

, es el nœmero de bits activos en A                                                                      (1)

, es el nœmero de bits activos en B                                                                      (2)

, es el nœmero de bits activos en A y B                                                             (3)

, es el nœmero de bits inactivos en A y B                               (4)

Por tanto,                                                                                                  (5)

Estas cantidades anteriores tambiŽn se pueden expresar en notaci—n de teor’a de conjuntos dando lugar a otras formulaciones basadas en este tipo de representaci—n (101).

Como ejemplo ilustrativo tenemos el coeficiente de Tanimoto para el caso binario dado por:

                                                                                                               (6)

Este coeficiente aplicado a las huellas dactilares 2D constituye actualmente la medida de elecci—n de los sistemas de software comerciales para la gesti—n de la informaci—n qu’mica. TambiŽn forma parte de sistemas de acceso pœblico importantes como el PubChem (50).

En un art’culo revisi—n reciente Willet (2006) resume los resultados de los estudios de comparaci—n y combinaci—n de coeficientes de similitud usando huellas dactilares en conjuntos de datos apropiados. Estos resultados muestran que algunos coeficientes se comportan monot—nicamente entre s’, lo que significa que producen clasificaciones u ordenamientos idŽnticos o muy similares de los compuestos de la base de datos frente a una estructura de referencia determinada, a pesar de que los valores del coeficiente real son diferentes. TambiŽn se ha mostrado que algunos coeficientes tienen una marcada preferencia a funcionar bien en la bœsqueda de molŽculas activas de un tama–o determinado dado aproximadamente por el nœmero de bits activos en el vector de representaci—n; por ejemplo, el coeficiente de Russel-Rao Òmuestra preferenciaÓ por molŽculas bioactivas de tama–o relativamente grande, el coeficiente de Tanimoto por molŽculas bioactivas de tama–o mediano y el coeficiente de Forbes por molŽculas bioactivas de tama–o peque–o (102).

Aœn cuando el coeficiente de Tanimoto continua siendo la medida de similitud est‡ndar en la industria y se ha usado en innumerables trabajos de investigaci—n, la evidencia indica que ningœn modelo de proximidad es universalmente superior a los dem‡s, sino que su utilidad pr‡ctica depende del problema o grupo de problemas a tratado (92). Esta conclusi—n parece estar de acorde a la dialŽctica resultante de la complementaci—n de los teoremas Ningœn Almuerzo es Gratis (NFL, del inglŽs No Free Lunch) (103, 104), y la Longitud M’nima de la Descripci—n [MDL del inglŽs Minimun Description Length] (105), correspondientemente.

3.3. Algoritmos de emparejamiento o ÒmatchingÓ

El concepto de emparejamiento ÒmatchÓ exacto y parcial, y los algoritmos de bœsqueda de emparejamiento son ampliamente utilizados en sistemas de informaci—n qu’mica basados en ordenadores con el fin de buscar una subestructura idŽntica. Una facilidad menos comœn es la provisi—n para la bœsqueda del mejor par, o vecino m‡s cercano, en la cual se recupera la estructura(s) m‡s similar a una estructura de consulta, donde la similitud se define sobre la base de alguna funci—n de coeficiente de similitud o de distancia que refleja el nœmero de fragmentos comunes de la consulta y de una molŽcula en el fichero. La bœsqueda del mejor par es la base para la clasificaci—n del k-(Žsimo) vecino m‡s cercano (kNN, del inglŽs k-Nearest Neighbor) y juega un papel importante en el uso de ‡rboles de expansi—n y tŽcnicas de clasificaci—n autom‡tica (106).

El problema general de encontrar las mejores pares se define por Friedman et al. (107) como: "... dado un fichero de m instancias (cada uno de los cuales es descrito por n atributos con valores reales) y una medida de similitud/disimilitud, encontrar las k instancias m‡s cercanas a la instancia de consulta (es posible que no estŽ dentro del fichero) con los atributos especificados". Es obvio que el algoritmo de fuerza bruta para la bœsqueda del mejor par es calcular la distancia entre la consulta y cada uno de las instancias del fichero y luego elegir las m distancias m‡s cortas, este algoritmo tiene una complejidad temporal O(mn) para el caso de una consulta simple, pero en el caso de consulta mœltiple ser’a un O(mnc), siendo c el nœmero de consultas con igual cantidad de atributos n, el cual consume demasiado tiempo para ficheros considerablemente grandes.

Un algoritmo eficiente del vecino m‡s cercano ser‡ uno que evite el c‡lculo de la mayor’a de las distancias, calculando solamente las distancias de las escasas instancias que rodean la instancia o estructura de consulta. Existen varios tipos de criterios para reducir el nœmero de c‡lculos necesarios, incluyendo la proyecci—n de las instancias d-dimensionales en un espacio de dimensi—n menor, de forma tal que varias instancias puedan ser buscadas, o eliminadas desde una bœsqueda, simult‡neamente (108). En este sentido, varios de los algoritmos reportados pueden no ser directamente aplicables a la bœsqueda de los mejores pares en contextos qu’micos ya que los primeros asumen que los atributos son variables continuas, mientras que las estructuras qu’micas son descritas frecuentemente por fragmentos de ocurrencia binaria. En estos casos, cada una de las estructuras en un archivo se representa por una cadena de bits en el que se establece el bit i-Žsimo si el fragmento correspondiente est‡ presente en la estructura. Adem‡s, a menudo se supone que las instancias se encuentran en un espacio de dimensi—n d peque–a, por lo general 2 o 3; sin embargo, para el caso de la representaci—n qu’mica binaria, d puede ser del orden de 102 o 103 (el nœmero de bits en la cadena de bits), y por ende estos algoritmos resultan ser poco factibles. Por ejemplo, el procedimiento O(nlog N) debido a Friedman et al. (1977) implica una constante de proporcionalidad alrededor de 1.6d  (107), mientras que el mŽtodo de bœsqueda de Bentley et a1. (1980) implica la inspecci—n de todas las 3d - 1 celdas adyacentes a una celda dada en un espacio d-dimensional (108).

Alternativamente, otros investigadores han centrado su atenci—n en los algoritmos de bœsqueda basados en la representaci—n binaria. Smeaton y Van Rijsbergen (1981) tienen en cuenta que un archivo invertido puede ser utilizado para aumentar la eficiencia de la bœsqueda de emparejamiento a una consulta en documentos donde tiene al menos un tŽrmino en comœn. A partir de aqu’, estos autores describen experimentos usando un procedimiento de l’mite superior que permite que la bœsqueda de la mejor pareja se termine antes de que todos los documentos en la lista de los ficheros invertidos correspondientes a la consulta hayan sido inspeccionados (109). Murtagh (1982) describe una extensi—n de este algoritmo en el que son calculados otros l’mites superiores, posibilitando una mayor reducci—n en el nœmero de documentos que necesitan ser comparados con una consulta (110).

Van Marlen y Van den Hende (1979), y Rasmussen et al. (1979) han descrito algoritmos de recuperaci—n de las mejores parejas para el uso de ficheros inform‡ticos con espectros de masa, donde la estructura es caracterizada por una cadena de bits correspondientes a los picos observados en el espectro de masa molecular (111, 112), mientras que otros autores han estudiado la bœsqueda del mejor emparejamiento en los sistemas de recuperaci—n de informaci—n molecular (106).

Baldi et al. (2008) plantean un algoritmo diferente a los dem‡s, el cual consiste en almacenar para cada molŽcula A de la base de datos, no solamente su vector correspondiente  sino tambiŽn almacenar informaci—n adicional contenida en un peque–o vector , de tama–o n siendo n potencia de 2 (esto es, si  tiene tama–o  entonces el tama–o de ). El vector  se obtiene aplicando el operador XOR (eXclusive OR, del inglŽs) al vector . Esta informaci—n adicional puede ser vista como una gu’a que precede al vector , la cual puede ser usada para derivar los l’mites œtiles en las medidas de similitud lo cual permite explorar menos del 50% de la base de datos y acelera la bœsqueda significativamente (113). M‡s recientemente, Cao et al. (2010) han reportado un algoritmo de bœsqueda y agrupamiento acelerado basado en tŽcnicas de empotramiento e indexado multidimensional que mejora en 20-400 veces a los mŽtodos secuenciales en cuanto al tiempo de bœsqueda de los 100 primeros vecinos m‡s cercanos (el algoritmo de Baldi et al. (2008) los mejora en 5.5 veces) en conjuntos de datos de 260 000-19 millones de compuestos, mientras que mantiene exactitudes comparables. Adem‡s, este algoritmo es aplicable a un amplio espectro de medidas de similitud y puede ser escalable a conjuntos de datos de hasta cientos de millones de objetos qu’micos (114).

3.4. Fusi—n de datos

La fusi—n de datos se utiliz— por primera vez en la bœsqueda de similitud a finales de los a–os noventa (115,116). B‡sicamente, existen tres tŽcnicas de fusi—n de datos y una de estas es la fusi—n de similitud, que implica la bœsqueda con una estructura de referencia y varias medidas de similitud. Otra variante es la fusi—n de grupo, que consiste en buscar mœltiples estructuras de referencia con una sola medida de similitud y se ha mostrado que es m‡s eficaz que la fusi—n de similitud. El tercer enfoque es la turbo similitud, en analog’a a los motores turbos que reutilizan los gases de escape y le imprimen una potencia mayor al veh’culo; esta tŽcnica utiliza una estructura de referencia y una medida de similitud, sin embargo, es m‡s efectiva que la bœsqueda simple porque utiliza los primeros vecinos m‡s cercanos recuperados como estructuras de referencias, ya que estos es probable que tambiŽn sean bioactivos y al mismo tiempo introducen otros rasgos estructurales que aumentan el Žxito de la bœsqueda al encontrar otros quimiotipos en el espacio qu’mico (48). Actualmente, las nuevas tŽcnicas de bœsqueda de similitud son validadas usando la tŽcnica fusi—n de datos embebida en algœn mecanismo de validaci—n cruzada. Para ello, una vez obtenidas las listas de recuperaci—n como producto de aplicar las multi consultas, es necesario combinar dicha informaci—n para derivar un puntaje fusionado y œtil para cada molŽcula del repositorio que permita el ordenamiento final del conjunto de datos. En este sentido Hert et al. (2004) introdujeron la regla de fusi—n MAX-SIM (m‡xima similitud)  que por su probada alta efectividad se ha usado durante varios a–os como el multi clasificador de facto para los estudios quimioinform‡ticos por su eficacia y simplicidad matem‡tica y computacional en el cribado de conjunto de datos farmacol—gicos (117, 118). B‡sicamente, el algoritmo MAX-SIM es uno de los mŽtodos m‡s simples para el cribado virtual por el cual una molŽcula es punteada con su similitud m‡s alta a una molŽcula activa de la multi consulta. Formalmente, si una consulta mœltiple de activos es denotada por , el puntaje asignado a una molŽcula del conjunto de datos  viene dado por:

                                                                                                    (7)

Donde,  es la similitud de la molŽcula del conjunto de datos  a la referencia  de la multi consulta, S es la funci—n de similitud y algunas de ellos han demostrado ser eficaces en la operaci—n. Sin embargo, en un estudio abarcador Chen et al. (2010) mostraron recientemente que la regla Òsuma de rangos inversosÓ se comporta superiormente a la regla MAX-SIM en los dominios de datos examinados, esto es:

                                                                                                 (8)

Donde, r es el ÒrankingÓ asignado al puntaje de similitud , relativo a los puntajes de las molŽculas del conjunto con respecto a una consulta especifica.

Esta regla de fusi—n procede del ‡rea de Recuperaci—n de Informaci—n y su efectividad se debe a la cercana relaci—n que existe entre el rango reciproco de la estructura de la base de datos con respecto a una bœsqueda de similitud simple y la probabilidad de que esta estructura comparta la misma actividad que la estructura de referencia (119).

Como alternativa a las tŽcnicas de fusi—n de datos anteriores, algunos investigadores han trabajado la ponderaci—n de rasgos binarios orientados por clases de actividad sobre la base de compuestos de referencia mœltiples y aplicados para enfatizar algunas posiciones de bits espec’ficas durante la bœsqueda de similitud. Algunas tŽcnicas de ponderaci—n de rasgos se basan en el an‡lisis de frecuencia de bits en huellas dactilares o ÒfingerprintsÓ de molecular activas y/o inactivas, perfilando, escalando y promediando los fingerprints para derivar en el c‡lculo de los fingerprints de consenso. Un grupo de tŽcnicas m‡s reciente se basan en el acallado de bits Òbit silencingÓ y difiere de los enfoques estad’sticos en que monitorean directamente el cambio en la calidad de la recuperaci—n cuando se omiten bits individuales en molŽculas de referencia activas (120). En esencia, estas tŽcnicas tambiŽn pudieran considerarse como una cuarta estrategia de fusi—n de datos, m‡s espec’ficamente fusi—n de representaci—n, y, actualmente constituyen un ‡rea de investigaci—n activa por la facilidad con que pueden calcularse, manipularse y almacenarse los descriptores binarios. Por otra parte, estas tŽcnicas tambiŽn pueden ser extendidas al caso no binario.

3.5. MŽtricas de desempe–o

Existe un debate en curso en la literatura sobre Òpuntajes de mŽritoÓ adecuados (o indicadores de desempe–o) para evaluar los ensayos de cribado virtual retrospectivos. Una mŽtrica popular es el Òfactor de enriquecimientoÓ, que es intuitivo y sencillo de interpretar. Un problema asociado con el c‡lculo de los factores de enriquecimiento simples es la dependencia de un valor de corte elegido, por lo general el 1 o 5% de la base de datos para cribado. Nicholls (2008) aboga firmemente por el uso de medidas est‡ndares, incluyendo la curva de la Caracter’stica en Operaci—n del Receptor (ROC, del inglŽs Receiver Operating Characteristics) y el ‡rea bajo la curva AUC[ROC] (121), que se aplican habitualmente en otros campos que emplean el an‡lisis estad’stico, miner’a de datos, o las tŽcnicas de aprendizaje autom‡tico (122). Sin embargo, Truchon y Bayly (2007) detectaron que la curva ROC  no tiene en cuenta expl’citamente el llamado Òproblema de la detecci—n tempranaÓ, i.e., la propiedad de un mŽtodo para recuperar compuestos activos ÒtempranamenteÓ, i.e., al principio de la lista de clasificaci—n. Espec’ficamente, este fen—meno es ejemplificado en tres situaciones donde el algoritmo de bœsqueda: 1-) ranquea la mitad de los candidatos positivos al principio de la lista y la mitad al final, 2-) distribuye los candidatos positivos uniformemente por toda la lista, 3-) ranquea todos los candidatos positivos exactamente en la mitad de la lista. Para todos los casos anteriores AUC[ROC] = 0.5 aunque, si solo algunos pocos primeros hits pueden ser probados experimentalmente, el caso 1-) es claramente mejor que el caso 2-) que, a su vez, es mejor que el caso 3-). En este sentido, los autores desarrollaron un mejoramiento de la curva ROC a travŽs de la mŽtrica Discriminaci—n Mejorada por (la distribuci—n de) Boltzmann de la ROC (BEDROC, del inglŽs Boltzmann-Enhanced Discrimination of ROC), que utiliza una ponderaci—n exponencial para asignar mayor peso a la detecci—n temprana (123). Esta medida es esencialmente una versi—n normalizada de la medida Mejora Inicial Robusta (RIE, del inglŽs Robust Initial Enhancement) (124). Del mismo modo, se ha sugerido el escalado semilogar’tmico de la ROC, pROC (125). Sin embargo, Nicholls (2008) tambiŽn presenta evidencias de una fuerte correlaci—n entre el AUC[ROC] y AUC[BEDROC], lo que sugiere a AUC[ROC] como una medida suficiente para evaluar la eficiencia de cribado virtual. Este mismo autor recomienda se aplique un ponderado exponencial a la curva ROC preferentemente a los rangos individuales de los compuestos activos dentro de los inactivos para mejorar algunas de las deficiencias de las mŽtricas AUC[RIE] y AUC[BEDROC] (121).

3.5.1. Curva ROC concentrada 

Basados en la idea de Nicholls (2008), aunque no lo citan expl’citamente, Swamidass et al. (2010) proponen la curva ROC Concentrada (CROC, del inglŽs Concentrated ROC) que consiste en magnificar uno de los ejes de la curva ROC [X representa la raz—n de falsos positivos (fpr) e Y representa la raz—n de verdaderos positivos (tpr)] a travŽs de una transformaci—n de magnificaci—n suave ya sea exponencial, de potencia o logar’tmica. La l—gica de su trabajo se basa en el Òcomportamiento del usuarioÓ que se observa en la recuperaci—n de p‡ginas web donde se conoce, como promedio, la frecuencia con que  el primero, segundo, É, n-Žsimo registro son pinchados (ÒcliqueadosÓ); la curva decreciente correspondiente de cu‡n relevante es cada rango provee informaci—n valiosa para los niveles  de intervalo y magnificaci—n requeridos; a partir de aqu’ es razonable requerir que el factor de magnificaci—n local sea proporcional a la relevancia correspondiente. Por la analog’a de estos sistemas con los sistemas de recuperaci—n en el descubrimiento de f‡rmacos, se propone se emplee una relevancia exponencialmente decreciente del ÒranqueoÓ final. Finalmente, a travŽs de resultados gr‡ficos y empleando pruebas estad’sticas robustas los autores concluyen que las variantes CROC son m‡s potentes que los mŽtodos de umbrales de corte fijo, que las variantes Curva de Acumulaci—n Concentrada (CAC, del inglŽs Concentrated Acumulation Curve), pROC y ROC (126).

La variante m‡s potente de la curva CROC se obtiene aplicando una transformaci—n de magnificaci—n exponencial del eje X (fpr) de la curva ROC dada por:

                                                                                                                      (9)

Donde, α es el factor de magnificaci—n, que para caso recomendado toma el valor α = 20 que corresponde aproximadamente a un 8% de enriquecimiento temprano (123).

Una vez establecida la funci—n de magnificaci—n , el ‡rea bajo la curva CROC puede calcularse f‡cilmente como el promedio de los valores de fpr transformados correspondientes a las posiciones de las instancias positivas en la lista de recuperaci—n como:

                                                                                               (10)

Donde,  es la raz—n de falsos positivos al nivel (rango) de cada instancia positiva i del total n.

Por œltimo, valores del ‡rea bajo CROC se pueden comparar con el valor correspondiente al clasificador aleatorio a travŽs de la formula:

                                                                                              (11)

 Donde, α = 20 la mŽtrica del clasificador aleatorio toma el valor AUC[CROC]aleat = 0.2809

4. CONCLUSIONES

El proceso tradicional de descubrimiento y desarrollo de nuevos f‡rmacos es muy costoso en tŽrminos de recursos materiales y de tiempo. Una alternativa viable y complementaria a este paradigma es el mŽtodo de cribado virtual in silico, cuya esencia radica en manipular de forma racional en tŽrminos explicativos, de dise–o y predictivos el gran volumen de informaci—n procedente del cribado de alto rendimiento y quimiotecas virtuales. Una de las tŽcnicas que resaltan por su alta eficiencia y comprobada efectividad es la bœsqueda de similitud, que contando solamente con un ordenador potente, un conjunto de datos qu’micos in silico, una medida de similitud, un algoritmo de emparejamiento e informaci—n acerca de una œnica molŽcula bioactiva de consulta, o al menos unos pocos rasgos estructurales de interŽs, es capaz de recuperar las molŽculas m‡s parecidas a la referencia, que a su vez tienen la mayor probabilidad de exhibir la bioactividad estudiada. El panorama actual brinda una magn’fica oportunidad para el uso y explotaci—n de estas tŽcnicas en la soluci—n de problemas de la qu’mica medicinal ya que, al igual que en el caso de la bioinform‡tica, los recursos quimioinform‡ticos siguen pasando aceleradamente al dominio pœblico. A pesar de ello, se debe seguir velando por la rigurosidad y calidad de los modelos y soluciones puesto que los productos finales ser‡n usados en humanos, dem‡s animales, plantas y el medio ambiente en general. Para validar y usar nuevas tŽcnicas (nuevos descriptores, medidas de similitud, algoritmos de bœsqueda) recomendamos usar conjuntos de datos no sesgados, curados y representativos del contexto bioactivo a investigar; usar representaciones moleculares eficientes pero informativas; usar tŽcnicas de selecci—n de rasgos (autom‡tica) cada vez que sea posible y usar estos rasgos seleccionados en las bœsquedas Òno supervisadasÓ de otros repositorios grandes; emplear validaci—n cruzada, cuando sea apropiado, para obtener un estimado promedio del desempe–o en las distintas regiones del espacio de entrenamiento, y finalmente, comprobar la calidad de las predicciones a travŽs de evaluaciones experimentales de la actividad in vitro e in vivo. Esperamos que en los a–os venideros, con la disponibilidad de mayores recursos virtuales gratuitos, un mayor grado en la comprensi—n del enigma encantador de la similitud molecular y los mapas de similitud, y contando con algoritmos de bœsqueda eficientes y ordenadores veloces, seremos capaces de adentrarnos cada vez m‡s en el Òespacio astron—mico qu’micoÓ descubriendo otras Ògalaxias de compuestos l’deresÓ y aportando soluciones eficaces en tŽrminos de entidades farmacol—gicas noveles en favor de una mayor calidad de vida y longevidad del ser humano.

5. AGRADECIMIENTOS

El primer autor (O.M.R.B.) quisiera agradecer a sus colegas y amigos Noel Ferro, de la Universidad de Hannover (Alemania); Nelaine Mora-Diez, de la Universidad Thomson Rivers (Canad‡) y Lourdes Casas-Cardoso, de la Universidad de C‡diz (Espa–a) por proveerle gentilmente con materiales bibliogr‡ficos œtiles. TambiŽn, quisiera reconocer el trabajo altamente eficiente del consejo editorial cient’fico de la revista Anales de la Real Academia Nacional de Farmacia. Esta investigaci—n fue financiada parcialmente por el Programa de Colaboraci—n entre la UCLV y la instituci—n belga VLIR-IUS. El programa de becas entre la Universidad Aut—noma de Madrid y la UCLV tambiŽn financi— parte de esta investigaci—n.

6. REFERENCIAS

1.     Drews, J. Drug discovery: A historical perspective. Science 2000, 287, 1960.

2.     Kubinyi, H. Strategies and recent technologies in drug discovery. Pharmazie 1995, 50, 647.

3.     Chanda, S.; & Caldwell, J. Fulfilling the promise: Drug discovery in the postgenomic era. Drug Discov Today 2003, 8, 168.

4.     Ren, J.; & Stammers, D. HIV reverse transcriptase structures: Designing new inhibitors and understanding mechanisms of drug resistance. Trends Pharmacol Sci 2005, 26, 4.

5.     Manly, C.; Louise-May, S.; & Hammer, J. The impact of informatics and computational chemistry on synthesis and screening. Drug Discov Today 2001, 6, 1101.

6.     Jorgensen, W. The many roles of computation in drug discovery. Science 2004, 303, 1813.

7.     Xu, J.; & Hagler, A. Chemoinformatics and drug discovery. Molecules 2002, 7, 566.

8.     Boobis, A.; Gundert-Remy, U.; Kremers, P.; Macheras, P.; & Pelkonen, O. In silico prediction of ADME and pharmacokinetics. Report of an expert meeting organised by COST B15. Eur J Pharm Sci 2002, 17, 183.

9.     Ekins, S.; Boulanger, B.; Swaan, P.; & Hupcey, M. Towards a new age of virtual ADME/TOX and multidimensional drug discovery. J Comput Aided Mol Des 2002, 16, 381.

10.   Bleicher, K.; Bohm, H.; Muller, K.; & Alanine, A. Hit and lead generation: Beyond high-throughput screening. Nat Rev Drug Discov 2003, 2, 369.

11.   DiMasi, J.; Hansen, R.; & Grabowski, H. The price of innovation: New estimates of drug development costs. J Health Econ 2003, 22, 151.

12.   Cruz-Monteagudo, M.; Borges, F.; & Cordeiro, M. N. D. S. Jointly handling potency and toxicity of antimicrobial peptidomimetics by simple rules from desirability theory and chemoinformatics. J Chem Inf Model 2011, 51, 3060.

13.   Tollman, P.; Guy, P.; Altshuler, J.; Flanagan, A.; & Steiner, M. Revolution in R&D, How Genomics and Genetics are Transforming the Biopharmaceutical Industry; Group, B. C.; Massachusetts, 2001.

14.   Bajorath, J. Integration of virtual and high-throughput screening. Nat Rev Drug Discov 2002, 1, 882.

15.   Lazo, J.; & Wipf, P. Combinatorial chemistry and contemporary pharmacology. J Pharmacol Exp Ther 2000, 293, 705.

16.   Chen, W. L. Chemoinformatics: past, present, and future. J Chem Inf Model 2006, 46, 2230.

17.   Gasteiger, J. Chemoinformatics: a new field with a long tradition. Anal Bioanal Chem 2006, 384, 57.

18.   Warr, W. A. Some trends in chem (o) informatics. Methods Mol Biol 2011, 672, 1.

19.   Reddy, A. S.; Pati, S. P.; Kumar, P. P.; Pradeep, H.; & Sastry, G. N. Virtual screening in drug discovery-A computational perspective. Curr Protein Pept Sc 2007, 8, 329.

20.   Seifert, M. H. J.; Wolf, K.; & Vitt, D. Virtual high-throughput in silico screening. Biosilico 2003, 1, 143.

21.   Bajorath, J. Integration of virtual and high-throughput screening. Nat Rev Drug Discovery 2002, 1, 882.

22.   Scior, T.; Bender, A.; Tresadern, G.; Medina-Franco, J. L.; Mart’nez-Mayorga, K.; Langer, T.; Cuanalo-Contreras, K.; & Agrafiotis, D. K. Recognizing pitfalls in virtual screening: A critical review. J Chem Inf Model 2012, 52 867−881.

23.   Willett, P. In Chemoinformatics: concepts, methods, and tools for drug discovery; Bajorath, J., Ed.; Humana Press; Totowa, New Jersey, 2004; p 51.

24.   Agrafiotis, D. K. Diversity of chemical libraries. ECC 1998, 1, 742.

25.   Taylor, R. Simulation analysis of experimental design strategies for screening random compounds as potential new drugs and agrochemicals. J Chem Inf Comput Sci 1995, 35, 59.

26.   Bayada, D. M.; Hamersma, H.; & Van Geerestein, V. J. Molecular diversity and representativity in chemical databases. J Chem Inf Comput Sci 1999, 39, 1.

27.   Rivera-Borroto, O. M.; Marrero-Ponce, Y.; Garc’a-de la Vega, J. M.; & Grau-çbalo, R. d. C. Comparison of combinatorial clustering methods on pharmacological data sets represented by machine learning-selected real molecular descriptors. J Chem Inf Model 2011, 51, 3036.

28.   Rivera-Borroto, O. M.; Rabassa-GutiŽrrez, M.; Grau-çbalo, R. d. C.; Marrero-Ponce, Y.; & Garc’a-de la Vega, J. M. DunnÕs index for cluster tendency assessment of pharmacological data sets. Can J Physiol Pharmacol 2012, 90, 425.

29.   Doweyko, A. QSAR: Dead or alive? J Comput -Aided Mol Des 2008, 22, 81.

30.   Deardena, J. C.; Cronina, M. T. D.; & Kaiserb, K. L. E. How not to develop a quantitative structure–activity or structure–property relationship (QSAR/QSPR). SAR QSAR  Environ Res 2009, 20, 241.

31.   Marrero-Ponce, Y.; Meneses-Marcel, A.; Rivera-Borroto, O. M.; Garc’a-Domenech, R.; De Juli‡n-Ortiz, J. V.; Montero, A.; Escario, J. A.; Barrio, A. G.; Pereira, D. M.; & Nogal, J. J. Bond-based linear indices in QSAR: Computational discovery of novel anti-trichomonal compounds. J Comput -Aided Mol Des 2008, 22, 523.

32.   Meneses-Marcel, A.; Rivera-Borroto, O. M.; Marrero-Ponce, Y.; Montero, A.; Tugores, Y. M.; Escario, J. A.; Barrio, A. G.; Pereira, D. M.; Nogal, J. J.; & Kouznetsov, V. V. New antitrichomonal drug-like chemicals selected by bond (edge)-based TOMOCOMD-CARDD descriptors. J Biomol Screening 2008, 13, 785.

33.   Rivera‐Borroto, O. M.; Marrero‐Ponce, Y.; Meneses‐Marcel, A.; Escario, J. A.; G—mez Barrio, A.; Ar‡n, V. J.; Martins Alho, M. A.; Montero Pereira, D.; Nogal, J. J.; & Torrens, F. Discovery of novel trichomonacidals using LDA‐driven QSAR models and bond‐based bilinear indices as molecular descriptors. QSAR Comb Sci 2009, 28, 9.

34.   Campillo, N. E.; Gonz‡lez-Naranjo, P.; & P‡ez, J. A. Presente y futuro en el descubrimiento de f‡rmacos para la enfermedad de Chagas. An R Acad Nac Farm 2012, 78, 34.

35.   Wu, X.; Kumar, V.; Ross Quinlan, J.; Ghosh, J.; Yang, Q.; Motoda, H.; McLachlan, G. J.; Ng, A.; Liu, B.; & Yu, P. S. Top 10 algorithms in data mining. Knowl Inf Syst 2008, 14, 1.

36.   Johnson, M. A.; & Maggiora, G. M. Concepts and applications of molecular similarity; Wiley; New York, 1990.

37.   Hofstadter, D. In The analogical mind: Perspectives from cognitive science; Gentner, D., Ed.; The MIT Press; Cambridge, Massachusetts, 2001; p 541.

38.   Martin, Y. C.; Kofron, J. L.; & Traphagen, L. M. Do structurally similar molecules have similar biological activity? J Med Chem 2002, 45, 4350.

39.   Maldonado, A. G.; Doucet, J. P.; Petitjean, M.; & Fan, B.-T. Molecular similarity and diversity in chemoinformatics: From theory to applications. Mol Div 2006, 10, 39.

40.   Maggiora, G.; & Shanmugasundaram, V. In Chemoinformatics and Computational Chemical Biology; Bajorath, J., Ed.; Humana Press; New York, 2011; p 77.

41.   Willett, P. Searching techniques for databases of two- and three-dimensional chemical structures. J Med Chem 2005, 48, 4183.

42.   Willett, P. Chemoinformatics-similarity and diversity in chemical libraries. Curr Opin Biotechnol 2000, 11, 85.

43.   Stumpfe, D.; & Bajorath, J. Exploring activity cliffs in medicinal chemistry. J Med Chem 2012.

44.   Bajorath, J.; Li, R.; Stumpfe, D.; Vogt, M.; & Geppert, H. C. Development of a method to consistently quantify the structural distance between scaffolds and to assess scaffold hopping potential. J Chem Inf Model 2011.

45.   Willett, P. Similarity methods in chemoinformatics. Annu Rev Inf Sci Technol 2009, 43, 1.

46.   Rivera Borroto, O. M.; Hern‡ndez D’az, Y.; Garc’a de la Vega, J. M.; Grau çbalo, R. d. C.; & Marrero Ponce, Y. Novel similarity measures for the effective and efficient retrieval of pharmacological data sets. Afinidad 2011, 68, 50.

47.   Sheridan, R. P.; & Kearsley, S. K. Why do we need so many chemical similarity search methods? Drug Discov Today 2002, 7, 903.

48.   Willett, P. Data fusion in ligand-based virtual screening. QSAR Comb Sci 2006, 25, 1143.

49.   Brown, R. D. Descriptors for diversity analysis. Perspect Drug Disc Design 1997, 7, 31.

50.   National Center for Biotechnology Information. PubChem. http://pubchem.ncbi.nlm.nih.gov/ (visitado el 1 de octubre de 2013).

51.   National Institutes of Health. National Cancer Institute. https://resresources.nci.nih.gov/resources/ (visitado el 1 de octubre de 2013).

52.   The Cheminformatics and QSAR Society. http://www.qsar.org (visitado el 1 de octubre de 2013).

53.   International Academy of Mathematical Chemistry. http://www.iamc-online.org/ (visitado el 1 de octubre de 2013).

54.   Daylight Chemical Information Systems. WDI. http://www.daylight.com (visitado el 1 de octubre de 2013).

55.   Sunset Molecular Discovery. WOMBAT. http://sunsetmolecular.com (visitado el 1 de octubre de 2013).

56.   Baykoucheva, S. A new era in chemical information: PubChem, DiscoveryGate, and Chemistry Central. Online 2007, 31 Issue , p16, 16.

57.   Bender, A. Compound bioactivities go public. Nature Chem Biol 2010 6, 309.

58.   Rohrer, S. G.; & Baumann, K. Maximum unbiased validation (MUV) data sets for virtual screening based on PubChem bioactivity data. J Chem Inf Model 2009, 49, 169.

59.   Fourches, D.; Muratov, E.; & Tropsha, A. Trust, But Verify: On the importance of chemical structure curation in cheminformatics and QSAR modeling research. J Chem Inf Model 2010, 50, 1189.

60.   Johnson, M. A. A review and examination of mathematical spaces underlying molecular similarity analysis. J Math Chem 1989 3, 117.

61.   Maggiora, G. M.; & Shanmugasundaram, V. In Chemoinformatics; Bajorath, J., Ed.; Humana Press; 2004; p 1.

62.   Agrafiotis, D. K.; Bandyopadhyay, D.; Wegner, J. K.; & van Vlijmen, H. Recent advances in chemoinformatics. J Chem Inf Model 2007, 47, 1279.

63.   Wegner, J. K.; Fršhlich, H.; Mielenz, H. M.; & Zell, A. Data and graph mining in chemical space for ADME and activity data sets. QSAR Comb Sci 2006, 25, 205.

64.   Cuissart, B.; Touffet, F.; Cremilleux, B.; Bureau, R.; & Rault, S. The maximum common substructure as a molecular depiction in a supervised classification context: experiments in quantitative structure/biodegradability relationships. J Chem Inf Comput Sci 2002, 42, 1043.

65.   Adamson, G. W.; & Bush, J. A. A method for the automatic classification of chemical structures. Inf Stor Retriev 1973, 9, 561.

66.   Willett, P.; & Winterman, V. A comparison of some measures for the determination of inter-molecular structural similarity. Quant Struct-Activ Relat 1986, 5, 18.

67.   Brown, R. D.; & Martin, Y. C. Use of structure-activity data to compare structure-based clustering methods and descriptors for use in compound selection. J Chem Inf Comput Sci 1996, 36, 572.

68.   Matter, H.; & Potter, T. Comparing 3D pharmacophore triplets and 2D fingerprints for selecting diverse compound subsets. J Chem Inf Comput Sci 1999, 39, 1211.

69.   Patterson, D. E.; Cramer, R. D.; Ferguson, A. M.; Clark, R. D.; & Weinberger, L. E. Neighbourhood behaviour: A useful concept for validation of Òmolecular diversityÓ descriptors. J Med Chem 1996, 39, 3049.

70.   Siegel, S.; & Castellan, N. J. Nonparametric statistics for the behavioral sciences; McGraw-Hill; New York, USA, 1988.

71.   Todeschini, R.; & Consonni, V. Molecular Descriptors for Chemoinformatics; 2nd ed.; WILEY-VHC; Weinheim, Germany, 2009.

72.   DRAGON for Windows 5.5; Milano, Italy, 2007. Este software se encuentra disponible en: http://www.talete.mi.it (visitado el 1 de octubre de 2013).

73.   PaDEL-Descriptor, 1.0; Singapore, 2010. Este software se encuentra disponible en: http://padel.nus.edu.sg/software/padeldescriptor (visitado el 1 de octubre de 2013).

74.   Li, Z.; Han, L.; Xue, Y.; Yap, C.; Li, H.; Jiang, L.; & Chen, Y. MODEL—molecular descriptor lab: A web‐based server for computing structural and physicochemical features of compounds. Biotechnol Bioeng 2007, 97, 389. Este software se encuentra disponible en: http://jing.cz3.nus.edu.sg/cgi-bin/model/model.cgi (visitado el 1 de octubre de 2013).

75.   Molecular descriptors: The free online resource. http://www.moleculardescriptors.eu/index.htm (visitado el 1 de octubre de 2013).

76.   Bender, A.; & Glen, R. C. Molecular similarity: A key technique in molecular informatics. Org Biomol Chem 2004, 2, 3204.

77.   Janecek, A.; Gansterer, W.; Demel, M.; & Ecker, G. In Proceedings of the Workshop on New Challenges for Feature Selection in Data Mining and Knowledge Discovery (FSDM 2008); Saeys, Y., Liu, H., Inza, I., Wehenkel, L., Van de Peer, Y., Eds.; JMLR: Workshop and Conference Proceedings; Antwerp, Belgium, 2008; p 90.

78.   Steinbach, M.; Ertšz, L.; & Kumar, V. In New directions in statistical physics: econophysics, bioinformatics, and pattern recognition; Wille, L. T., Ed.; Springer-Verlag; Berlin, 2000; p 273.

79.   John, G. H.; Kohavi, R.; & Pfleger, K. In Eleventh International Conference on Machine Learning (ICML) Cohen, W. W., Hirsh, H., Eds.; Morgan Kaufman; Rutgers University, New Brunswick, NJ, USA, 1994; p 121.

80.   Watanabe, S. Knowing and guessing: A quantitative study of inference and information; John Wiley & Sons Inc; New York, 1969.

81.   Roth, H. J. There is no such thing as ÔdiversityÕ! Curr Opin Chem Biol 2005, 9, 293.

82.   Bšcker, A.; Schneider, G.; & Teckentrup, A. Status of HTS data mining approaches. QSAR Comb Sci 2004, 23, 207.

83.   Selwood, D. L.; Livingstone, D. J.; Comley, J. C. W.; OÕDowd, A. B.; Hudson, A. T.; Jackson, P.; Jandu, K. S.; Rose, V. S.; & Stables, J. N. Structure-activity relationships of antifilarial antimycin analogues, a multivariate pattern recognition study. J Med Chem 1990, 33, 136.

84.   Zheng, W.; & Tropsha, A. Novel variable selection quantitative structure-property relationship approach based on the k nearest neighbor principle. J Chem Inf Comput Sci 2000 40, 185.

85.   Dudek, A. Z.; Arodz, T.; & G‡lvez, J. Computational methods in developing quantitative structure-activity relationships (QSAR): A review. Comb Chem High Throughput Screen 2006, 9, 1.

86.   Nath, R.; Rajagopalan, B.; & Ryker, R. Determining the saliency of input variables in neural networks classifiers. Comput Ops Res 1997, 24, 767.

87.   Koivalishyn, V.; Tetko, V. I.; Luik, A. I.; Kholodovych, V. V.; Villa, A. E. P.; & Livingstone, D. J. Neural networks studies. Variable selection in the cascade-correlation learning architecture. J Chem Inf Comput Sci 1998, 38, 651.

88.   Todeschini, R.; Galvagni, D.; Vilchez, J. L.; Del Olmo, M.; & Navas, N. Kohonen artificial neural networks as a tool for wawelength selection in multicomponent spectrofluorimetric PLS modeling: application to phenol, o-cresol, m-cresol and p-cresol mixtures. Trends Anal Chem 1999, 18, 93.

89.   Burden, F. D.; Ford, M. G.; Whitley, D. C.; & Winkler, D. A. Use of automatic relevance determination in QSAR studies using Bayesian neural networks. J Chem Inf Comput Sci 2000, 40, 1423.

90.   Agrafiotis, D. K.; & Cedeno, W. Feature selection for structureactivity correlation using binary particle swarms. J Med Chem 2002, 45, 1098.

91.   Tetko, I. V.; Villa, A. E.; & Livingstone, D. J. Neural network studies. Variable selection. J Chem Inf Comput Sci 1996, 36, 794.

92.   Glen, R. C.; & Adams, S. E. Similarity metrics and descriptor spaces – Which combinations to choose? QSAR Comb Sci 2006, 25, 1133.

93.   Guyon, I.; & Elisseeff, A. An introduction to variable and feature selection. J Mach Lear Research 2003, 3, 1157.

94.   Hall, M.; Frank, E.; Holmes, G.; Pfahringer, B.; Reutemann, P.; & Witten, I. H. The WEKA Data Mining Software: An Update. SIGKDD Explor Newsl 2009 11, 10.

95.   Machine Learning Group. Weka. http://www.cs.waikato.ac.nz/ml/weka/ (visitado el 1 de octubre de 2013).

96.   Tversky, A. Features of similarity. Psychol Rev 1977, 84, 327.

97.   Chen, X.; & Brown, F. K. Asymmetry of chemical similarity. ChemMedChem 2007, 2, 180

98.   çgoston, V.; Kaj‡n, L.; Carugo, O.; HegedŸs, Z.; Vlahovicek, K.; & Pongor, S. In Essays in Bioinformatics; Moss, D. S., Jelaska, S., Pongor, S., Eds.; IOS Press; The Netherland, 2005; p 11.

99.   Ellis, D.; Furner-Hines, J.; & Willett, P. Measuring the degree of similarity between objects in text retrieval systems. Perspect Inf Manag 1994, 3, 128.

100.Cuadras, C. M. Distancias estad’sticas. Estad’stica Espa–ola 1989, 30, 295.

101.Willett, P.; Barnard, J. M.; & Downs, G. M. Chemical similarity searching. J Chem Inf Comput Sci 1998, 38, 983.

102.Willett, P. Similarity-based virtual screening using 2D fingerprints. Drug Discov Today 2006, 11, 1046.

103.David, H. W.; & William, G. M. No Free Lunch Theorems for Search, 1995.

104.Wolpert, D. H.; & Macready, W. G. No free lunch theorems for optimization. IEEE T Evolut Comput 2002, 1, 67.

105.GrŸnwald, P. In Advances In Minimum Description Length: Theory And Applications; GrŸnwald, P. D., Myung, I. J., Pitt, M. A., Eds.; MIT Press; Cambridge, Massachusetts, 2005; p 3.

106.Willett, P. Some heuristics for nearest-neighbor searching in chemical structure files. J Chem Inf Comput Sci 1983, 23, 22.

107.Friedman, J. H.; Bentlev, J. L.; & Finkel, R. A. An algorithm for finding best matches in-logarithmic expected time. ACM Trans Marh Softw 1977, 3, 209.

108.Bentley, J. L.; Weide, B. W.; & Yao, A. C. Optimal expected time algorithms for closest point problems. ACM Trans Marh Softw 1980, 6, 563.

109.Smeaton, A. F.; & Van Rijsbergen, C. J. The nearest neighbour in information retrieval. an algorithm using upperbounds. ACM SIGIR Forum 1981, 16, 83.

110.Murtagh, F. A very fast, exact nearest neighbour algorithm for use in information retrieval. Inf Technol: Res Deu 1982, 1, 275.

111.Van Marlen, G.; & Van Den Hende, J. H. Search strategy and data compression for a retrieval system with binary-coded mass spectra. Anal Chim Acra 1979, 112, 143.

112.Rasmussen, G. T.; Isenhour, T. L.; & Marshall, J. C. Mass spectral library searches using ion series data compression. J Chem Inf Comput Sci 1979, 19, 98.

113.Baldi, P.; Hirschberg, D. S.; & Nasr, R. J. Speeding up chemical database searches using a proximity filter based on the logical exclusive OR. J Chem Inf Model 2008, 48, 1367.

114.Cao, Y.; Jiang, T.; & Girke, T. Accelerated similarity searching and clustering of large compound sets by geometric embedding and locality sensitive hashing. Bioinformatics 2010, 26, 953.

115.Kearsley, S. K.; Sallamack, S.; Fluder, E. M.; Andose, J. D.; Mosley, R. T.; & Sheridan, R. P. Chemical similarity using physiochemical property descriptors. J Chem Inf Comput Sci 1996, 36, 118.

116.Ginn, C. M. R.; Willett, P.; & Bradshaw, J. Combination of molecular similarity measures using data fusion. Perspect Drug Discov Des 2000, 20, 1.

117.Hert, J.; Willett, P.; Wilton, D. J.; Acklin, P.; Azzaoui, K.; Jacoby, E.; & Schuffenhauer, A. Comparison of fingerprint-based methods for virtual screening using multiple bioactive reference structures. J Chem Inf Comput Sci 2004, 44, 1177.

118.Nasr, R. J.; Swamidass, S. J.; & Baldi, P. F. Large scale study of multiple-molecule queries. J Cheminf 2009, 1, 1.

119.Chen, B.; Mueller, C.; & Willett, P. Combination rules for group fusion in similarity-based virtual screening. Mol Inf 2010, 29, 533

120.Geppert, H.; & Bajorath, J. Advances in 2D fingerprint similarity searching. Expert Opin Drug Discov 2010 5, 529.

121.Nicholls, A. What do we know and when do we know it? J Comput-Aided Mol Des 2008, 22, 239.

122.Witten, I. H.; & Frank, E. Data Mining - Practical Machine Learning Tools and Techniques; 2nd ed.; Morgan Kaufmann; San Francisco, CA, 2005; 161-176.

123.Truchon, J.; & Bayly, C. I. Evaluating virtual screening methods: Good and bad metrics for the Òearly recognitionÓ problem. J Chem Inf Model 2007, 47, 488.

124.Sheridan, R. P.; Singh, S. B.; Fluder, E. M.; & Kearsley, S. K. Protocols for bridging the peptide to nonpeptide gap in topological similarity searches. J Chem Inf Model 2001, 41, 1395.

125.Clark, R.; & Webster-Clark, D. Managing bias in ROC curves. J Comput-Aided Mol Des 2008, 22, 141.

126.Swamidass, S. J.; Azencott, C.-A.; Daily, K.; & Baldi, P. A CROC stronger than ROC: measuring, visualizing and optimizing early retrieval. Bioinformatics 2010, 26, 1348