API de Similaridade de Dados Otimizada é uma API de correspondência difusa e deduplicação de alta velocidade construída para dados reais e desordenados Ajuda você a identificar registros quase duplicados e reconciliar entidades mesmo quando os valores não correspondem exatamente—erros de digitação, diferenças de maiúsculas, pontuação ausente, problemas de espaçamento, abreviações e pequenas mudanças na ordem das palavras
Em vez de construir e ajustar seu próprio pipeline de correspondência difusa você envia suas strings (ou registros) para a API e recebe de volta correspondências pontuadas por similaridade em que você pode confiar Saídas típicas incluem pares correspondentes (por exemplo, “Apple” ↔ “apple inc.”) pontuações de similaridade e resultados estruturados que são fáceis de integrar em fluxos de trabalho de limpeza de dados CRMs trabalhos de ETL e pipelines de análise
Casos de uso comuns:
Deduplicar listas: encontrar duplicatas dentro de um conjunto de dados (correspondência tudo-a-tudo) e retornar pares prováveis de duplicatas
Reconciliação contra uma lista mestre: corresponder uma lista de entrada a um conjunto canônico (lista-para-mestre)
Higiene de dados de CRM e clientes: limpar leads/contas/empresas onde duplicatas prejudicam relatórios e abordagens
Resolução de entidades e vinculação de registros: conectar referências à mesma entidade do mundo real em diferentes fontes
Por que as equipes o usam:
Funciona com texto desordenado imediatamente (sem regras manuais para cada caso extremo)
Pontuações de similaridade para classificação e limites (você escolhe o quão rigoroso deseja ser)
Construído para escala e automação (projetado para funcionar em pipelines não apenas em scripts pontuais)
{"status":"success","response_data":[["Apple","appl!e",1.0]]}
curl --location --request POST 'https://zylalabs.com/api/11920/optimized+data+similarity+api/22654/dedupe?data=["Apple", "appl!e"]' --header 'Authorization: Bearer YOUR_API_KEY'
| Cabeçalho | Descrição |
|---|---|
Authorization
|
[Obrigatório] Deve ser Bearer access_key. Veja "Sua chave de acesso à API" acima quando você estiver inscrito. |
Sem compromisso de longo prazo. Faça upgrade, downgrade ou cancele a qualquer momento.
O endpoint Dedupe retorna um objeto JSON contendo pares de strings correspondentes, pontuações de similaridade e resultados deduplicados opcionais A saída pode ser formatada como pares de strings, pares de índices ou strings deduplicadas, dependendo da configuração especificada
Os campos principais nos dados de resposta incluem "status" (indicando sucesso ou erro) e "response_data," que contém os resultados formatados de acordo com a solicitação do usuário, como pares correspondentes ou strings deduplicadas
Os usuários podem personalizar as solicitações ajustando parâmetros no objeto "config", como "similarity_threshold" para a estrictez das correspondências, "remove_punctuation" para pré-processamento e "output_format" para escolher a estrutura de resultado desejada
Os dados de resposta estão organizados como um array de resultados onde cada entrada corresponde a uma correspondência ou string deduplicada Dependendo do formato de saída as entradas podem incluir strings originais índices e pontuações de similaridade facilitando a fácil integração em fluxos de trabalho
Casos de uso típicos incluem a deduplicação de listas de clientes a reconciliação de registros contra uma lista mestra a limpeza de dados de CRM e a realização de resolução de entidades entre diferentes fontes de dados para garantir a integridade e a precisão dos dados
A precisão dos dados é mantida por meio de algoritmos avançados de correspondência difusa que levam em conta problemas comuns de dados, como erros de digitação e diferenças de maiúsculas e minúsculas A API é projetada para lidar com dados desordenados de forma eficaz garantindo resultados de correspondência confiáveis
Os valores de parâmetro aceitos incluem "similarity_threshold" (0 a 1), "remove_punctuation" (booleano), "to_lowercase" (booleano), "use_token_sort" (booleano) e "top_k" (inteiro ou "todos"). Esses parâmetros permitem que os usuários personalizem o processo de correspondência de acordo com suas necessidades específicas
Se o endpoint Dedupe retornar resultados parciais ou vazios os usuários devem verificar os dados de entrada em busca de problemas de qualidade como duplicatas excessivas ou limiares de similaridade muito baixos Ajustar o "similarity_threshold" ou revisar a lista de entrada pode ajudar a melhorar os resultados
Nível de serviço:
100%
Tempo de resposta:
1.937ms
Nível de serviço:
100%
Tempo de resposta:
3.110ms
Nível de serviço:
100%
Tempo de resposta:
3.110ms
Nível de serviço:
100%
Tempo de resposta:
1.695ms
Nível de serviço:
100%
Tempo de resposta:
3.110ms
Nível de serviço:
100%
Tempo de resposta:
704ms
Nível de serviço:
83%
Tempo de resposta:
334ms
Nível de serviço:
100%
Tempo de resposta:
913ms
Nível de serviço:
100%
Tempo de resposta:
3.110ms
Nível de serviço:
100%
Tempo de resposta:
876ms
Nível de serviço:
100%
Tempo de resposta:
20.003ms
Nível de serviço:
100%
Tempo de resposta:
24ms
Nível de serviço:
100%
Tempo de resposta:
16.783ms
Nível de serviço:
100%
Tempo de resposta:
2.716ms
Nível de serviço:
100%
Tempo de resposta:
27ms
Nível de serviço:
100%
Tempo de resposta:
2.323ms
Nível de serviço:
100%
Tempo de resposta:
14ms
Nível de serviço:
100%
Tempo de resposta:
1.582ms
Nível de serviço:
100%
Tempo de resposta:
19ms
Nível de serviço:
100%
Tempo de resposta:
16.173ms