API de similaridade é uma API de emparelhamento difuso e deduplicação de alta velocidade projetada para dados desordenados e do mundo real. Ela ajuda a identificar registros quase duplicados e a reconciliar entidades mesmo quando os valores não correspondem exatamente—erros de digitação, diferenças de maiúsculas e minúsculas, pontuação faltante, problemas de espaçamento, abreviações e pequenas mudanças na ordem das palavras.
Em vez de construir e ajustar seu próprio pipeline de emparelhamento difuso, você envia suas cadeias (ou registros) para a API e recebe correspondências com pontuações de similaridade nas quais você pode confiar. As saídas típicas incluem pares correspondentes (por exemplo, “Apple” ⇔ “apple inc.”), pontuações de similaridade e resultados estruturados que são fáceis de integrar em fluxos de trabalho de limpeza de dados, CRM, trabalhos de ETL e pipelines de análise.
Casos de uso comuns:
Deduplicar listas: encontrar duplicados dentro de um conjunto de dados (correspondência de todos para todos) e retornar pares provavelmente duplicados.
Reconciliar contra uma lista mestre: emparelhar uma lista de entrada com um conjunto canônico (lista para mestre).
Higiene de dados de CRM e clientes: limpar leads/contas/empresas onde os duplicados interferem com os relatórios e o contato.
Resolução de entidades e ligação de registros: conectar referências à mesma entidade do mundo real através de fontes.
Por que as equipes usam:
Funciona com texto desordenado desde o início (sem regras manuais para cada caso extremo)
Pontuações de similaridade para classificação e limiares (você escolhe quão rigoroso ser)
Construído para escalar e automatizar (projetado para funcionar em pipelines, não apenas em scripts pontuais)
{"status":"success","response_data":[["Apple","appl!e",1.0]]}
curl --location --request POST 'https://zylalabs.com/api/11895/similarity+api/22607/dedupe?data=["Apple", "appl!e"]' --header 'Authorization: Bearer YOUR_API_KEY'
| Cabeçalho | Descrição |
|---|---|
Authorization
|
[Obrigatório] Deve ser Bearer access_key. Veja "Sua chave de acesso à API" acima quando você estiver inscrito. |
Sem compromisso de longo prazo. Faça upgrade, downgrade ou cancele a qualquer momento. O teste gratuito inclui até 50 requisições.
O endpoint Dedupe retorna um objeto JSON contendo pares de strings correspondentes, pontuações de similaridade e resultados deduplicados opcionais A saída pode ser formatada como pares de strings, pares de índices ou strings deduplicadas, dependendo da configuração especificada
Os campos principais nos dados de resposta incluem "status" (indicando sucesso ou erro) e "response_data", que contém os resultados formatados de acordo com o pedido do usuário, como pares correspondentes ou strings deduplicadas
Os usuários podem personalizar as solicitações ajustando os parâmetros no objeto "config" como "similarity_threshold" para a rigidez da correspondência "remove_punctuation" para pré-processamento e "output_format" para escolher a estrutura de resultado desejada
Os dados da resposta estão organizados como um array de resultados, onde cada entrada corresponde a uma correspondência ou string deduplicada. Dependendo do formato de saída, as entradas podem incluir strings originais, índices e pontuações de similaridade, facilitando a fácil integração em fluxos de trabalho
Casos de uso típicos incluem a deduplicação de listas de clientes, a reconciliação de registros com uma lista mestre, a limpeza de dados de CRM e a realização de resolução de entidades em diferentes fontes de dados para garantir a integridade e a precisão dos dados
A precisão dos dados é mantida através de algoritmos avançados de correspondência aproximada que levam em conta problemas comuns de dados como erros de digitação e diferenças de maiúsculas e minúsculas A API foi projetada para lidar com dados desordenados de forma eficaz garantindo resultados de correspondência confiáveis
Os valores de parâmetro aceitos incluem "similarity_threshold" (0 a 1), "remove_punctuation" (booleano), "to_lowercase" (booleano), "use_token_sort" (booleano) e "top_k" (inteiro ou "todos"). Esses parâmetros permitem que os usuários personalizem o processo de correspondência de acordo com suas necessidades específicas
Se o endpoint Dedupe retornar resultados parciais ou vazios os usuários devem verificar os dados de entrada quanto a problemas de qualidade como duplicatas excessivas ou limiares de similaridade muito baixos Ajustar o "similarity_threshold" ou revisar a lista de entrada pode ajudar a melhorar os resultados
Nível de serviço:
100%
Tempo de resposta:
449ms
Nível de serviço:
100%
Tempo de resposta:
1.015ms
Nível de serviço:
100%
Tempo de resposta:
704ms
Nível de serviço:
100%
Tempo de resposta:
3.618ms
Nível de serviço:
98%
Tempo de resposta:
3.688ms
Nível de serviço:
100%
Tempo de resposta:
717ms
Nível de serviço:
100%
Tempo de resposta:
912ms
Nível de serviço:
100%
Tempo de resposta:
542ms
Nível de serviço:
100%
Tempo de resposta:
713ms
Nível de serviço:
100%
Tempo de resposta:
603ms
Nível de serviço:
100%
Tempo de resposta:
11.987ms
Nível de serviço:
100%
Tempo de resposta:
396ms
Nível de serviço:
100%
Tempo de resposta:
1.247ms
Nível de serviço:
100%
Tempo de resposta:
695ms
Nível de serviço:
100%
Tempo de resposta:
1.787ms
Nível de serviço:
100%
Tempo de resposta:
2.702ms
Nível de serviço:
100%
Tempo de resposta:
525ms
Nível de serviço:
100%
Tempo de resposta:
600ms
Nível de serviço:
100%
Tempo de resposta:
303ms
Nível de serviço:
100%
Tempo de resposta:
3.290ms