如用户输入“北京九号线”可将词语扩展至“国家图书馆”、“郭公庄”等沿线站点; 模糊匹配扩展:对查询词进行模糊匹配,用来纠正潜在的拼写或语法错误相关词扩展。如对于“橡树”可扩展至“橡树湾”; 根据查询词的内容和上下文:添加相关的查询词或属性,以扩展搜索结果。对于用户输入“学区房”可将其扩展为包括标题“xx学校”的检索结果; 基于用户画像的扩展:根据用户的历史搜索行为、兴趣偏好、地理位置等上下文信息,扩展用户查询词,以更好地匹配搜索结果。
如,对于经常浏览别墅的用户,在对其“二手房”的搜索上可加上“别墅二手房”等关联词汇。 意图识别 意图识别指通过各种方法,对用户的qery进行分析,确定用户需求的过程。用户意图可分为精准意图和模糊意图。 精准意图识别一般根据用户的qery,检索其用户意图精准对应的item。模糊意图识别一般可以采用基于模板规则、行为统计反馈、深度学习等方法。由于方法较为繁杂,此处不做详细介绍,若感兴趣的读者可自行检索相关文章 通过意图识别:我们可以得到qery相关词汇“朝阳”、“两居”、“二手房”,代表的实体含义为 {Region:’朝阳’;Hose Tye:’两居’; Hose Stts:’二手房’}。
权重计算通常使用TF-IDF、TF-DF、M、概率模型、隐语义分析、基于知识图 西班牙电话号码表 谱的算法等。 房产信息具备高度结构话特征,因此在项目初期,使用权重计算的场景较为稀少。而在处理房产资讯的检索时,可以使用该方法,进行数据处理。 敏感信息 敏感信息:qery分析中,对敏感信息如违法、隐私等信息进行识别和过滤的过程。可通过基于规则的方法、基于机器学习、基于深度学习的方法等实现 召回 召回是根据处理过的用户qery,在数据库查询符合条件数据的过程。
召回是搜索引擎中的重要环节,垂直搜索引擎亦不例外。召回策略决定着搜索结果的质量。例如,用户想要寻找北京的房源,若召回的是上海的房源,那么排序再好,也对用户的需求解决没有任何帮助。 除了召回策略外,数据质量也至关重要。在互联网房产行业,房源数据主要来自用户发布和商家发布,资讯的数据来源是多方的,包括企业发布、用户发布、第三方公开资讯等。 除了内容信息外,用户行为和用户日志数据也需进行储存,它们是召回策略的重要参考依据。