计算向量相似度和皮尔森r的相关

2024-05-14 22:46:44 +08:00 · 2024-05-14 22:46:44 +08:00 · 2a2e5f9d27
commit 2a2e5f9d27
parent e4b0d3e583
2 changed files with 70 additions and 26 deletions
--- a/file_load.py
+++ b/file_load.py
@ -2,30 +2,16 @@ import json
 import os
 import random

+import pandas
+import numpy
+# import matplotlib
+from sklearn.metrics.pairwise import cosine_similarity
+
 from openai import OpenAI
-client = OpenAI()

 os.environ["OPENAI_API_KEY"]= "sk-PRJ811XeKzEy20Ug3dA98a34Af8b40B5816dE15503D33599"
 os.environ["OPENAI_BASE_URL"]= "http://154.9.28.247:3000/v1/"
-
-
-
-from sklearn.metrics.pairwise import cosine_similarity
-
-def calc_similarity(scale):
-	item=[]
-	vec=[]
-	for i in scale:
-		item.append(i)
-		vec.append(client.embeddings.create(
-    		input=scale[i], model="text-embedding-3-small" # nomic-embed-text text-embedding-3-small
-			).data[0].embedding)
-	simi=cosine_similarity(vec)
-	que=[]
-	for i,v in enumerate(simi):
-		for j in range(0,i):
-			que.append({"from":item[j], "to":item[i], "similarity":simi[i][j]})
-	return 	sorted(que, key = lambda t : t["similarity"], reverse=True)
+client = OpenAI()

 def batch():
 	scales = os.listdir("Scales")
@ -48,17 +34,35 @@ def old_type(str):
 	with open(str,"w") as file:
 		file.write(json.dumps(new))

-def calc_similarity(force:bool = False):
+def calc_similarity(scale):
+	item=[]
+	vec=[]
+	for i in scale:
+		item.append(i)
+		vec.append(client.embeddings.create(
+    		input=scale[i], model="text-embedding-3-small" # nomic-embed-text text-embedding-3-small
+			).data[0].embedding)
+	simi=cosine_similarity(vec)
+	que=[]
+	for i,v in enumerate(simi):
+		for j in range(0,i):
+			que.append({"from":item[j], "to":item[i], "similarity":simi[i][j]})
+	return 	que
+
+def similarity(force:bool = False,sort:bool=True):
 	if force or os.path.getsize("Temp/items.json") == 0:
-		que=embedding(batch())
+		que=calc_similarity(batch())
 		with open("Temp/items.json","w") as items:
 			items.write(json.dumps(que))
 	else:
 		with open("Temp/items.json","r") as items:
 			que = json.load(items)
-	return que
+	if sort:
+		return sorted(que, key = lambda t : t["similarity"], reverse=True)
+	else:
+		return que

-def data():
+def make_data():
 	s=""
 	item = batch()
 	for i in item:
@ -71,3 +75,22 @@ def data():
 		s+='\n'
 	with open("Temp/data.csv","w") as data:
 		data.write(s)
+
+def corelation(sort:bool=True):
+	data = pandas.read_csv("data.csv")
+	que=[]
+	for i in data:
+		for j in data:
+			try:
+				if(i != j):
+					# que[i,j]["psr"]=data[i].corr(data[j])
+					que.append({"from":j,"to":i,"psr":data[i].corr(data[j])})
+				else:
+					pass
+			except:
+				pass
+	if sort:
+		return sorted(que,key = lambda t : abs(t["psr"]), reverse=True)
+	else:
+		return que
+
--- a/main.py
+++ b/main.py
@ -3,9 +3,30 @@ import file_load
 import json
 import os

+import numpy
+
+# file_load.make_data()

 similarity = file_load.similarity()
-file_load.data()
+corelation = file_load.corelation()
+
+table = {}
+
+for i in corelation:
+	table[i["from"],i["to"]]=i["psr"]
+
+x=[]
+y=[]

 for i in similarity:
-	print(i)
+	x.append(abs(table[i["from"],i["to"]]))
+	y.append(i["similarity"])
+
+print(numpy.corrcoef(x,y)[0,1])
+
+s="similarity, corelation\n"
+for i in similarity:
+	s+=str(i["similarity"])+','+str(table[i["from"],i["to"]])+'\n'
+with open("Temp/point.csv","w") as point:
+	point.write(s)
+