2 vuotta sitten · dcceba8965
--- a/.gitignore
+++ b/.gitignore
@@ -57,6 +57,9 @@ docs/_build/
 
				 
			
 
				 # PyBuilder
			
 
				 target/
			
 
				-# Ignoring all pdfs
			
 
				+# Ignoring all pdfs and test files.
			
 
				 *.pdf
			
 
				 *.xlsx
			
 
				+complaints/test.py
			
 
				+*.csv
			
 
				+foo.py
			
--- a/complaints/parse_pdf.py
+++ b/complaints/parse_pdf.py
@@ -26,16 +26,16 @@ def extract_all(PATH):
 
				     for idx, file in enumerate(required_files):
			
 
				         print(idx, file)
			
 
				         parse_file = parser.from_file(file)["content"].strip().replace("\n", "")
			
 
				-        # data_dict["case_number_list"].append(extract_case_number(content=parse_file))
			
 
				-        # data_dict["filing_date_list"].append(extract_filing_date(content=parse_file))
			
 
				+        data_dict["case_number_list"].append(extract_case_number(content=parse_file))
			
 
				+        data_dict["filing_date_list"].append(extract_filing_date(content=parse_file))
			
 
				         data_dict["plaintiff_list"].append(extract_plaintiff(content=parse_file))
			
 
				-        # data_dict["defendent_list"].append(extract_defendent(content=parse_file))
			
 
				-        # data_dict["acronyms_list"].append(extract_acronyms(content=parse_file))
			
 
				-        # data_dict["firm_name_list"].append(extract_firm_name(content=parse_file))
			
 
				-        # data_dict["patent_list"].append(extract_patent_number(content=parse_file))
			
 
				+        data_dict["defendent_list"].append(extract_defendent(content=parse_file))
			
 
				+        data_dict["acronyms_list"].append(extract_acronyms(content=parse_file))
			
 
				+        data_dict["firm_name_list"].append(extract_firm_name(content=parse_file))
			
 
				+        data_dict["patent_list"].append(extract_patent_number(content=parse_file))
			
 
				 
			
 
				     data = pd.DataFrame(data_dict)
			
 
				-    # data.to_csv("required_data.csv", index=False)
			
 
				+    data.to_csv("required_data.csv", index=False)
			
 
				     return data
			
 
				 
			
 
				 
			
--- a/complaints/parse_pdf_utils.py
+++ b/complaints/parse_pdf_utils.py
@@ -61,8 +61,9 @@ def extract_plaintiff(content):
 
				 def extract_defendent(content):
			
 
				     """
			
 
				     Returns the name of the defendant
			
 
				+    Plaintiff[s]?.*v[s]?\.(.*?)Defendant[s]?\.
			
 
				     """
			
 
				-    regex = r"Plaintiff[s]?.*v[s]?\.(.*?)Defendant[s]?\."
			
 
				+    regex = r"Plaintiff[s]?\,.*?[v|V]\.(.*?)Defendant[s]?\.?"
			
 
				     try:
			
 
				         return re.search(regex, content).groups()[0]
			
 
				     except:
			
--- a/complaints/test.py
+++ b/complaints/test.py
@@ -1,20 +0,0 @@
 
				-import re
			
 
				-import tika
			
 
				-from tika import parser
			
 
				-
			
 
				-tika.initVM()
			
 
				-
			
 
				-
			
 
				-if __name__ == "__main__":
			
 
				-    data = (
			
 
				-        parser.from_file(
			
 
				-            "/home/ftech/Desktop/harsh_parikh_codes/PDF_Scrapper/Complaint/document.pdf"
			
 
				-        )["content"]
			
 
				-        .strip()
			
 
				-        .replace("\n", "")
			
 
				-    )
			
 
				-    print(data)
			
 
				-    # pattern = r"OF\s\w+(\s.*?\,).*?Plaintiff"
			
 
				-    # print(re.search(pattern, data).groups()[0])
			
 
				-    # pattern = r"Plaintiff[s]?.*v[s]?\.(.*)Defendant\."
			
 
				-    # re.search(pattern, data).group()