chore: auto-commit uncommitted changes

2026-02-28 00:01:21 -05:00 · 2026-02-28 00:01:21 -05:00 · 2c91d5649e
parent bbc029196a
commit 2c91d5649e
1 changed files with 138 additions and 0 deletions
--- a/ai.go
+++ b/ai.go
@ -1,6 +1,7 @@
 package main
 import (
 	"archive/zip"
 	"bytes"
 	"crypto/sha256"
 	"encoding/base64"
@ -617,6 +618,22 @@ func ProcessDocument(filePath string) (*Document, error) {
 			UpdateJob(hash, "error", err.Error())
 			return nil, fmt.Errorf("text analysis failed: %w", err)
 		}
 	} else if IsOfficeFile(ext) {
 		// Office formats — extract text natively from ZIP/XML, no LibreOffice needed
 		UpdateJob(hash, "converting", "Extracting text...")
 		log.Printf("  Extracting text from %s...", ext)
 		text, err := ExtractOfficeText(filePath)
 		if err != nil {
 			UpdateJob(hash, "error", err.Error())
 			return nil, fmt.Errorf("office text extraction failed: %w", err)
 		}
 		log.Printf("  Extracted %d chars, classifying...", len(text))
 		UpdateJob(hash, "classifying", "Classifying...")
 		analysis, err = AnalyzeText(text, filepath.Base(filePath))
 		if err != nil {
 			UpdateJob(hash, "error", err.Error())
 			return nil, fmt.Errorf("text analysis failed: %w", err)
 		}
 	} else {
 		// Vision — convert to image and analyze
 		UpdateJob(hash, "converting", "Converting to image...")
@ -751,3 +768,124 @@ func copyFile(src, dst string) error {
 	_, err = io.Copy(out, in)
 	return err
 }
 // ExtractOfficeText extracts plain text from DOCX/XLSX/PPTX natively.
 // These are ZIP archives containing XML — no LibreOffice needed.
 func ExtractOfficeText(filePath string) (string, error) {
 	ext := strings.ToLower(filepath.Ext(filePath))
 	r, err := zip.OpenReader(filePath)
 	if err != nil {
 		return "", fmt.Errorf("not a valid Office file: %w", err)
 	}
 	defer r.Close()
 	// Which XML paths to extract per format
 	var targets []string
 	switch ext {
 	case ".docx", ".doc", ".odt", ".rtf":
 		targets = []string{"word/document.xml", "word/body.xml"}
 	case ".xlsx", ".xls":
 		// All sheets
 		for _, f := range r.File {
 			if strings.HasPrefix(f.Name, "xl/worksheets/sheet") && strings.HasSuffix(f.Name, ".xml") {
 				targets = append(targets, f.Name)
 			}
 		}
 		// Shared strings (cell values are stored here for xlsx)
 		targets = append(targets, "xl/sharedStrings.xml")
 	case ".pptx", ".ppt":
 		for _, f := range r.File {
 			if strings.HasPrefix(f.Name, "ppt/slides/slide") && strings.HasSuffix(f.Name, ".xml") {
 				targets = append(targets, f.Name)
 			}
 		}
 	default:
 		return "", fmt.Errorf("unsupported office format: %s", ext)
 	}
 	var sb strings.Builder
 	for _, f := range r.File {
 		found := false
 		for _, t := range targets {
 			if f.Name == t {
 				found = true
 				break
 			}
 		}
 		if !found {
 			continue
 		}
 		rc, err := f.Open()
 		if err != nil {
 			continue
 		}
 		data, err := io.ReadAll(rc)
 		rc.Close()
 		if err != nil {
 			continue
 		}
 		sb.WriteString(xmlToText(data))
 		sb.WriteString("\n")
 	}
 	text := strings.TrimSpace(sb.String())
 	if text == "" {
 		return "", fmt.Errorf("no text extracted from %s", filepath.Base(filePath))
 	}
 	return text, nil
 }
 // xmlToText strips XML tags and decodes entities, returning plain text.
 func xmlToText(data []byte) string {
 	var sb strings.Builder
 	inTag := false
 	lastWasSpace := false
 	for i := 0; i < len(data); i++ {
 		c := data[i]
 		switch {
 		case c == '<':
 			inTag = true
 			// Emit space between elements so words don't run together
 			if !lastWasSpace {
 				sb.WriteByte(' ')
 				lastWasSpace = true
 			}
 		case c == '>':
 			inTag = false
 		case !inTag:
 			if c == ' ' || c == '\t' || c == '\n' || c == '\r' {
 				if !lastWasSpace {
 					sb.WriteByte(' ')
 					lastWasSpace = true
 				}
 			} else {
 				sb.WriteByte(c)
 				lastWasSpace = false
 			}
 		}
 	}
 	// Decode common XML entities
 	result := sb.String()
 	result = strings.ReplaceAll(result, "&amp;", "&")
 	result = strings.ReplaceAll(result, "&lt;", "<")
 	result = strings.ReplaceAll(result, "&gt;", ">")
 	result = strings.ReplaceAll(result, "&quot;", "\"")
 	result = strings.ReplaceAll(result, "&apos;", "'")
 	result = strings.ReplaceAll(result, "&#xA;", "\n")
 	result = strings.ReplaceAll(result, "&#x9;", "\t")
 	return strings.TrimSpace(result)
 }
 // IsOfficeFile returns true for formats with extractable XML text.
 func IsOfficeFile(ext string) bool {
 	return map[string]bool{
 		".docx": true, ".xlsx": true, ".pptx": true,
 		".odt": true, ".ods": true, ".odp": true,
 	}[ext]
 }