68893236+KINDNICK@users.noreply.github.com 1179d6832e ADD : 클로드 스킬 추가
2026-01-30 21:59:38 +09:00

8.3 KiB
Raw Blame History

description argument-hint options examples
从内容中提取关键实体和概念,构建知识图谱,生成 Schema.org 标记以增强 AI 理解。 <file-path-or-url> [--format <Article|Organization|FAQPage|Concept>]
format
Schema.org 类型默认auto 自动检测)
/geo-entity-extraction blog/post.md
/geo-entity-extraction post.md --format Article
/geo-entity-extraction https://yoursite.com --format FAQPage

功能说明

核心功能

实体提取与知识图谱构建从内容中自动识别关键实体(概念、人物、组织、地点、事件),分析实体间关系,生成 Mermaid 格式的知识图谱,并提供完整的 Schema.org JSON-LD 标记。

使用场景

  • 为博客文章生成结构化数据
  • 构建主题权威性和内容集群
  • 优化 AI 对内容的理解
  • 创建可视化的知识图谱

执行流程

步骤 1: 内容读取和预处理

  • 读取文件内容
  • 去除 HTML 标签(如果是网页)
  • 分段和分句

步骤 2: 实体识别

使用 NLP 规则识别:

# 识别专有名词(大写开头)
grep -oE '\b[A-Z][a-z]+\b' content.md

# 识别技术术语
grep -oE '\b[A-Z]{2,}\b' content.md

# 识别数字和统计数据
grep -oE '\b\d+[%]?\b' content.md

# 识别定义语句
grep -E '(是|定义为|是指|refers to|means)' content.md

步骤 3: 实体分类

  • 人物 (Person): 作者、专家、名人
  • 组织 (Organization): 公司、机构
  • 概念 (Concept): 专业术语、方法、技术
  • 地点 (Place): 城市、国家、地区
  • 事件 (Event): 会议、发布、更新

步骤 4: 关系提取

  • is-a (继承): "SEO 是一种营销策略"
  • part-of (组成): "关键词研究是 SEO 的一部分"
  • related-to (相关): "SEO 与内容营销相关"
  • impacts (影响): "技术 SEO 影响网站速度"

步骤 5: 知识图谱构建

生成 Mermaid 格式的知识图谱

步骤 6: Schema.org 生成

根据实体类型生成相应的 JSON-LD

输出示例

# 🧠 实体提取与知识图谱

## 分析内容blog/post.md

**提取时间:** 2024-01-15
**识别实体:** 15 个
**关系类型:** 6 种

---

## 📊 核心实体识别

### 主要概念Concept

#### 1. SEO ⭐
- **类型:** 概念
- **定义:** 搜索引擎优化
- **出现频率:** 42 次
- **相关实体:**
  - 包含 → 技术SEO、内容SEO、外链建设
  - 相关 → 营销策略、数字营销
  - 影响 → 网站排名、有机流量

#### 2. 关键词研究
- **类型:** 概念
- **定义:** 识别和选择目标关键词的过程
- **出现频率:** 18 次
- **相关实体:**
  - 属于 → SEO
  - 使用 → 关键词工具、Google Keyword Planner
  - 目标 → 搜索意图、长尾关键词

#### 3. Backlink
- **类型:** 概念
- **同义词:** 外链、入站链接
- **出现频率:** 15 次
- **相关实体:**
  - 影响 → 域名权威度、搜索排名
  - 来源 → 客座博客、社交媒体、目录

### 组织Organization

#### 1. SEMrush
- **类型:** 组织/公司
- **关系:**
  - 提供 → SEO 工具
  - 相关 → Ahrefs、Moz

---

## 🔗 知识图谱

```mermaid
graph TD
    A[SEO] --> B[技术SEO]
    A --> C[内容SEO]
    A --> D[外链建设]

    B --> E[网站速度]
    B --> F[移动友好]
    B --> G[SSL证书]

    C --> H[关键词研究]
    C --> I[内容质量]
    C --> J[用户体验]

    D --> K[客座博客]
    D --> L[社交媒体]
    D --> M[数字PR]

    H --> N[Google Keyword Planner]
    H --> O[SEMrush]
    H --> P[Ahrefs]

    style A fill:#f9f,stroke:#333,stroke-width:4px
    style B fill:#bbf,stroke:#333,stroke-width:2px
    style C fill:#bbf,stroke:#333,stroke-width:2px
    style D fill:#bbf,stroke:#333,stroke-width:2px

实体关系说明

  • 粗线边框 = 核心概念
  • 细线边框 = 子概念
  • 箭头 = 关系方向

📝 Schema.org 标记生成

1. Article Schema推荐

{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "SEO 完全指南:从入门到精通",
  "description": "深入理解搜索引擎优化的核心概念和实践方法",
  "author": {
    "@type": "Person",
    "name": "张三",
    "jobTitle": "高级 SEO 专家",
    "credential": "Google 认证 SEO 专家"
  },
  "publisher": {
    "@type": "Organization",
    "name": "Your Company",
    "logo": {
      "@type": "ImageObject",
      "url": "https://yoursite.com/logo.png"
    }
  },
  "datePublished": "2024-01-15",
  "dateModified": "2024-01-15",
  "mainEntityOfPage": {
    "@type": "WebPage",
    "@id": "https://yoursite.com/seo-guide"
  },
  "about": [
    {
      "@type": "Thing",
      "name": "SEO",
      "description": "搜索引擎优化"
    },
    {
      "@type": "Thing",
      "name": "技术SEO",
      "description": "网站技术优化"
    },
    {
      "@type": "Thing",
      "name": "内容SEO",
      "description": "内容优化策略"
    }
  ],
  "keywords": "SEO, 搜索引擎优化, 技术SEO, 内容SEO, 外链建设"
}

2. FAQPage Schema

{
  "@context": "https://schema.org",
  "@type": "FAQPage",
  "mainEntity": [
    {
      "@type": "Question",
      "name": "什么是 SEO",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "SEOSearch Engine Optimization是..."
      }
    },
    {
      "@type": "Question",
      "name": "SEO 需要多长时间见效?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "通常 3-6 个月可见明显效果..."
      }
    }
  ]
}

3. BreadcrumbList Schema

{
  "@context": "https://schema.org",
  "@type": "BreadcrumbList",
  "itemListElement": [
    {
      "@type": "ListItem",
      "position": 1,
      "name": "首页",
      "item": "https://yoursite.com"
    },
    {
      "@type": "ListItem",
      "position": 2,
      "name": "博客",
      "item": "https://yoursite.com/blog"
    },
    {
      "@type": "ListItem",
      "position": 3,
      "name": "SEO 指南",
      "item": "https://yoursite.com/seo-guide"
    }
  ]
}

💡 实体优化建议

1. 核心实体强化

问题: "SEO" 概念定义不够明确

建议:

## 什么是 SEO

**SEOSearch Engine Optimization** 是通过优化网站的内容、结构和技术提高其在搜索引擎结果页面SERP中排名的过程。

**核心目标:**
- 提高有机搜索流量
- 改善用户体验
- 增强网站权威性

**三大支柱:**
1. **技术 SEO** - 优化网站技术基础
2. **内容 SEO** - 创建高质量内容
3. **外链建设** - 建立权威性链接

2. 实体关系清晰化

建议: 使用明确的关联词

**好的示例:**
- SEO **包含** 技术SEO、内容SEO、外链建设
- 关键词研究 **属于** SEO 的一部分
- 外链建设 **影响** 域名权威度

❌ **不好的示例:**
- SEO 和技术SEO
- 关键词研究、SEO
- 外链建设影响排名

3. Schema.org 标记完整化

建议: 添加所有必需字段

{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "必须包含",
  "author": "必须包含",
  "datePublished": "必须包含",
  "publisher": "必须包含",
  "about": "推荐包含(帮助 AI 理解主题)",
  "keywords": "推荐包含(关键词关联)"
}

📋 实施清单

立即添加到页面

本周完成

  • 完善所有相关实体的描述
  • 建立内部链接网络
  • 更新知识图谱

持续优化

  • 监控新的实体出现
  • 定期更新关系
  • 测试 AI 理解效果

数据文件: .claude-flow/cache/reports/geo/entities-20240115.json Schema 验证: https://validator.schema.org/


## 使用示例

```bash
# 自动检测 Schema 类型
/geo-entity-extraction post.md

# 指定 Article 类型
/geo-entity-extraction post.md --format Article

# 生成 FAQPage Schema
/geo-entity-extraction faq.md --format FAQPage

# 提取网页实体
/geo-entity-extraction https://example.com

相关命令

  • /geo-content-audit - 完整 GEO 审计
  • /structured-data - 生成其他 Schema 类型
  • /seo-audit - 传统 SEO 审计