公安网爬虫代码优化

盛长浩
1 parent 494c85fb
Showing 1 changed file with 26 additions and 4 deletions
src/main/java/com/mass/impl/PoliceNewsCrawlerServiceImpl.java
--- a/src/main/java/com/mass/impl/PoliceNewsCrawlerServiceImpl.java
View file @e32bb14
+++ b/src/main/java/com/mass/impl/PoliceNewsCrawlerServiceImpl.java
View file @e32bb14
@@ -89,9 +89,6 @@ public class PoliceNewsCrawlerServiceImpl implements PoliceNewsCrawlerService {
                 String href = element.attr("href");
                 String title = element.text();
-                System.out.println("界面href: " + href);
-                System.out.println("界面title: " + title);
-
                 if (href != null && !href.isEmpty() && title != null && !title.isEmpty()) {
                     try {
                         // 确保URL是绝对路径，并替换域名为IP
@@ -111,6 +108,31 @@ public class PoliceNewsCrawlerServiceImpl implements PoliceNewsCrawlerService {
                                 .timeout(TIMEOUT)
                                 .get();
+                        // 去除表头部分 (div.headDPS)
+                        Elements headDpsElements = detailDoc.select("div.headDPS");
+                        headDpsElements.remove();
+
+                        // 去除位置导航部分 (div.position)
+                        Elements positionElements = detailDoc.select("div.position");
+                        positionElements.remove();
+
+                        // 去除底部部分 (div.bottomDPS)
+                        Elements bottomDpsElements = detailDoc.select("div.bottomDPS");
+                        bottomDpsElements.remove();
+
+                        // 补全正文中的下载文件地址
+                        Elements downloadLinks = detailDoc.select("div.mainsub a[href]");
+                        for (Element link : downloadLinks) {
+                            String fileHref = link.attr("href");
+                            if (fileHref.startsWith("/") || fileHref.startsWith("uploadfiles/")) {
+                                // 补全下载文件地址
+                                String fullUrl = "http://53.1.230.100" +
+                                        (fileHref.startsWith("/") ? "" : "/") +
+                                        fileHref;
+                                link.attr("href", fullUrl);
+                            }
+                        }
+
                         // 去除标题中的访问量数字和括号
                         String cleanTitle = removeAccessCountFromTitle(title);
@@ -118,7 +140,7 @@ public class PoliceNewsCrawlerServiceImpl implements PoliceNewsCrawlerService {
                         String fileName = cleanTitle.replaceAll("[\\\\/:*?\"<>|]", "_") + ".html";
                         System.out.println("生成fileName: " + fileName);
-                        // 保存HTML内容
+                        // 保存HTML内容（已去除多余部分并补全下载地址）
                         Path filePath = Paths.get(crawlerConfig.getDir(), fileName);
                         Files.write(filePath, detailDoc.html().getBytes());