Sphider索引（pdf，xls，doc，...）mysql中奇怪的lambda字符

im using sphider, to create some kind of fulltext search above shared network drive, im almost done, but i get stucked on this. Im indexing txt,pdf, xls, etc file content, but i noticed, that in mysql DB i have stored some characters called lambda_[number] or some combinations with other words, but always its lambda word. It sounds like some unprintable character, or other little grinch to me.

So i decided to remove this pain by utf8_encode(preg_replace('/[\x00-\x1F\x80-\xFF]/', '', $fileOutput)); but without succes. My DB collation is utf8_general_ci. Any ideas how to escape this little troll?

and whole file parser code for better understand what am i doing and all parsing functions, but issue will be probably with escaping.

    function readTextFile($filePath) {
    $fileContent = file_get_contents($filePath);

    return $fileContent;
}

// -------------- START PARSE MS OFFICE FILES BLOCK 

function parsePPT($filename) {
// This approach uses detection of the string "chr(0f).Hex_value.chr(0x00).chr(0x00).chr(0x00)" to find text strings, which are then terminated by another NUL chr(0x00). [1] Get text between delimiters [2]
    $fileHandle = fopen($filename, "r");
    $line = @fread($fileHandle, filesize($filename));
    $lines = explode(chr(0x0f), $line);
    $outtext = '';

    foreach ($lines as $thisline) {
        if (strpos($thisline, chr(0x00) . chr(0x00) . chr(0x00)) == 1) {
            $text_line = substr($thisline, 4);
            $end_pos = strpos($text_line, chr(0x00));
            $text_line = substr($text_line, 0, $end_pos);
            $text_line = preg_replace("/[^a-zA-Z0-9\s\,\.\-
\t@\/\_\(\)]/", "", $text_line);
            if (strlen($text_line) > 1) {
                $outtext.= substr($text_line, 0, $end_pos) . "
";
            }
        }
    }
    return $outtext;
}

function pptx2text($filename) {
    $zip = new ZipArchive;

    // Open received archive file
    if (true === $zip->open($filename)) {

        // If done, search for the data file in the archive
        $dia = 1;
        $data = array();
        $output = "";

        while (($index = $zip->locateName("ppt/slides/slide$dia.xml") ) !== false) {
            $data[$dia] = $zip->getFromIndex($index);
            $xml = str_replace("</a:t>", " </a:t>", $data[$dia]);
            $output.=$xml;
            $dia++;
        }

        $zip->close();
        return strip_tags($output);
    } else {
        return "";
    }
}

function xlsx2text($filename) {
    $zip = new ZipArchive;
    // Open received archive file
    if (true === $zip->open($filename)) {

        // If done, search for the data file in the archive
        $dia = 1;
        $data = array();
        $output = "";

        while (($index = $zip->locateName("xl/worksheets/sheet$dia.xml") ) !== false) {
            $data[$dia] = $zip->getFromIndex($index);
            //$pageContent .= $data[$dia];
            $xml = str_replace("</a:t>", " </a:t>", $data[$dia]);
            $output.=$xml;
            $dia++;
        }

        $zip->close();
        return strip_tags($output);
    } else {
        return "";
    }
}

function docx2text($filename) {
    return readZippedXML($filename, "word/document.xml");
}

function readZippedXML($archiveFile, $dataFile) {
    // Create new ZIP archive  
    $zip = new ZipArchive;

    // Open received archive file  
    if (true === $zip->open($archiveFile)) {
        // If done, search for the data file in the archive  
        if (($index = $zip->locateName($dataFile)) !== false) {
            // If found, read it to the string  
            $data = $zip->getFromIndex($index);
            $data = str_replace("></", "> </", $data);
            // Close archive file
            $zip->close();
            // Load XML from a string  
            // Skip errors and warnings  
            $xml = new DOMDocument();
            $xml->loadXML($data, LIBXML_NOENT | LIBXML_XINCLUDE | LIBXML_NOERROR | LIBXML_NOWARNING);
            //$xml = DOMDocument::loadXML($data, LIBXML_NOENT | LIBXML_XINCLUDE | LIBXML_NOERROR | LIBXML_NOWARNING);
            // Return data without XML formatting tags
            return strip_tags($xml->saveXML());
            return $xml;
        }
        $zip->close();
    }
    // In case of failure return empty string  
    return "";
}



function parsePDF($fileName){
    require('tools/pdf2text.php');
    $pdfClass = new PDF2Text();
    $pdfClass->setFilename($fileName);
    $pdfClass->decodePDF();
    return $pdfClass->output();
}

// -------------- END PARSE MS OFFICE FILES BLOCK 


$fileType = filter_input(INPUT_GET, 'fileType');
$filePath = filter_input(INPUT_GET, 'filePath');

$serverUri = $_SERVER['REQUEST_URI'];
$_SERVER['REQUEST_URI'] = "testval";
$secondUri = $_SERVER['REQUEST_URI'];
$fileTitle = trim(str_replace("\\", " ",$filePath));

$fileOutput = "<html><head><title>".$fileTitle."</title></head><body>";

switch ($fileType) {
    case 'txt':
        $fileOutput .= readTextFile($filePath);
        break;
    case 'pptx':
        $fileOutput .= pptx2text($filePath);
        break;
    case 'docx':
        $fileOutput .= docx2text($filePath);
        break;
    case 'xlsx':
        $fileOutput .= xlsx2text($filePath);
        break;
    case 'ppt':
        $fileOutput .= parsePPT($filePath);
        break;
    case 'pdf':
        $fileOutput .= parsePDF($filePath);
        break;
    default:
        return false;
}
$fileOutput .= "</body>";
echo utf8_encode(preg_replace('/[\x00-\x1F\x80-\xFF]/', '', $fileOutput));

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

报告相同问题？

关注问题

PHP中的Mysql表索引 mysql php
2012-09-18 15:45

回答 2 已采纳 Solution 1: Use MyISAM table engine for your tables that contain the records you want to search.
[搜索链接]Sphider--开源的蜘蛛程序_sphider.rar
2024-04-21 14:56

【项目资源】：包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、...
[搜索链接]Sphider--开源的蜘蛛程序_sphider.zip
2024-03-15 08:01

[搜索链接]Sphider--开源的蜘蛛程序_sphider.zip
(php)sphider.rar_Sphider_php sphid_php sphider_sphider p_sphide
2022-09-20 14:11

开源的蜘蛛程序，后台可以定制抓取来源，并进行索引。
[搜索链接]Sphider-plus (带蜘蛛搜索引擎程序) v1.5_sphider.rar
2024-04-21 11:34

【项目资源】：包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、...
[搜索链接]Sphider-plus (带蜘蛛搜索引擎程序) v1.5_sphider.zip
2024-03-30 21:06

[搜索链接]Sphider-plus (带蜘蛛搜索引擎程序) v1.5_sphider.zip
sphider 丁廷臣简体中文完美汉化版带蜘蛛搜索引擎程序 v1.3.4.rar
2019-07-05 08:17

sphider 丁廷臣简体中文完美汉化版带蜘蛛搜索引擎程序 v1.3.4是最官方的新版，免费开源,用官方最新发布原版汉化。未更改任何内核文件。 Sphider 是一个完美的带有蜘蛛的搜索引擎程序 Sphider是一个轻量级，采用PHP...
Sphider-plus (带蜘蛛搜索引擎程序) v2.0.rar
2019-07-07 07:05

Sphider Plus v1.5这是最新版，免费开源 Sphider 是一个完美的带有蜘蛛的搜索引擎程序继Sphider v1.3.4 完美汉化版后，又对一关于IIS支持的重大BUG问题给予修补。增加了很多特色功能，数据结构进行重大优化，...
【PHP项目源码-毕业设计期末大作业】Sphider--开源的蜘蛛程序_sphider.zip
2023-05-06 12:42

PHP后端项目整站源码毕业设计期末大作业 PHP后端项目整站源码毕业设计期末大作业 PHP后端项目整站源码毕业设计期末大作业 PHP后端项目整站源码毕业设计期末大作业 PHP后端项目整站源码毕业设计期末大作业 ...
【PHP项目源码-毕业设计期末大作业】Sphider-plus (带蜘蛛搜索引擎程序) v1.5_sphider.zip
2023-05-06 12:42

PHP后端项目整站源码毕业设计期末大作业 PHP后端项目整站源码毕业设计期末大作业 PHP后端项目整站源码毕业设计期末大作业 PHP后端项目整站源码毕业设计期末大作业 PHP后端项目整站源码毕业设计期末大作业 ...
Sphider Community Version:在社区论坛中添加了功能-开源
2021-05-15 05:20

http://www.sphider.eu/forum/read.php?3,6156“感谢，积极” Sphider-CV允许您使用“ .sh”脚本编制索引，但仍保留默认功能。由于需要运行.sh文件，因此该版本在WINDOWS服务器上不起作用。它需要进行一些修改...
基于HTML实现搜索链接网站_Sphider--开源的蜘蛛程序_sphider(HTML源码+数据集+项目使用说明).rar
2024-04-25 00:55

【项目资源】：包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、...
sphider 中文不在乱码
2010-08-18 14:48

最近应朋友的要求，帮忙做一下本地化的搜索引擎，所以花了点时间探索sphider，刚开始也跟很多网友一样涉及到了字符编码、乱码的问题。可以看到拉丁字符都正常显示而中文字符都是乱码。在我的数据库里使用 utf8_...
Sphider Plus-开源
2021-06-29 14:59

Spider-plus 是一个基于 Ando Saabas 创建的原始 ... 在原始 Spider 前面的语言文件中添加了几条消息。我们邀请您翻译您的母语，然后与社区共享文件。对于 Spider-plus 的未来版本，也非常欢迎模组、改进和错误修复。
Sphider 带蜘蛛搜索引擎程序PHP汉化版
2021-05-09 12:27

内容索引:PHP源码,查询搜索,搜索引擎　Sphider是基于PHP环境，程序很小巧，原版程序是国外的，界面纯英文，由丁廷臣汉化，现在界面操作语言都是中文了，在汉化过程中，款对程序代码进行任何修改，保证原汁原味，开源...
Sphider-plus-开源
2021-05-03 06:54

该项目基于Ando SaabasPHP Sphider搜索引擎，该引擎在www.sphider.eu上发布。由于他专注于基本功能，因此开发人员和最终用户可能会在这里找到其他模块，插件，并准备使用完整版本。
没有解决我的问题, 去提问

悬赏问题

¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么
¥15 banner广告展示设置多少时间不怎么会消耗用户价值
¥16 mybatis的代理对象无法通过@Autowired装填
¥15 可见光定位matlab仿真
¥15 arduino 四自由度机械臂
¥15 wordpress 产品图片 GIF 没法显示
¥15 求三国群英传pl国战时间的修改方法
¥15 matlab代码代写，需写出详细代码，代价私
¥15 ROS系统搭建请教（跨境电商用途）
¥15 AIC3204的示例代码有吗，想用AIC3204测量血氧，找不到相关的代码。

码龄粉丝数原力等级 --

Sphider索引（pdf，xls，doc，...）mysql中奇怪的lambda字符

0条回答默认最新

悬赏问题

Sphider索引（pdf，xls，doc，...）mysql中奇怪的lambda字符

0条回答 默认 最新

悬赏问题

0条回答默认最新